-
NL opslag
-
ISO 28500
-
Eenvoudig
-
Betaalbaar
-
Open-source
Welkom

Nieuwerwetse website archiveerders die het belang van website archivering snappen.
Webarchivaris.nl is onderdeel van bureau 'Als een Rode Lap'. Wij zijn websitebouwers sinds 2011. We weten alles van websites en webhosting en dit stelt ons in staat om een meest moderne website archiveringsdienst aan te bieden.
Tussen allerlei ouderwetse aanbieders springen wij er uit! Met innovatie, service en gebruik van open-source software. Want hoe kunt u nou verifiëren dat website archieven authentiek zijn als u niet kunt nagaan hoe het achterliggende mechanisme bij de webarchiveerder werkt? Dan kan en moet anders, dachten wij.
Wij werken daarom enkel met open-source software waarvan u de werking kunt nagaan. Website archieven worden onversleuteld opgeslagen in openbaar beschikbare bestandsformaten en middels checksums kunt u nagaan of het archief ongewijzigd is.
-
Open-source software die u zelf kunt inzien
-
Door moderne techniek zeer betaalbaar
-
Data opslag in een Nederlands datacenter bij TransIP
-
ISO 28500 .warc archieven
Wat is website archivering?
We leggen de basis graag even uit.
De noodzaak voor website archivering kan voortkomen uit de wettelijke eis, vastgelegd in de Archiefwet. Maar ook vanuit compliancy en preservering kunt u de behoefte hebben om uw website te laten archiveren.
Het archiveren van een website houdt in dat we naar uw keuze elke dag, week of maand een soort foto maken van uw website inclusief alle pagina's. Uw complete website wordt opgeslagen in een webarchief. Dit archiefbestand is niet aan te passen zonder dat dit zichtbaar wordt (de checksums, datums/metadata komen dan niet meer overeen). Dat betekend dat deze archiefbestanden gebruikt kunnen worden in bijvoorbeeld juridische geschillen of andere gevallen waarin men zeker moet zijn van de authenticiteit van de inhoud van het webarchief.
De webarchieven worden opgeslagen in een bestand dat door iedereen te openen is. Zo kunnen bijvoorbeeld burgers, bestuurders, ambtenaren, advocaten, rechters, officieren van justitie of journalisten elke pagina van uw website terugkijken zoals die was op het moment dat het webarchief gemaakt werd.

De opslag van webarchieven
Heel, heel veel data die betrouwbaar opgeslagen wordt.
Eén van de grootste uitdagingen voor het draaien van een betrouwbare website archiveringsdienst / harvestingdienst is de opslag. Een enkel webarchief is namelijk al snel meer dan 1000MB groot. We zorgen er daarom voor dat we dit heel goed geregeld hebben.
Voor een grote website die elke dag gearchiveerd moet worden en een bewaartermijn van 10 tot 20 jaar kost dit uiteindelijk terrabytes aan data. De kunst om het beheersbaar te houden zit 'm in schaalbare opslag en het dedupliceren van dubbele data. Dit houdt de kosten in de hand en beperkt de complexiteit van het hardware platform.
Deduplicatie binnen webarchieven van website archivering
De betrouwbaarste manier om data te dedupliceren met behoud van de checksum van archiefbestanden is door op bitniveau identieke bitreeksen te ontdubbelen. Alle identieke reeksen worden verwijderd en op die plek komt een snelkoppeling naar de eerste reeks. We gebruik en hiervoor geavanceerde functionaliteit in Btrfs en/of ZFS.
Schaalbare opslag
We maken gebruik van virtuele schijven die draaien op meerdere fysieke opslagschijven. Dit zorgt er enerzijds voor dat we de inkoop van schijfruimte dynamisch kunnen regelen al naar gelang verbruik en dat data niet afhankelijk is van 1 fysieke schijf.

Webarchieven bekijken
Hoe kunt u oude webarchieven terugkijken?
Het doel van website archivering is natuurlijk om pagina's terug te zien. Voor de archiefwet is dit stukje nauwelijks geregeld (die gaat vooral over het archiveren zelf). Wij stellen een open-source viewer beschikbaar waarmee u geheel op ons platform archieven kunt openen en terugzien.
Archiveren wij uw website? Dan ontvangt u van ons een link naar een openbare pagina die u naar wens op uw eigen website kunt publiceren zodat iedereen uw gearchiveerde pagina's kan terugkijken.
Dit werkt heel eenvoudig. Men navigeert simpelweg naar het gewenste jaar, de maand en de dag in een agenda-weergave.

Voorbeeld
Archiefbestanden downloaden
Op deze pagina ziet u bijvoorbeeld de archivering van www.regio-hartvanbrabant.nl. U kiest een dag en vervolgens ziet u direct hoe de website er toen uit zag inclusief bestanden, links en meer. U kunt ook over de website browsen.
Rechtstreeks linken naar gearchiveerde pagina's
Het gaat nog verder: als u een pagina bezoekt via de bovenstaande wijze dan kunt u die terugblik direct naar iemand doorsturen door de url in uw browser te kopiëren. Die verwijst dan naar de website, pagina en datum die u op dat moment bekijkt.
Viewer ook offline beschikbaar
U kunt onze archieven ook offline bekijken in de Replayweb viewer (downloaden voor offlinegebruik) op Windows of Mac.
Van start gaan
Hoe gaat het in zijn werk?
Het is gelukkig heel simpel. U heeft zelf geen technische kennis nodig. Nadat u contact hebt opgenomen indexeren wij een keer uw website en schatten we in hoeveel ruimte en CPU-tijd het archiveren van uw website kost. U ontvangt vervolgens een offerte.
Na het accepteren van onze offerte ontvangt u de link waar uw archieven op te zien zullen zijn, onderverdeeld in mappen naar jaartal > maand > dag.
Wij nemen het crawlen en archiveren van uw website voor onze rekening. Al naar gelang elke dag, week of maand. Dit vereist geen aanpassingen aan uw zijde, we hebben alleen maar uw domeinnaam nodig.

Details
The nitty gritty.
Opslagformaat
We kunnen archieven opslaan in het .warc formaat (ISO 28500, conform de richtlijn archiveren overheidswebsites) of .wacz (moderner formaat, inclusief zoekenfunctie).
Voor elk CMS
Onze crawler ziet de output van uw CMS, de pagina's, alsof het een bezoeker is. Het maakt dus niet uit welk CMS er achter uw website zit.
Opslag in Nederland
Alle webarchieven worden opgeslagen in een Nederlands datacenter en verlaat dus niet de Nederlandse bodem.
Open-source systeem
Wij bouwen op Linux, ZFS, BTRFS, Browsertrix, PYWB, Replayweb, Nginx. De output is dus te reproduceren en controleren.
Gunstig geprijsd
Mede dankzij deduplicatie op bitniveau en het gebruik van open-source software kunnen we gunstige tarieven hanteren.
Integriteit & checksums
Van alle .warc archieven wordt na het genereren een checksum gemaakt en opgeslagen in een los tekstbestand in dezelfde map. De .wacz archieven hebben intern ook checksums.