Toegankelijkheid

Skip to main content

Website laten archiveren?

Wij verzorgen sinds 2011 websites voor overheden en verzorgen het complete plaatje voor website archivering.

Welkom

Wie zijn wij?
Welkom
Nieuwerwetse website archiveerders die het belang van website archivering snappen.
WELKOM

Webarchivaris.nl is onderdeel van bureau 'Als een Rode Lap'. Wij zijn websitebouwers sinds 2011. We weten alles van websites en webhosting en dit stelt ons in staat om een meest moderne website archiveringsdienst aan te bieden.

Tussen allerlei ouderwetse aanbieders springen wij er uit! Met innovatie, service en gebruik van open-source software. Want hoe kunt u nou verifiëren dat website archieven authentiek zijn als u niet kunt nagaan hoe het achterliggende mechanisme bij de webarchiveerder werkt? Dan kan en moet anders, dachten wij.

Wij werken daarom enkel met open-source software waarvan u de werking kunt nagaan. Website archieven worden onversleuteld opgeslagen in openbaar beschikbare bestandsformaten en middels checksums kunt u nagaan of het archief ongewijzigd is.

  • Open-source software die u zelf kunt inzien

  • Door moderne techniek zeer betaalbaar

  • Data opslag in een Nederlands datacenter bij TransIP

  • ISO 28500 .warc archieven

Wat is website archivering?

We leggen de basis graag even uit.

De noodzaak voor website archivering kan voortkomen uit de wettelijke eis, vastgelegd in de Archiefwet. Maar ook vanuit compliancy en preservering kunt u de behoefte hebben om uw website te laten archiveren.

Het archiveren van een website houdt in dat we naar uw keuze elke dag, week of maand een soort foto maken van uw website inclusief alle pagina's. Uw complete website wordt opgeslagen in een webarchief. Dit archiefbestand is niet aan te passen zonder dat dit zichtbaar wordt (de checksums, datums/metadata komen dan niet meer overeen). Dat betekend dat deze archiefbestanden gebruikt kunnen worden in bijvoorbeeld juridische geschillen of andere gevallen waarin men zeker moet zijn van de authenticiteit van de inhoud van het webarchief.

De webarchieven worden opgeslagen in een bestand dat door iedereen te openen is. Zo kunnen bijvoorbeeld burgers, bestuurders, ambtenaren, advocaten, rechters, officieren van justitie of journalisten elke pagina van uw website terugkijken zoals die was op het moment dat het webarchief gemaakt werd.

Wat is website archivering

De opslag van webarchieven

Heel, heel veel data die betrouwbaar opgeslagen wordt.

Eén van de grootste uitdagingen voor het draaien van een betrouwbare website archiveringsdienst / harvestingdienst is de opslag. Een enkel webarchief is namelijk al snel meer dan 1000MB groot. We zorgen er daarom voor dat we dit heel goed geregeld hebben.

Voor een grote website die elke dag gearchiveerd moet worden en een bewaartermijn van 10 tot 20 jaar kost dit uiteindelijk terrabytes aan data. De kunst om het beheersbaar te houden zit 'm in schaalbare opslag en het dedupliceren van dubbele data. Dit houdt de kosten in de hand en beperkt de complexiteit van het hardware platform.

Deduplicatie binnen webarchieven van website archivering

De betrouwbaarste manier om data te dedupliceren met behoud van de checksum van archiefbestanden is door op bitniveau identieke bitreeksen te ontdubbelen. Alle identieke reeksen worden verwijderd en op die plek komt een snelkoppeling naar de eerste reeks. We gebruik en hiervoor geavanceerde functionaliteit in Btrfs en/of ZFS.

Schaalbare opslag

We maken gebruik van virtuele schijven die draaien op meerdere fysieke opslagschijven. Dit zorgt er enerzijds voor dat we de inkoop van schijfruimte dynamisch kunnen regelen al naar gelang verbruik en dat data niet afhankelijk is van 1 fysieke schijf.

De opslag van webarchieven

Webarchieven bekijken

Hoe kunt u oude webarchieven terugkijken?

Het doel van website archivering is natuurlijk om pagina's terug te zien. Voor de archiefwet is dit stukje nauwelijks geregeld (die gaat vooral over het archiveren zelf). Wij stellen een open-source viewer beschikbaar waarmee u geheel op ons platform archieven kunt openen en terugzien.

Archiveren wij uw website? Dan ontvangt u van ons een link naar een openbare pagina die u naar wens op uw eigen website kunt publiceren zodat iedereen uw gearchiveerde pagina's kan terugkijken.

Dit werkt heel eenvoudig. Men navigeert simpelweg naar het gewenste jaar, de maand en de dag in een agenda-weergave.

Webarchieven bekijken

Voorbeeld

Archiefbestanden downloaden

Op deze pagina ziet u bijvoorbeeld de archivering van www.regio-hartvanbrabant.nl. U kiest een dag en vervolgens ziet u direct hoe de website er toen uit zag inclusief bestanden, links en meer. U kunt ook over de website browsen.

Rechtstreeks linken naar gearchiveerde pagina's

Het gaat nog verder: als u een pagina bezoekt via de bovenstaande wijze dan kunt u die terugblik direct naar iemand doorsturen door de url in uw browser te kopiëren. Die verwijst dan naar de website, pagina en datum die u op dat moment bekijkt.

Viewer ook offline beschikbaar

U kunt onze archieven ook offline bekijken in de Replayweb viewer (downloaden voor offlinegebruik) op Windows of Mac.

Van start gaan

Hoe gaat het in zijn werk?

Het is gelukkig heel simpel. U heeft zelf geen technische kennis nodig. Nadat u contact hebt opgenomen indexeren wij een keer uw website en schatten we in hoeveel ruimte en CPU-tijd het archiveren van uw website kost. U ontvangt vervolgens een offerte.

Na het accepteren van onze offerte ontvangt u de link waar uw archieven op te zien zullen zijn, onderverdeeld in mappen naar jaartal > maand > dag.

Wij nemen het crawlen en archiveren van uw website voor onze rekening. Al naar gelang elke dag, week of maand. Dit vereist geen aanpassingen aan uw zijde, we hebben alleen maar uw domeinnaam nodig.

Van start gaan met website archiveren

Details

The nitty gritty.

Opslagformaat

We kunnen archieven opslaan in het .warc formaat (ISO 28500, conform de richtlijn archiveren overheidswebsites) of .wacz (moderner formaat, inclusief zoekenfunctie).

Voor elk CMS

Onze crawler ziet de output van uw CMS, de pagina's, alsof het een bezoeker is. Het maakt dus niet uit welk CMS er achter uw website zit.

Opslag in Nederland

Alle webarchieven worden opgeslagen in een Nederlands datacenter en verlaat dus niet de Nederlandse bodem.

Open-source systeem

Wij bouwen op Linux, ZFS, BTRFS, Browsertrix, PYWB, Replayweb, Nginx. De output is dus te reproduceren en controleren.

Gunstig geprijsd

Mede dankzij deduplicatie op bitniveau en het gebruik van open-source software kunnen we gunstige tarieven hanteren.

Integriteit & checksums

Van alle .warc archieven wordt na het genereren een checksum gemaakt en opgeslagen in een los tekstbestand in dezelfde map. De .wacz archieven hebben intern ook checksums.