Webarchivaris Webarchivaris

Incrementeel archiveren met deduplicatie

Baseline en incremental

De eerste crawl is de baseline: daarin wordt de hele website volledig vastgelegd. Elke volgende crawl draait in incremental-modus en legt alleen vast wat is veranderd. Pagina's, afbeeldingen en bestanden die identiek zijn aan een eerdere opname worden niet opnieuw weggeschreven.

De dedup-index en revisit-records

Om te herkennen wat ongewijzigd is, houden wij een deduplicatie-index bij op basis van de inhoud (checksums) van eerder gearchiveerde bestanden. Komt een bestand opnieuw langs en is het identiek, dan schrijft de crawler in plaats van een kopie een revisit-record weg. Dat revisit-record is onderdeel van de WARC-norm (ISO 28500) en verwijst naar de eerdere, originele opname van precies dezelfde inhoud.

Belangrijk is dat de deduplicatie over crawls heen werkt: een bestand dat al maanden geleden is vastgelegd, hoeft ook nu niet opnieuw te worden opgeslagen. Zo blijft elke nieuwe opname klein, terwijl elk momentopname-tijdstip toch volledig terug te kijken is.

Opslag besparen zonder volledigheid te verliezen

Het resultaat is dat u veel vaker kunt archiveren zonder dat de opslag explodeert. Elke momentopname blijft een volledige weergave van de website op dat moment: bij het terugkijken worden de revisit-records automatisch naar de oorspronkelijke inhoud opgelost, zodat u nooit een gat in een gearchiveerde pagina ziet. U bespaart opslagkosten, niet informatie.

Past binnen de archiefnorm

Omdat de deduplicatie gebruikmaakt van standaard revisit-records uit ISO 28500, blijven de archieven volledig conform de norm en uitwisselbaar. De integriteit blijft geborgd via checksums per bestand.

Lees verder over het .warc-formaat, hoe u geplande, terugkerende archivering instelt en hoe het terugkijken in de replay-omgeving werkt.