Webarchivaris Webarchivaris

Wat is een CDXJ-index?

Een regel per opname

Waar een .warc-archief de onbewerkte serverresponsen bewaart (de daadwerkelijke HTML, afbeeldingen en scripts), is de CDXJ-index de tegenhanger die vastlegt wat er in die archieven zit. Voor elke opgenomen URL staat één regel met de belangrijkste kenmerken:

De basis voor terugkijken

Doordat de index per opname de offset en lengte bevat, hoeft onze terugkijk- en replay-omgeving niet het volledige archiefbestand te openen. Onze replay-engine doet een gerichte S3 byte-range-read: precies dat ene fragment wordt uit de opslag gehaald. Daardoor laadt een pagina uit een archief van vele gigabytes vrijwel direct, ongeacht hoe groot het bestand is.

Samenhang met zoeken en deduplicatie

De CDXJ-index werkt samen met de full-text zoekfunctie en met incrementeel archiveren. Omdat de digest per opname vastligt, herkent het systeem ongewijzigde pagina's en bewaart het die via ISO 28500-revisit-deduplicatie maar één keer — terwijl u in de doorzoekbare omgeving nog steeds elke datum terugvindt. De index blijft consistent over de hele keten van opnamen.