Webarchivaris Webarchivaris

Wat is een .warc-archief?

De standaard: ISO 28500

Het .warc-formaat is vastgelegd in de internationale norm ISO 28500 (WARC 1.1). Wij archiveren conform de richtlijn voor het archiveren van overheidswebsites en slaan ongecomprimeerd op, zodat de bestanden ook over 10 tot 20 jaar nog leesbaar zijn.

Onveranderbaar en aantoonbaar authentiek

Een archiefbestand is niet aan te passen zonder dat dit zichtbaar wordt: checksums, datums en metadata komen dan niet meer overeen. Elk .warc-archief kan bovendien voorzien worden van een digitale handtekening, los opgeslagen als juridisch bewijs. Daardoor zijn de archieven bruikbaar in juridische geschillen en overal waar de authenticiteit van de inhoud zeker moet zijn.

Doorzoekbaar: de CDXJ-index

Bij elke crawl hoort een CDXJ-index. Die maakt het mogelijk om snel naar de juiste opname te navigeren en het archief op datum en URL te ontsluiten.

Open standaard, geen lock-in

Het .warc-formaat is een open standaard. U zit nergens aan vast: u kunt de archieven op elk moment downloaden en zélf bepalen wanneer u ze overdraagt aan een e-depot of naar uw eigen opslag. Wij bewaren ze zo lang u wilt — er is geen verplichte overdracht, en een e-depot moet aan ISO 28500 voldoen.

Terugkijken

Via onze zelf ontwikkelde terugkijk-viewer en een S3 byte-range replay-engine kijkt u de archieven 'live' terug: u selecteert een datum en bekijkt de website zoals die er toen uitzag, met navigatie tussen pagina's en datums. In de terugkijkfunctie zoekt u bovendien full-text door de gearchiveerde inhoud. U kunt de .warc-bestanden ook rechtstreeks downloaden.