Toegankelijkheid

Skip to main content
Richtlijn archiveren overheidswebsites

Richtlijn archiveren overheidswebsites

De Richtlijn archiveren overheidswebsites van het Nationaal Archief geeft duiding aan de manier waarop overheidswebsites gearchiveerd moeten worden en komt in feite voort uit de Archiefwet.

De richtlijn archiveren overheidswebsites bepaalt o.a. het volgende (samengevat):

---

Dagelijks harvesten

Harvesten houdt in het ophalen en downloaden van een pagina c.q. website. De richtlijn bepaalt dat dit dagelijks moet gebeuren zodat informatie die verdwijnt of wijzigt later nog terug te halen is.

Volledig harvesten

De hele website moet in zijn geheel geharvest worden tenzij dat juridisch of technisch niet mogelijk is. Er moet een lijst zijn met niet-harvestbare content.

.warc standaard

De webarchieven moeten worden bewaard in het .warc bestandsformaat (ISO 28500). Dit is de internationale standaard voor webarchief bestanden.

Grootte

Elk .warc webarchief mag maximaal 1GB groot zijn. 

Compressie

Op de .warc archieven mag geen compressie toegepast zijn omdat niet zeker is dat de compressietechniek in de toekomst nog beschikbaar of gangbaar zal zijn en omdat een bestand dan in zijn geheel onleesbaar wordt als een deel beschadigd is.

Alle requests en responses

In het .warc website archief moeten alle requests en responses vastgelegd worden zodat duidelijk is hoe men op een pagina terecht komt inclusief doorverwijzingen.

Verplichte velden in het .warc bestand

In het WARC-infoblok:
- Software
- Format
- Robots

In de header van elk WARC-bestand
- WARC-Block-Digest
- Content-Type
- WARC-WARCinfo-ID

In de request en response-blokken:
- WARC-Target-URI

Neem contact op

Wilt u zich niet bezig houden met de details? Wij nemen e.e.a. graag uit uw handen. We beantwoorden graag uw vragen en voorzien u vrijblijvend van een prijsopgave.

Hulp nodig?

Wij adviseren u graag. Neem contact op voor antwoord op uw vragen of een vrijblijvende prijsopgave.