Webarchivaris Webarchivaris

De basis van webarchivering

Wat is webarchivering?

Bij webarchivering wordt een website met behulp van software — webcrawlers of spiders — automatisch doorlopen, waarbij de aangetroffen informatie wordt verzameld: tekst, afbeeldingen, video en andere media, verspreid over de onderling gelinkte pagina's. Die vastlegging wordt opgeslagen, zodat de website ook na verloop van tijd raadpleegbaar blijft.

De stappen in het kort

Webarchivering verloopt grofweg via de volgende stappen, waarbij sommige uw verantwoordelijkheid zijn en andere die van ons als dienstverlener.

1. Bepalen en selecteren

U bepaalt welke websites gearchiveerd moeten worden. Dat kan vanwege het belang van de inhoud of vanwege een wettelijke verplichting, zoals de Archiefwet.

2. Crawlen en vastleggen

Wij leggen de geselecteerde website vast. De crawler doorloopt de pagina's en verzamelt automatisch de inhoud, inclusief tekst, afbeeldingen en media. Doordat we een browsergebaseerde crawler (Browsertrix) gebruiken, wordt ook JavaScript-gestuurde en dynamische inhoud meegenomen.

3. Opslag in een archiefformaat

De verzamelde gegevens worden opgeslagen in een archiefformaat: het .warc-bestand (Web ARChive), een internationale standaard (ISO 28500) voor het bewaren van webinhoud. Dit is meer dan een schermafbeelding of pdf: de onbewerkte serverresponsen worden bewaard, zodat de website later weer "live" is terug te kijken. Lees meer op wat is een .warc-archief.

4. Ontsluiten en terugkijken

De gearchiveerde website wordt doorbladerbaar via een eigen omgeving, en de .warc-bestanden zijn te downloaden. In de terugkijkfunctie zoekt u full-text door de gearchiveerde inhoud en navigeert u tussen datums en pagina's.

5. Duurzaam bewaren

Voor de lange termijn zorgen we dat de archieven toegankelijk blijven, ook als techniek veroudert. Waar nodig hoort daar in de toekomst conversie van formaat of migratie van dragers bij. Hierover leest u meer bij duurzaamheid.

6. Overdracht naar een e-depot

Na verloop van tijd — vaak na 10 tot 20 jaar — kunt u de .warc-archieven overdragen aan een gespecialiseerd e-depot, zoals dat van het Nationaal Archief, of de bewaartermijn laten verlopen. Omdat .warc een open standaard is, zit u nergens aan vast.

Waarom het ertoe doet

Het internet is vergankelijk: pagina's verdwijnen, sites worden vervangen en informatie raakt verloren. Door tijdig en conform de standaarden te archiveren, blijft aantoonbaar wat er gepubliceerd is — voor verantwoording, transparantie en het naleven van de Archiefwet. Bekijk ook het stappenplan en de veelgestelde vragen.