De basis van webarchivering
Webarchivering is het vastleggen en duurzaam bewaren van websites, zodat u later precies kunt terugzien wat er op een bepaald moment is gepubliceerd. Op deze pagina leest u stap voor stap hoe dat werkt.
Wat is webarchivering?
Bij webarchivering wordt een website met behulp van software — webcrawlers of spiders — automatisch doorlopen, waarbij de aangetroffen informatie wordt verzameld: tekst, afbeeldingen, video en andere media, verspreid over de onderling gelinkte pagina's. Die vastlegging wordt opgeslagen, zodat de website ook na verloop van tijd raadpleegbaar blijft.
De stappen in het kort
Webarchivering verloopt grofweg via de volgende stappen, waarbij sommige uw verantwoordelijkheid zijn en andere die van ons als dienstverlener.
1. Bepalen en selecteren
U bepaalt welke websites gearchiveerd moeten worden. Dat kan vanwege het belang van de inhoud of vanwege een wettelijke verplichting, zoals de Archiefwet.
2. Crawlen en vastleggen
Wij leggen de geselecteerde website vast. De crawler doorloopt de pagina's en verzamelt automatisch de inhoud, inclusief tekst, afbeeldingen en media. Doordat we een browsergebaseerde crawler (Browsertrix) gebruiken, wordt ook JavaScript-gestuurde en dynamische inhoud meegenomen.
3. Opslag in een archiefformaat
De verzamelde gegevens worden opgeslagen in een archiefformaat: het .warc-bestand (Web ARChive), een internationale standaard (ISO 28500) voor het bewaren van webinhoud. Dit is meer dan een schermafbeelding of pdf: de onbewerkte serverresponsen worden bewaard, zodat de website later weer "live" is terug te kijken. Lees meer op wat is een .warc-archief.
4. Ontsluiten en terugkijken
De gearchiveerde website wordt doorbladerbaar via een eigen omgeving, en de .warc-bestanden zijn te downloaden. In de terugkijkfunctie zoekt u full-text door de gearchiveerde inhoud en navigeert u tussen datums en pagina's.
5. Duurzaam bewaren
Voor de lange termijn zorgen we dat de archieven toegankelijk blijven, ook als techniek veroudert. Waar nodig hoort daar in de toekomst conversie van formaat of migratie van dragers bij. Hierover leest u meer bij duurzaamheid.
6. Overdracht naar een e-depot
Na verloop van tijd — vaak na 10 tot 20 jaar — kunt u de .warc-archieven overdragen aan een gespecialiseerd e-depot, zoals dat van het Nationaal Archief, of de bewaartermijn laten verlopen. Omdat .warc een open standaard is, zit u nergens aan vast.
Waarom het ertoe doet
Het internet is vergankelijk: pagina's verdwijnen, sites worden vervangen en informatie raakt verloren. Door tijdig en conform de standaarden te archiveren, blijft aantoonbaar wat er gepubliceerd is — voor verantwoording, transparantie en het naleven van de Archiefwet. Bekijk ook het stappenplan en de veelgestelde vragen.
