Webarchivaris Webarchivaris

Open source website-archivering

Waarom open source

Bij het archiveren van overheidswebsites moet niet alleen de inhoud kloppen, maar moet ook aantoonbaar zijn hoe die inhoud is vastgelegd. Open-source software maakt het werkproces transparant: de gebruikte componenten zijn openbaar, controleerbaar en reproduceerbaar. U bent daardoor niet afhankelijk van een gesloten "black box" en zit nergens aan vast.

Het besturingssysteem: Linux

Het platform draait op Linux: stabiel, breed inzetbaar en goed te optimaliseren voor uiteenlopende doeleinden. Het vormt het betrouwbare fundament onder de hele archiveringsketen.

Opslag: S3-compatibel

De archieven bewaren we in S3-opslag — standaard in Nederland en altijd binnen de EU. Doordat we de open S3-standaard hanteren, kunt u kiezen voor uw eigen bucket of die van ons, bij elke S3-compatibele provider (zoals AWS, Scaleway of het open-source MinIO). Zo is er geen vendor lock-in en blijft de opslag schaalbaar en betrouwbaar.

Capture: Browsertrix

Het vastleggen gebeurt met Browsertrix, een moderne browsergebaseerde crawler. Browsertrix rendert de pagina's in een echte browser en legt daardoor ook JavaScript-gestuurde en dynamische inhoud vast. De crawler downloadt elke pagina van de te archiveren website en verpakt die in een webarchief (.warc).

Terugkijken: onze eigen replay-viewer

Voor het terugkijken hebben we onze eigen terugkijk-viewer ontwikkeld, gecombineerd met een S3 byte-range replay-engine en een CDXJ-index. Daarmee opent en toont u de gearchiveerde inhoud precies zoals die op het moment van archiveren was, inclusief full-text zoeken in de terugkijkfunctie.

Ontsluiting: Nginx

Voor het beschikbaar stellen en doorbladeren van de individuele .warc-bestanden gebruiken we de Nginx-webserver. Zo zijn de onderliggende archiefbestanden eenvoudig te benaderen, bijvoorbeeld bij overdracht naar een e-depot.

Controleerbaar en reproduceerbaar

Doordat alle kerncomponenten open source zijn, is het archiveringsproces van begin tot eind te verifiëren en te reproduceren. Lees ook over ons archiveringsplatform en het .warc-formaat.