Open source website-archivering
Ons platform is gebouwd op gecontroleerde open-source software. Daardoor is altijd controleerbaar en reproduceerbaar hoe een archief tot stand is gekomen — een belangrijke voorwaarde voor betrouwbaar overheidsarchief.
Waarom open source
Bij het archiveren van overheidswebsites moet niet alleen de inhoud kloppen, maar moet ook aantoonbaar zijn hoe die inhoud is vastgelegd. Open-source software maakt het werkproces transparant: de gebruikte componenten zijn openbaar, controleerbaar en reproduceerbaar. U bent daardoor niet afhankelijk van een gesloten "black box" en zit nergens aan vast.
Het besturingssysteem: Linux
Het platform draait op Linux: stabiel, breed inzetbaar en goed te optimaliseren voor uiteenlopende doeleinden. Het vormt het betrouwbare fundament onder de hele archiveringsketen.
Opslag: S3-compatibel
De archieven bewaren we in S3-opslag — standaard in Nederland en altijd binnen de EU. Doordat we de open S3-standaard hanteren, kunt u kiezen voor uw eigen bucket of die van ons, bij elke S3-compatibele provider (zoals AWS, Scaleway of het open-source MinIO). Zo is er geen vendor lock-in en blijft de opslag schaalbaar en betrouwbaar.
Capture: Browsertrix
Het vastleggen gebeurt met Browsertrix, een moderne browsergebaseerde crawler. Browsertrix rendert de pagina's in een echte browser en legt daardoor ook JavaScript-gestuurde en dynamische inhoud vast. De crawler downloadt elke pagina van de te archiveren website en verpakt die in een webarchief (.warc).
Terugkijken: onze eigen replay-viewer
Voor het terugkijken hebben we onze eigen terugkijk-viewer ontwikkeld, gecombineerd met een S3 byte-range replay-engine en een CDXJ-index. Daarmee opent en toont u de gearchiveerde inhoud precies zoals die op het moment van archiveren was, inclusief full-text zoeken in de terugkijkfunctie.
Ontsluiting: Nginx
Voor het beschikbaar stellen en doorbladeren van de individuele .warc-bestanden gebruiken we de Nginx-webserver. Zo zijn de onderliggende archiefbestanden eenvoudig te benaderen, bijvoorbeeld bij overdracht naar een e-depot.
Controleerbaar en reproduceerbaar
Doordat alle kerncomponenten open source zijn, is het archiveringsproces van begin tot eind te verifiëren en te reproduceren. Lees ook over ons archiveringsplatform en het .warc-formaat.
