Webarchivaris Webarchivaris

Ons archiveringsplatform

Capture met Browsertrix

Het archiveren gebeurt met Browsertrix: een moderne, browsergebaseerde crawler die de pagina's daadwerkelijk in een browser rendert en zo ook JavaScript-gestuurde inhoud, menu's en dynamische onderdelen meeneemt. De crawler werkt met meerdere parallelle workers, zodat ook grote websites efficiënt worden vastgelegd. Diepte, scope en frequentie zijn per website configureerbaar.

Het platform is volledig CMS-agnostisch: het ziet de pagina's precies zoals een gewone bezoeker ze krijgt en heeft geen toegang tot het achterliggende CMS nodig. Het maakt daardoor niet uit welk systeem uw website draait.

Het archiefformaat: .warc

De vastgelegde pagina's worden verpakt in .warc-archieven (Web ARChive), conform de internationale norm ISO 28500 (WARC 1.1) en de richtlijn voor het archiveren van overheidswebsites. Wij slaan ongecomprimeerd op, zodat de bestanden ook over 10 tot 20 jaar nog leesbaar zijn. Zie ook wat een .warc-archief precies is.

Index en opslag op S3

Bij elke crawl hoort een eigen CDXJ-index, die op S3 wordt bewaard. De opslag is S3-compatibel en kan in uw eigen bucket of in onze bucket draaien — standaard in Nederland en altijd binnen de EU. Doordat het S3-compatibel is (AWS, Scaleway, MinIO), is er geen vendor lock-in en kunt u de archieven op elk moment meenemen. Archivering verloopt incrementeel: alleen wijzigingen worden toegevoegd.

Terugkijken

Voor het terugkijken gebruiken we onze zelf ontwikkelde terugkijk-viewer in combinatie met een eigen S3 byte-range replay-engine. U selecteert een datum en bekijkt de website precies zoals die er toen uitzag, met navigatie tussen pagina's en datums. In de terugkijkfunctie zoekt u bovendien full-text door de gearchiveerde inhoud. De .warc-bestanden kunt u daarnaast exporteren: losse archieven per dag (jaar > maand > dag) downloaden, meerdere archieven ophalen via WebDAV, of via MDTO exporteren naar een SFTP-opslag.

Integriteit en koppelingen

De integriteit van de archieven is geborgd met checksums en een digitale handtekening per .warc-archief, los opgeslagen als juridisch bewijs. Voor integratie met uw eigen systemen zijn er een REST API en Webhooks beschikbaar.

Beveiliging en toegang

De toegang tot het platform is beveiligd met een wachtwoord, aangevuld met optionele tweefactorauthenticatie (TOTP). De archieven zelf staan in S3-opslag, standaard in Nederland en altijd binnen de EU.

Lees ook over onze archiveringsvoorziening en open source website-archivering.