Webarchivaris Webarchivaris

JavaScript en dynamische websites archiveren

Waarom een echte browser nodig is

Een eenvoudige crawler haalt alleen de ruwe HTML op die de server stuurt. Bij een single page app (SPA), een interactieve kaart of een pagina die gegevens nalaadt, staat de eigenlijke inhoud daar nog niet in: die wordt pas opgebouwd nadat de browser het JavaScript heeft uitgevoerd. Wie zo'n website met een traditionele crawler archiveert, bewaart een leeg omhulsel zonder de echte informatie.

Daarom archiveren wij met Browsertrix, een browsergebaseerde crawler. De pagina's worden daadwerkelijk in een volwaardige, geautomatiseerde browser geladen en gerenderd — precies zoals een gewone bezoeker ze krijgt. Alle scripts worden uitgevoerd, alle resources worden geladen en het resultaat wordt vastgelegd in het .warc-formaat.

Gedrag simuleren: autoscroll, autoplay en autoclick

Veel inhoud verschijnt pas na een handeling van de bezoeker. Om dat na te bootsen voert de crawler tijdens het archiveren gedrag uit in de pagina:

Zo komt ook inhoud achter interacties in het archief terecht, in plaats van alleen wat direct bij het laden zichtbaar is.

CMS-agnostisch en compleet

Omdat wij vastleggen wat de browser ziet, maakt het niet uit welk systeem uw website draait of hoe modern de techniek is. Onderdelen die principieel niet te archiveren zijn — zoals afgeschermde of streaming-only content — registreren wij apart, zodat de grenzen van het archief altijd transparant zijn. Lees ook over niet-archiveerbare content.

Meer weten over de techniek erachter? Bekijk ons archiveringsplatform, lees wat een .warc-archief precies is, en hoe u het crawlbereik instelt met scope en diepte.