JavaScript en dynamische websites archiveren
Veel moderne websites bouwen hun inhoud pas in de browser op met JavaScript. Een klassieke crawler ziet dan een vrijwel lege pagina. Wij leggen dynamische websites daarom vast met een echte browser, zodat ook scriptgestuurde inhoud volledig in het archief terechtkomt.
Waarom een echte browser nodig is
Een eenvoudige crawler haalt alleen de ruwe HTML op die de server stuurt. Bij een single page app (SPA), een interactieve kaart of een pagina die gegevens nalaadt, staat de eigenlijke inhoud daar nog niet in: die wordt pas opgebouwd nadat de browser het JavaScript heeft uitgevoerd. Wie zo'n website met een traditionele crawler archiveert, bewaart een leeg omhulsel zonder de echte informatie.
Daarom archiveren wij met Browsertrix, een browsergebaseerde crawler. De pagina's worden daadwerkelijk in een volwaardige, geautomatiseerde browser geladen en gerenderd — precies zoals een gewone bezoeker ze krijgt. Alle scripts worden uitgevoerd, alle resources worden geladen en het resultaat wordt vastgelegd in het .warc-formaat.
Gedrag simuleren: autoscroll, autoplay en autoclick
Veel inhoud verschijnt pas na een handeling van de bezoeker. Om dat na te bootsen voert de crawler tijdens het archiveren gedrag uit in de pagina:
- Autoscroll — naar beneden scrollen, zodat lazy-loading afbeeldingen en oneindig doorladende lijsten ("infinite scroll") alsnog laden.
- Autoplay — ingesloten media en carrousels afspelen, zodat ook die onderdelen worden meegenomen.
- Autoclick — uitklapbare elementen, tabbladen en menu's openen, zodat verborgen inhoud zichtbaar wordt voor de crawler.
Zo komt ook inhoud achter interacties in het archief terecht, in plaats van alleen wat direct bij het laden zichtbaar is.
CMS-agnostisch en compleet
Omdat wij vastleggen wat de browser ziet, maakt het niet uit welk systeem uw website draait of hoe modern de techniek is. Onderdelen die principieel niet te archiveren zijn — zoals afgeschermde of streaming-only content — registreren wij apart, zodat de grenzen van het archief altijd transparant zijn. Lees ook over niet-archiveerbare content.
Meer weten over de techniek erachter? Bekijk ons archiveringsplatform, lees wat een .warc-archief precies is, en hoe u het crawlbereik instelt met scope en diepte.
