Webarchivaris Webarchivaris

Crawlbereik instellen: scope, diepte en limieten

Het scope-type bepaalt de grens

Het scope-type legt vast hoe ver een crawl mag reiken vanaf het startadres:

Zo houdt u de archivering beperkt tot precies dat deel van uw website dat u wilt bewaren.

Include- en exclude-regels

Binnen de gekozen scope verfijnt u het bereik met include- en exclude-regels (regex). Met een exclude-regel sluit u bijvoorbeeld kalenders, filterpagina's, agendalinks of printversies uit die anders eindeloos nieuwe varianten genereren. Met een include-regel haalt u juist een specifiek onderdeel er weer bij. Daarmee voorkomt u dat de crawl vastloopt in oneindige reeksen URL's.

Limieten: diepte en aantal pagina's

U stelt een maximale diepte in (hoeveel kliks diep vanaf de startpagina) en een maximaal aantal pagina's. Deze limieten zorgen voor een voorspelbare, beheersbare crawl en beschermen zowel onze infrastructuur als uw webserver tegen overbelasting. Voor het meenemen van bijvoorbeeld stylesheets, afbeeldingen of PDF's die net buiten de scope vallen, kunt u extra hops toestaan: de crawler mag dan een vast aantal stappen buiten de scope treden om gekoppelde bestanden alsnog op te halen, zodat pagina's volledig blijven.

Seedlijsten: meerdere startpunten

Een crawl begint bij één of meer startadressen (seeds). Met een seedlijst geeft u meerdere ingangen mee — handig wanneer delen van uw website niet via gewone links bereikbaar zijn, of wanneer u meerdere websites in één archief wilt samenbrengen.

Zie ook hoe wij JavaScript en dynamische websites archiveren, lees over incrementeel archiveren met deduplicatie en bekijk ons archiveringsplatform.