Crawlbereik instellen: scope, diepte en limieten
Welke pagina's horen wel bij uw website en welke niet? Met scope, diepte en duidelijke limieten bepaalt u precies wat er wordt gearchiveerd — niet te weinig, en geen ongewenste uitstapjes naar de rest van het web.
Het scope-type bepaalt de grens
Het scope-type legt vast hoe ver een crawl mag reiken vanaf het startadres:
- Page — alleen de opgegeven pagina('s), zonder de links te volgen.
- Prefix — alles onder een bepaald pad, bijvoorbeeld alleen
/nieuws/. - Host — alle pagina's op exact dezelfde hostnaam.
- Domain — de hele website inclusief subdomeinen.
Zo houdt u de archivering beperkt tot precies dat deel van uw website dat u wilt bewaren.
Include- en exclude-regels
Binnen de gekozen scope verfijnt u het bereik met include- en exclude-regels (regex). Met een exclude-regel sluit u bijvoorbeeld kalenders, filterpagina's, agendalinks of printversies uit die anders eindeloos nieuwe varianten genereren. Met een include-regel haalt u juist een specifiek onderdeel er weer bij. Daarmee voorkomt u dat de crawl vastloopt in oneindige reeksen URL's.
Limieten: diepte en aantal pagina's
U stelt een maximale diepte in (hoeveel kliks diep vanaf de startpagina) en een maximaal aantal pagina's. Deze limieten zorgen voor een voorspelbare, beheersbare crawl en beschermen zowel onze infrastructuur als uw webserver tegen overbelasting. Voor het meenemen van bijvoorbeeld stylesheets, afbeeldingen of PDF's die net buiten de scope vallen, kunt u extra hops toestaan: de crawler mag dan een vast aantal stappen buiten de scope treden om gekoppelde bestanden alsnog op te halen, zodat pagina's volledig blijven.
Seedlijsten: meerdere startpunten
Een crawl begint bij één of meer startadressen (seeds). Met een seedlijst geeft u meerdere ingangen mee — handig wanneer delen van uw website niet via gewone links bereikbaar zijn, of wanneer u meerdere websites in één archief wilt samenbrengen.
Zie ook hoe wij JavaScript en dynamische websites archiveren, lees over incrementeel archiveren met deduplicatie en bekijk ons archiveringsplatform.
