ISO 28500: de internationale norm achter WARC
ISO 28500 is de internationale standaard die het WARC-formaat vastlegt. De norm bepaalt hoe een webarchief is opgebouwd, zodat archieven nu en over decennia door verschillende systemen gelezen kunnen worden.
WARC 1.1, vastgelegd in ISO 28500:2017
De huidige versie is ISO 28500:2017, die WARC 1.1 beschrijft. Een .warc-bestand is opgebouwd uit opeenvolgende records — elk met een korte kop en daarna de eigenlijke inhoud. De norm definieert verschillende recordtypen, waaronder warcinfo (informatie over de crawl), request en response (de daadwerkelijke uitwisseling met de server) en revisit (een verwijzing naar een eerder vastgelegde, ongewijzigde respons).
Verplichte en aanbevolen velden
Elke recordkop bevat een aantal velden. De norm maakt onderscheid tussen wat altijd aanwezig moet zijn en wat aanbevolen is:
- Verplicht in vrijwel elk record:
WARC-Record-ID(een unieke identificatie),WARC-Type(het recordtype),WARC-Date(het tijdstip) enContent-Length; - Aanbevolen waar van toepassing:
WARC-Target-URI(de gearchiveerde URL),Content-TypeenWARC-Payload-Digest(een checksum over de inhoud); - Voorwaardelijk: een revisit-record vereist bijvoorbeeld een verwijzing naar het oorspronkelijke record, zodat deduplicatie herleidbaar blijft.
Hoe wij conformiteit borgen
Wij leggen vast in onbewerkte, ongecomprimeerde WARC conform ISO 28500 (WARC 1.1) — nooit in een afwijkend pakketformaat. De payload-digests gebruiken SHA-256, wat ook de basis is voor de doorzoekbare CDXJ-index en voor revisit-deduplicatie binnen de standaard. Doordat het formaat een open ISO-norm is, kunt u de bestanden op elk moment downloaden en met onafhankelijke gereedschappen controleren of openen — u zit nergens aan vast.
