Webarchivaris Webarchivaris

ISO 28500: de internationale norm achter WARC

WARC 1.1, vastgelegd in ISO 28500:2017

De huidige versie is ISO 28500:2017, die WARC 1.1 beschrijft. Een .warc-bestand is opgebouwd uit opeenvolgende records — elk met een korte kop en daarna de eigenlijke inhoud. De norm definieert verschillende recordtypen, waaronder warcinfo (informatie over de crawl), request en response (de daadwerkelijke uitwisseling met de server) en revisit (een verwijzing naar een eerder vastgelegde, ongewijzigde respons).

Verplichte en aanbevolen velden

Elke recordkop bevat een aantal velden. De norm maakt onderscheid tussen wat altijd aanwezig moet zijn en wat aanbevolen is:

Hoe wij conformiteit borgen

Wij leggen vast in onbewerkte, ongecomprimeerde WARC conform ISO 28500 (WARC 1.1) — nooit in een afwijkend pakketformaat. De payload-digests gebruiken SHA-256, wat ook de basis is voor de doorzoekbare CDXJ-index en voor revisit-deduplicatie binnen de standaard. Doordat het formaat een open ISO-norm is, kunt u de bestanden op elk moment downloaden en met onafhankelijke gereedschappen controleren of openen — u zit nergens aan vast.