Vaakgestelde vragen - Webarchivaris.nl

In welk bestandsformaat worden de archieven opgeslagen?

Onze archieven worden opgeslagen in ongecomprimeerd ISO 28500 .warc formaat.

Wordt er rekening gehouden met actuele ontwikkelingen in het standaardformaat?

We volgen zoveel mogelijk de richtlijn archiveren overheidswebsites. Dat betekend dat we conservatief zijn met het doorvoeren van wijzigingen. Immers is het doel dat de bestanden over 10 of 20 jaar nog steeds te openen zijn.

Welke metadata wordt verwerkt/opgeslagen in de archieven?

In het .warc infoblok:

WARC/1.1
WARC-Filename: *
WARC-Date: JJJJ-MM-DDTHH:MM:SS.MSSZ
WARC-Type: warcinfo
WARC-Record-ID: <urn:uuid:*-*-*-*-*>
Content-Type: application/warc-fields
Content-Length: *
software: *

software: Browsertrix-Crawler 1.2.4 (with warcio.js *)
format: WARC File Format 1.1
operator: webarchivaris-nl

In het .warc response veld:

WARC/1.1
WARC-Page-ID: *-*-*-*-*
WARC-Resource-Type: document
WARC-JSON-Metadata: {"ipType":"Public","cert":{"issuer":"*","ctc":"*"}}
WARC-Target-URI: *
WARC-Date: JJJJ-MM-DDTHH:MM:SS.MSSZ
WARC-Type: response
WARC-Record-ID: <urn:uuid:*-*-*-*-*>
Content-Type: application/http; msgtype=response
WARC-Payload-Digest: sha256:*
WARC-Block-Digest: sha256:*
Content-Length: *

Een voorbeeld van een response:

HTTP/1.1 200 OK
content-length: *
content-type: text/html; charset=UTF-8
date: Thu, 25 Jul 2024 09:01:12 GMT
link: <*>; rel="*", <*>; rel="alternate"; title="JSON"; type="application/json", <*>; rel=shortlink
server: Apache/2
vary: Accept-Encoding,User-Agent
x-orig-content-encoding: gzip

[hier verdere content]

Wordt er compressie toegepast bij de opslag van de archieven?

Nee. Conform de richtlijn archivering overheidswebsites worden onze archieven zonder compressie opgeslagen. Dit is zodat de archieven ook over 20 jaar nog te openen zijn, ook als de huidige compressietechnieken tegen die tijd niet meer courant zijn.

Op bitniveau wordt wel compressie toegepast (binnen Btrfs / ZFS)

Wat als de website gecomprimeerd wordt geserveerd (gzip)?

Sommige websites worden gecomprimeerd naar de browser gestuurd en daar gedecomprimeerd. Het .warc format slaat de serverresponse onbewerkt op, dus met compressie. Als het .warc archief met een teksteditor wordt bekeken dan is de inhoud niet leesbaar. Wanneer er een gespecialiseerde .warc viewer wordt gebruikt dan wordt de inhoud ontsleuteld.

Waar wordt de data opgeslagen?

Alle archieven worden opgeslagen in een primaire opslagpool binnen Nederlands grondgebied. Back-ups zijn opgeslagen op secundaire locaties, maar altijd binnen Europa.

Welke back-up-strategieën hebben jullie?

Wij maken dagelijks back-ups van de archieven naar een off-site locatie. Zelf kunt u eventueel ook back-ups maken door regelmatig via onze webinterface of via FTP (file transfer protocol) uw .warc archieven te downloaden.

Kunnen we onze archieven exporteren?

U krijgt toegang tot uw archieven via een publieke url waarmee u kunt bladeren door uw archieven. U kunt archieven vervolgens los downloaden. Ook krijgt u toegang via FTP (file transfer protocol), daarmee kunt u met enkele simpele handelingen al uw archieven downloaden.

In welke structuur worden de archieven opgeslagen?

Alle archieven en bijbehorende bestanden worden als volgt opgeslagen:

[map]
[-bestand-]

[jaartal]
[maand]
    [dag]
      [-webarchivaris-jaarmaanddag-volledig-website-00000.warc-]
      [--lijst-van-niet-geharveste-items-]
      [--md5checksumlijst.txt-]
      [-.cdxj-]

Hoe wordt de integriteit van de archieven gewaarborgd?

Na het genereren van de .warc archieven wordt er een MD5 checksum gegenereerd. Ook in de .warc archieven worden checksums gegenereerd om de integriteit van de payload en het gehele archief te kunnen controleren.

Kunnen de archieven overgezet worden naar een ander e-depot?

Onze .warc archieven voldoen conform de richtlijn archiveren overheidswebsites aan ISO 28500. Elk depot dat dit formaat accepteert zal de archieven kunnen accepteren. Wel kunnen er aanvullende eisen zijn v.w.b. de structuur waarin de bestanden geplaatst moeten worden.

Kunnen archieven 'live' teruggekeken worden?

Jazeker. We bieden een web-interface aan. Men kiest een datum en vervolgens ziet men de website zoals die op die datum op het internet stond. Deze data wordt rechtstreeks onttrokken aan de opgeslagen .warc archieven. Men kan vervolgens ook navigeren naar andere pagina's op de website of naar andere datums waarop onze crawler een kopie heeft gemaakt van de website.

Kan ik rapportages ontvangen?

Optioneel kunnen we instellen dat u na elke crawl, of dat nu dagelijks, wekelijks, maandelijks of jaarlijks is, een e-mail ontvangt met het bericht dat er een archief is gemaakt, met de grootte van het laatste archief en de grootte van uw gehele archief.

Is er een zoekfunctie aanwezig in de live viewer?

Nadat men een datum heeft gekozen en de snapshot heeft geladen kan men bovenin het scherm zoeken naar een url. Als deze opgeslagen is in de snapshot dan wordt die pagina vervolgens getoond.

Er kan vooralsnog niet gezocht worden op zoekwoorden of stukken tekst.

Hoe zit het met kostenontwikkelingen?

In de prijs die u van ons ontvangt zit een kleine groei jaarlijkse inbegrepen (tot 10%). Als de archieven groter worden dan doen we u een nieuw voorstel. Daarnaast indexeren we jaarlijks onze tarieven op basis van het inflatiecijfer van het CBS. Deze kosten kunnen hoger uitvallen als de kosten in onze sector, bijvoorbeeld van apparatuur en energie, nog meer stijgen dan het inflatiecijfer. Dit doen we teneinde duurzaam opslag te kunnen blijven verzorgen voor uw archieven, omdat de bewaartermijn vaak 10 tot 20 jaar is.

U kunt altijd jaarlijks opzeggen.

Zitten er kosten aan het exporteren van onze archieven / overstappen?

Nee, daar zitten geen kosten aan. U kunt op elk moment vrij bij de opgeslagen archieven via een webinterface en via FTP (file transfer protocol). Met laatstgenoemde kunt u relatief eenvoudig en snel grote archieven downloaden teneinde die elders eventueel weer te uploaden en publiceren. U zit zodoende nooit aan ons vast: wij doen niet aan vendor-lock in.