Vaakgestelde vragen
Website archivering is waarschijnlijk iets waar u niet dagelijks mee bezig bent. Wij zijn dat wel en we adviseren u graag. Heeft u vragen die hieronder niet beantwoord worden? Stel ze dan via onze contactpagina.
Onze archieven worden opgeslagen in ongecomprimeerd ISO 28500 .warc (1.0) formaat.
We volgen zoveel mogelijk de richtlijn archiveren overheidswebsites. Dat betekend dat we conservatief zijn met het doorvoeren van wijzigingen. Immers is het doel dat de bestanden over 10 of 20 jaar nog steeds te openen zijn.
In het .warc infoblok:
WARC/1.0
WARC-Filename: ***
WARC-Date: ***
WARC-Type: warcinfo
WARC-Record-ID: ***
Content-Type: application/warc-fields
Content-Length: ***
software: ***
format: WARC File Format 1.0
operator: webarchivaris-nl
In het .warc response veld:
WARC/1.0
WARC-Type: response
WARC-Record-ID: ***
WARC-Target-URI: ***
WARC-Date: ***
WARC-IP-Address: ***
Content-Type: ***
Content-Length: ***
WARC-Payload-Digest: sha1: ***
WARC-Block-Digest: sha1: ***
Een voorbeeld van een response:
HTTP/1.1 200 OK
Date: ***
Content-Type: ***
Content-Length: ***
Connection: ***
Cache-Control: ***
Vary: ***
Content-Language: ***
Content-Security-Policy: ***
X-Frame-Options: ***
X-Content-Type-Options: ***
Referrer-Policy: ***
Strict-Transport-Security: ***
X-Different-Name: true
X-Real-IP: ***
X-Request-Start: ***
X-Using-Nginx-Controller: ***
X-XSS-Protection: ***
[hier verdere content]
Nee. Conform de richtlijn archivering overheidswebsites worden onze archieven zonder compressie opgeslagen. Dit is zodat de archieven ook over 20 jaar nog te openen zijn, ook als de huidige compressietechnieken tegen die tijd niet meer courant zijn.
Sommige websites worden gecomprimeerd naar de browser gestuurd en daar gedecomprimeerd. Het .warc format slaat de serverresponse onbewerkt op, dus met compressie. Als het .warc archief met een teksteditor wordt bekeken dan is de inhoud niet leesbaar. Wanneer er een gespecialiseerde .warc viewer wordt gebruikt dan wordt de inhoud ontsleuteld.
Alle archieven worden opgeslagen in een assetstore op Nederlands grondgebied. Deze server staat in een professioneel datacentrum in Nederland.
Onze server staat in een datacentrum met fysieke toegangsbeveiliging en de verbindingen van/naar onze server zijn beveiligd met een SSL certificaat. De archieven worden zonder encryptie opgeslagen omdat dat in de verre toekomst wellicht niet meer courant is. Dat past overigens bij het feit dat de brondata openbaar is wanneer deze gecrawled wordt.
Wij maken dagelijks back-ups van de archieven naar een off-site locatie binnen Nederland. Dus zelfs als het datacentrum failliet zou gaan, dan hebben we op 1 andere locatie uw .warc archieven nog bewaard. Zelf kunt u eventueel ook back-ups maken door regelmatig via onze webinterface of via FTP (file transfer protocol) uw .warc archieven te downloaden.
U krijgt toegang tot uw archieven via een publieke url waarmee u kunt bladeren door uw archieven. U kunt archieven vervolgens los downloaden. Ook krijgt u toegang via FTP (file transfer protocol), daarmee kunt u met enkele simpele handelingen al uw archieven downloaden.
Alle archieven en bijbehorende bestanden worden als volgt opgeslagen:
[map]
[-bestand-]
[jaartal]
[maand]
[dag]
[-webarchivaris-jaarmaanddag-volledig-website-00000.warc-]
[--lijst-van-niet-geharveste-items-]
[--md5checksumlijst.txt-]
[-.cdxj-]
Na het genereren van de .warc archieven wordt er een MD5 checksum gegenereerd. Ook in de .warc archieven worden checksums gegenereerd om de integriteit van de payload en het gehele archief te kunnen controleren.
Onze .warc archieven voldoen conform de richtlijn archiveren overheidswebsites aan ISO 28500 (.warc 1.0). Elk depot dat dit formaat accepteert zal de archieven kunnen accepteren. Wel kunnen er aanvullende eisen zijn v.w.b. de structuur waarin de bestanden geplaatst moeten worden.
Jazeker. We bieden een web-interface aan. Men kiest een datum en vervolgens ziet men de website zoals die op die datum op het internet stond. Deze data wordt rechtstreeks onttrokken aan de opgeslagen .warc archieven. Men kan vervolgens ook navigeren naar andere pagina's op de website of naar andere datums waarop onze crawler een kopie heeft gemaakt van de website.
Optioneel kunnen we instellen dat u na elke crawl, of dat nu dagelijks, wekelijks, maandelijks of jaarlijks is, een e-mail ontvangt met het bericht dat er een archief is gemaakt, met de grootte van het laatste archief en de grootte van uw gehele archief.
Nadat men een datum heeft gekozen en de snapshot heeft geladen kan men bovenin het scherm zoeken naar een url. Als deze opgeslagen is in de snapshot dan wordt die pagina vervolgens getoond.
Er kan vooralsnog niet gezocht worden op zoekwoorden of stukken tekst.
In de prijs die u van ons ontvangt zit een kleine groei inbegrepen (tot 20%). Als de archieven groter worden dan doen we u een nieuw voorstel. Daarnaast indexeren we jaarlijks onze tarieven op basis van het inflatiecijfer van het CBS. Deze kosten kunnen hoger uitvallen als de kosten in onze sector, bijvoorbeeld van apparatuur en energie, nog meer stijgen dan het inflatiecijfer. Dit doen we teneinde duurzaam opslag te kunnen blijven verzorgen voor uw archieven, omdat de bewaartermijn vaak 10 tot 20 jaar is.
Nee, daar zitten geen kosten aan. U kunt op elk moment vrij bij de opgeslagen archieven via een webinterface en via FTP (file transfer protocol). Met laatstgenoemde kunt u relatief eenvoudig en snel grote archieven downloaden teneinde die elders eventueel weer te uploaden en publiceren. U zit zodoende nooit aan ons vast: wij doen niet aan vendor-lock in.

Hulp nodig?
Wij adviseren u graag. Neem contact op voor antwoord op uw vragen of een vrijblijvende prijsopgave.