Toegankelijkheid

Skip to main content

Op deze pagina:

Informatie

Informatie ontvangen over het archiveren van uw website?

  • NL opslag

  • ISO 28500
  • Betaalbaar
  • Open-source

Informatie

Algemeen

Webarchivaris is een dienst van Als een Rode Lap (KVK 53581792), bestaand sinds 2011. Wij zijn gespecialiseerd in het bouwen van websites met CMS, het verzorgen van webhosting en alle techniek die er bij komt kijken. Onze klanten zijn van MKB tot semi-overheid. Zo ontdekten we dat er vraag is naar een betaalbare oplossing voor het laten archiveren van websites. Dit is iets dat tot nu toe voornamelijk in handen was van 1 grote partij. Naar ons inzicht kan website archivering goedkoper, transparanter en beter. Onze technische kennis van webhosting, websites en servers komt hier goed bij van pas.

Wilt u kosteneffectief uw websites laten archiveren door een betrouwbare, transparante partij? Dan bent u bij ons aan het juiste adres.

Over website archivering

Website archivering is relevant voor elke website in het publieke of zakelijke domein waarop informatie gepubliceerd is die in de toekomst, ongeacht wijzigingen op de website, vindbaar moet blijven. Bijvoorbeeld puur als losstaand informatie-archief, maar eventueel ook als bewijslast. Afhankelijk van uw wensen kunnen er dagelijks, wekelijks, maandelijks of jaarlijks snapshots gemaakt worden van uw website die vervolgens 10 of 20 jaar bewaard kunnen blijven.

Deze snapshots worden opgeslagen conform de internationale standaard (ISO 28500 .warc 1.0 archief) en zijn als bestand te downloaden maar ook live te bekijken in de browser middels onze live viewer. Daarmee kunnen snapshots van uw website gebrowsd worden alsof het uw actuele website is (d.w.z. knoppen, links en pagina's zijn volledig werkzaam).

De 3 componenten van onze oplossing

Onze oplossing bestaat uit 3 delen:

  • Een crawler die uw website bezoekt en de pagina's omzet naar een ISO 28500 .warc 1.0 archief.
  • Een assetstorage (opslag) waar alle .warc archieven worden opgeslagen en waar van elk archief een CJDX indexbestand wordt gemaakt en per bestand een MD5 hash voor integriteitscontrole.
  • Een live viewer waar websites per datum terug te kijken zijn. Hierbij bekijkt u live de inhoud van de gecrawlde .warc archieven en kunt u over de opgeslagen pagina's browsen.

.warc opslag binnen Nederland

Alle .warc archieven worden, zoals de richtlijn archiveren overheidswebsites voorschrijft, opgeslagen zonder compressie (dus geen .gz op het eind). Dit om te voorkomen dat er een compressiemethode wordt toegepast die over 20 jaar niet meer courant is waardoor de archieven niet meer te openen zouden zijn.

Alle onderdelen van onze oplossing, dus ook de assetstorage, bevinden zich in een Nederlands datacentrum. Hierdoor werkt alles efficiënt en snel en is er geen buitenlandse wetgeving van toepassing.

Backups

Van alle .warc website archieven wordt dagelijks een back-up gemaakt naar een off-site schijf (ook binnen Nederland). In het onwaarschijnlijke geval dat het datacentrum zou afbranden dan hebben we dus nog steeds een kopie van uw website archieven.

Beveiliging

Onze oplossing draait op een server binnen een beveiligd datacentrum. Voor fysieke toegang is authenticatie vereist. Daarnaast gebruiken we op de server zo min mogelijk digitale standaardpoorten en is toegang beveiligd met wachtwoord.

De .warc website archieven worden niet beveiligd met encryptie, omdat daarmee de archieven alsnog niet zouden voldoen aan de richtlijn archiveren overheidswebsites (geen encryptie of compressie toegestaan). Daarnaast is alle data die er gecrawled wordt sowieso publiek toegangkelijk op de website. Delen van websites waarvoor een inlog noodzakelijk is worden niet gecrawled.

Exporteren van archieven

Als opdrachtgever krijgt u indien gewenst kosteloos toegang tot uw .warc archieven via FTP (File Transfer Protocol). FTP is de courante wijze om veel en grote bestanden te downloaden vanaf een server. U kunt dus op elk moment uw .warc archieven downloaden om ze zelf te bewaren, te bekijken of naar een andere dienst te uploaden. Ook kunt u via een web interface individuele .warc webarchieven opzoeken en downloaden. Kortom; wij doen niet aan vendor lock in. U zit niet vast aan ons.

Metadata

De .warc website archief bestanden worden opgeslagen met de volgende metadata:

Warc infoblok:
WARC/1.0, WARC-Filename: ***, WARC-Date: ***, WARC-Type: warcinfo, WARC-Record-ID: ***, Content-Type: application/warc-fields, Content-Length: ***, software: ***, format: WARC File Format 1.0, operator: webarchivaris-nl.

In het .warc response veld:
WARC/1.0, WARC-Type: response, WARC-Record-ID: ***, WARC-Target-URI: ***, WARC-Date: ***, WARC-IP-Address: ***, Content-Type: ***, Content-Length: ***, WARC-Payload-Digest: sha1: ***, WARC-Block-Digest: sha1: ***.

Een voorbeeld van een response (kan per website verschillen):

HTTP/1.1 200 OK, Date: ***, Content-Type: ***, Content-Length: ***, Connection: ***, Cache-Control: ***, Vary: ***, Content-Language: ***, Content-Security-Policy: ***, X-Frame-Options: ***, X-Content-Type-Options: ***, Referrer-Policy: ***, Strict-Transport-Security: ***, X-Different-Name: true, X-Real-IP: ***, X-Request-Start: ***, X-Using-Nginx-Controller: ***, X-XSS-Protection: ***.

Rapportages

Indien gewenst kan een rapportagefunctie geactiveerd worden die na elke crawl een e-mail stuurt met daarin:

  • Welke website er gecrawled is.
  • Op welk tijdstip dit gebeurd is.
  • Hoe groot het laatste archief is.
  • Hoe groot uw totale archief is.

Contact

Uw website ook laten archiveren? Bijvoorbeeld om te voldoen aan wettelijke verplichtingen, voor transparantie en verantwoording of behoud van cultureel erfgoed? Neem snel contact op. Wij beantwoorden graag uw vragen en voorzien u vrijblijvend van een prijsopgave.