Toegankelijkheid

Skip to main content

Op deze pagina:

Ons archiverings platform

Informatie ontvangen over het archiveren van uw website?

  • NL opslag

  • ISO 28500
  • Betaalbaar
  • Open-source

Ons archiverings platform

Voor het archiveren van websites is geen kant-en-klare oplossing beschikbaar. Wij hebben een platform op maat samengesteld dat de tand des tijds kan weerstaan en waarmee websites op een zo compatibel mogelijke wijze kunnen worden gearchiveerd en ontsloten.

  1. Hardware
    Om grote websites te kunnen archiveren hebben we een schaalbaar hardware platform samengesteld dat zowel voldoet aan de eisen voor CPU-bronnen voor het crawlen van websites en indexeren voor 20-jaar aan webarchieven, als de eisen voor opslag-bronnen voor het bewaren van webarchieven die per keer soms meerdere gigabytes groot zijn. Lees meer.

  2. Software
    De software zorgt voor het crawlen van websites, het verpakken in .warc webarchieven, het opslaan op de juiste plek en het indexeren en ontsluiten van de data in de archieven. Lees meer.

  3. Back-up
    Een geheel afzonderlijk systeem waarin alle webarchieven in cold-storage staan. Dat is trage, maar betrouwbare opslag waar alle archieven naartoe gekopieerd worden voor het geval er een incident plaatsvind met het primaire platform. Vanaf de back-up locatie kunnen de webarchieven hersteld worden, eventueel zelfs op een geheel nieuw primair platform. Lees meer.

Hardware

  • Geolocatie van primaire platform: Nederland.
  • Per node een 1 Gbit/s+ verbinding met het KPN netwerk.
  • Een dynamisch schaalbaar ZFS bestandssysteem verdeeld over meerdere opslagpools.
  • Snelle Sata SSD opslagschijven voor responsieve ontsluiting van gearchiveerde websites.
  • Voldoende multi-core CPU's voor het crawlen en ontsluiten.

Software

Wij maken voor de verschillende onderdelen op ons platform gebruik van open-source software.

Het bestandssysteem
De opslag van vele archieven per dag, voor jarenlang, vereist een veilig, getest en flexibel opslagsysteem dat voorziet in de basis voor deduplicatie en compressie op bitniveau. Voor de opslag op ons primaire platform gebruiken wij OpenZFS op Linux.

OpenZFS:
GitHub: https://github.com/openzfs/zfs

Het OS: Ubuntu
De basis van ons website archiveringsplatform wordt gevormd door Ubuntu Linux. Ubuntu Linux is stabiel, uitgebreid en is makkelijk te optimaliseren voor allerlei gebruiksdoeleinden.

Ubuntu:
GitHub:
 https://github.com/canonical
Homepage: https://ubuntu.com/

Crawlers
Voor het maken van website archieven gebruiken we zowel Wget (standaard aanwezig in de meeste Linux distro's) als Browsertrix. Aangezien er soms verschillen zijn in hoe goed een website door bepaalde software gearchiveerd kan worden maken we hiervoor per website een keuze in. Beide softwarepakketten downloaden elke pagina van de te archiveren website en verpakken deze in een webarchief.

Wget:
GitHub: https://github.com/mirror/wget
Homepage: https://www.gnu.org/software/wget/

Browsertrix:
GitHub: https://github.com/webrecorder/browsertrix-crawler

Afspelen / terugkijken / ontsluiten
Voor het afspelen/terugkijken van een webarchief gebruiken we zowel pywb als Replayweb.page. De kernfunctie van beide softwarepakketten is het openen van webarchief bestanden en de inhoud tonen als webpagina zoals die was tijdens het maken van het webarchief. Per project kiezen we de meest geschikte software.

pywb:
GitHub: https://github.com/webrecorder/pywb
Homepage: https://pywb.readthedocs.io/en/latest/

Replayweb.page:
GitHub: https://github.com/webrecorder/replayweb.pageHomepage: https://replayweb.page/docs/

Weergeven en downloaden individuele .warc archieven
Voor het tonen van lijsten met archiefbestanden vanwaar direct individuele bestanden gedownload kunnen worden gebruiken we de directory index listing functie in de Nginx webserver.

Nginx:
GitHub: https://github.com/nginx 
Homepage: https://www.nginx.com/ 

Overdracht via FTP
Voor de overdracht van meerdere .warc archieven tegelijk, bijvoorbeeld bij een overzetting naar een e-depot, gebruiken we de tnftp FTP server. Toegang op aanvraag, alleen voor de opdrachtgever.

tnftp:
Github: https://github.com/hharte/tnftp

Back-up

Alle webarchieven worden, tenzij anders overeengekomen, gedupliceerd naar een extern cold-storage platform. Dit platform werkt met draaiende schijven in een configuratie voor 1-schijf fouttolerantie. Dit betekend dat er bij een defecte schijf de data hersteld kan worden vanaf een andere schijf.

In totaal moeten er op ons primaire platform en back-up platform dus 3 schijven gelijktijdig defect raken voordat data definitief verloren raakt. Tenzij er in zo'n situatie sprake is van opzet, vind er in zo'n geval geen restitutie plaats. Wilt u meer zekerheid? Dan kunnen we een oplossing op maat realiseren met nog meer redundantie.

Contact

Uw website ook laten archiveren? Bijvoorbeeld om te voldoen aan wettelijke verplichtingen, voor transparantie en verantwoording of behoud van cultureel erfgoed? Neem snel contact op. Wij beantwoorden graag uw vragen en voorzien u vrijblijvend van een prijsopgave.