Open source website archivering
Website archivering is in de kern het betrouwbaar reproduceren van een website zoals die er op een bepaald moment uit zag. Als er getwijfeld kan worden aan de betrouwbaarheid, dan is het archief waardeloos. Daarom is het belangrijk dat na te gaan is hoe het archief is opgebouwd, samengesteld en gereproduceerd.
Wij maken daarom gebruik van open-source software en zijn 100% open en transparant in de werking van ons platform. Vergelijk dat maar eens met onze concurrenten waar vaak niet na te gaan is hoe de software werkt en dus ook niet hoe betrouwbaar de archieven zijn.
Bij ons kunt u de broncode van de gebruikte software inzien en zelf evalueren hoe archieven tot stand zijn gekomen. Dit is belangrijk als uw archieven ooit een rol spelen in een juridisch conflict of rechtszaak omdat er geen twijfel mag zijn over de samenstelling en authenticiteit van de webarchieven.
Welke software gebruiken wij voor website archivering?
Het bestandssysteem: ZFS
De opslag van vele archieven per dag, voor jarenlang, vereist een veilig, getest en flexibel opslagsysteem dat voorziet in de basis voor deduplicatie. Hiervoor gebruiken wij OpenZFS op Linux.
GitHub: https://github.com/openzfs/zfs
Het OS: Ubuntu Linux 22.04 LTS
De basis van ons website archiveringsplatform wordt gevormd door Ubuntu Linux. Ubuntu Linux is stabiel, uitgebreid en is makkelijk te optimaliseren voor allerlei gebruiksdoeleinden.
GitHub: https://github.com/canonical
Homepage: https://ubuntu.com/
Het maken van archieven: Browsertrix en Wget
Voor het maken van website archieven gebruiken we zowel Wget (standaard aanwezig in de meeste Linux distro's) als Browsertrix. Aangezien er soms verschillen zijn in hoe goed een website door bepaalde software gearchiveerd kan worden maken we hiervoor per website een keuze in. Beide softwarepakketten downloaden elke pagina van de te archiveren website en verpakken deze in een webarchief.
Wget:
GitHub: https://github.com/mirror/wget
Homepage: https://www.gnu.org/software/wget/
Browsertrix:
GitHub: https://github.com/webrecorder/browsertrix-crawler
Het afspelen/terugkijken van webarchieven
voor het afspelen/terugkijken van een webarchief gebruiken we zowel pywb als Replayweb.page. De kernfunctie van beide softwarepakketten is het openen van webarchief bestanden en de inhoud tonen als webpagina zoals die was tijdens het maken van het webarchief. Per project kiezen we de meest geschikte software.
pywb:
GitHub: https://github.com/webrecorder/pywb
Homepage: https://pywb.readthedocs.io/en/latest/
Replayweb.page:
GitHub: https://github.com/webrecorder/replayweb.page
Homepage: https://replayweb.page/docs/
Het tonen van lijsten met archieven
Voor het tonen van lijsten met archiefbestanden gebruiken we de directory index listing functie in de Nginx webserver.
Nginx:
GitHub: https://github.com/nginx
Homepage: https://www.nginx.com/

Hulp nodig?
Wij adviseren u graag. Neem contact op voor antwoord op uw vragen of een vrijblijvende prijsopgave.