donderdag 4 december 2008

Digital information lasts forever...

Ik denk dat iedereen die iets met permanente toegankelijkheid te maken heeft het volgende citaat van Rothenberg wel eens gehoord en misschien gelezen heeft:
Digital information lasts forever — or five years, whichever comes first.

Toen ik een paar weken geleden in mijn boekenkast de dichtbundel STOA van Lucas Hüsgen vond, heb ik het artikel er nog maar eens bijgehaald.
Normaal gesproken is digitale duurzaamheid niet iets waar ik bij een dichtbundel als eerste aan denk, maar deze bundel is in 1997 niet op papier, maar op diskette verschenen. De uitgever dacht (waarschijnlijk terecht) dat bijna niemand een bundel van meer dan 300 pagina’s van een relatief onbekend dichter zou kopen en heeft toen besloten de bundel voor 15 gulden op diskette te verkopen.

Met het adagium van Jeff Rothenberg in het achterhoofd ging ik er van uit dat ik STOA als verloren moest beschouwen. Zeker gezien de ‘bewaarhistorie’ van de diskette: eerst een paar jaar in een permanent warme flat in Diemen, daarna ruim vijf jaar in een doos bij mijn moeder op een amper geïsoleerde zolder in Ulestraten en nu alweer een paar jaar ‘gewoon’ in mijn boekenkast in Meerssen. Ik verwachtte dat STOA een mooi ‘object’ zou zijn, dat de digitale duurzaamheidsproblematiek kon illustreren.

Maar, voorlopig is niets minder waar...

Toen ik een pc met diskettestation gevonden had (dit klinkt dramatischer dan het is, bij de provincie zijn alle pc’s hier nog mee uitgerust) bleek de diskette nog gewoon leesbaar. Sterker nog, foutcontrole van het schijfje leverde geen enkele fout op.
Op de diskette staan drie bestanden: STOA-2.DOC, STOAWORD.DOC en STOAWP51 en ik kan ze alledrie probleemloos openen met Word 2002.
Het enige wat me enig nadenken heeft gekost was STOA-2.DOC. De datum van dit bestand wijkt af van de datum van die andere twee. Uiteindelijk bedacht ik dat ik destijds nog heb bekeken of ik de bundel zou printen. Ik heb daarom de pagina-instelling en opmaak gewijzigd (landscape en twee kolommen), zodat het aantal te printen pagina’s gehalveerd zou worden.

Hoewel dit natuurlijk geen ‘wetenschappelijk’ experiment is, komen de uitkomsten wel overeen met iets waar Chris Rusbridge vorige maand en twee jaar geleden over schreef.

In “Excuse me…” uit 2006 bespreekt Rusbridge een zestal uitgangspunten die gangbaar zijn in de wereld van de digitale duurzaamheid.
  1. Digitale duurzaamheid is duur [omdat]
  2. bestandformaten heel snel verouderen [waardoor]
  3. Regelmatig acties ondernomen moeten worden, wat er voor zorgt dat de onderhoudskosten hoog blijven.
  4. E-depots moeten rekening houden met een heel verre toekomst
  5. “Internetverwachtingen” zijn zodanig dat ieder bewaard object makkelijk en direct in het “format de jour” moet kunnen worden geraadpleegd
  6. Het bewaarde object moet op alle onderdelen volledig gelijk zijn aan het origineel.
Rusbridge geeft aan dat er verschillende soorten bestandsformaten zijn en dat er, bijvoorbeeld bij SPSS-bestanden wel degelijk risico’s zijn, zeker als de benodigde metadata ontbreken. Maar, zegt hij, als het gaat om bestanden die gemaakt zijn of worden met commerciële, consumentenapplicaties, dan valt het alleszins mee.
Tot nu toe is hij nog geen bestanden tegen gekomen die volledig en totaal verloren waren gegaan. (In zijn bericht van 20 november 2008 vraagt Rusbridge trouwens om voorbeelden van volledig verloren informatie.Mijn STOA is helaas ook weer geen goed voorbeeld.)
Uiteraard zijn er wel voorbeelden waarin de informatie uit oude bestanden slechts gedeeltelijk te reproduceren is (zoals in Nederland bijvoorbeeld de driedimensionale opname van het beeld van Erasmus bij het Gemeentearchief Rotterdam).

Uiteindelijk herformuleert Rusbridge zijn zes stellingen als volgt:
  1. Digitale duurzaamheid is in vergelijking met bewaren op papier relatief goedkoop
  2. Bestandformaten verouderen veel langzamer dan we eerst dachten
  3. Preserveringsacties kunnen veel onregelmatiger worden uitgevoerd, waardoor de kosten te overzien blijven
  4. eDepots moeten een tijdhorizon hebben in lijn met hun bekostiging en moeten ingesteld zijn op ‘opvolging’
  5. Verwachtingen uit de internettijd kan meestal niet aan voldaan worden
  6. Alleen voor ‘afgeleide’ bestanden is het nodig om beschikbaar te zijn in het “format de jour”, maar de originelen dienen met metadata en documentatie bewaard te blijven voor “onderzoek.”
Waarschijnlijk valt er wel een en ander op “Excuse me…” af te dingen, maar het artikel dwingt in ieder geval tot nadenken over onze dogma's. En dat kan nooit kwaad.

NB
Ik pleit er natuurlijk niet voor om alles maar op 3.5" diskettes in WP5.1-formaat te archiveren. Maar ik hoop dat dat duidelijk is.

maandag 1 december 2008

Softwarearchief

In de e-data&research van 1 december 2008 pleiten Jeffrey van der Hoeven en Frank Houtman voor een softwarearchief. Zij stellen dat er in emulatie al een oplossing gevonden is voor het nabootsen van in onbruik geraakte hardware, maar dat dit alleen zinvol is als de oorspronkelijke software nog beschikbaar is. En daar zit een deel van het probleem, want er is geen enkele organisatie die nog beschikt over alle software die zij ooit heeft gebruikt.
Daarnaast zijn er nog wel wat problemen te noemen - en dat doen zij ook:
  1. Er zijn heel wat technische obstakels, zoals de complexiteit van een softwareomgeving. Het is niet voldoende om alleen een 'set-up' WP 5.1 te bewaren, je hebt onder andere ook allerlei drivers en lettertype-bestanden nodig.

  2. In het verlende daarvan ligt natuurlijk de vraag: Wat moet ik allemaal bewaren? En in welke configuraties? Neem bijvoorbeeld een website. Gebruikers kunnen die met verschillende versies van legio programma’s op diverse platforms benaderen. Moet je dan al die versies, programma’s, platforms en mogelijke configuraties bewaren?

  3. Derde probleem is een juridisch probleem: je hebt licenties nodig om applicaties te kunnen installeren. En licenties zijn vaak plaats (machine) en tijdgebonden.

  4. In het verlengde daarvan: soms kun je een set-up helemaal niet bewaren. DRM zorgt er bijvoorbeeld voor dat je bestanden niet kunt kopiëren van de DVD waar ze op staan. En aangezien DVD's niet geschikt zijn voor langdurige bewaring, kan dat heel snel problemen opleveren.

De oplossing die Van der Hoeven en Houtman aandragen is overigens wel heel makkelijk: de rijksoverheid moet het regelen, omdat zij als grote partij bij aanbestedingen de mogelijkheid heeft om licenties voor dit doel te reserveren. Uit de presentatie van Brian Mathews tijdens What to preserve? Significant properties of digital objects over de problemen bij het bewaren van software, blijkt echter dat licenties het minste probleem zijn!

Zijn oplossingsrichting is dan ook “Good software preservation is good software engineering.” Dit levert ook geen oplossing voor de oude en huidige software, maar kan wel meer garantie voor de toekomst bieden.

En ik vraag me nog altijd af of deze wijze van archivering (emulatie en softwaredepot) geen dure, doodlopende weg is, gezien de enorme hoeveelheid aan variabelen waar het om kan gaan.

Tenslotte: Van der Hoeven en Houtman verwijzen naar de verplichting in de Archiefwet om alle software-versies te bewaren. In het concept van de Archiefregelingen 2008 is deze verplichting niet meer zo expliciet opgenomen.