donderdag 25 juni 2009

Digital Preservation - The Planets Way (1)

Hoe beschrijf je drie zeer volle, zeer interessante en leerzame dagen in de prachtige KB in Kopenhagen
De makkelijke oplossing is: kijk hier. Dit zijn de tweets die drie van de aanwezigen de afgelopen dagen verzonden hebben. 
Een andere oplossing is: kijk hier. Dit is de weblog van Audun, die drie dagen live geblogd heeft.
Maar dat zou te gemakkelijk zijn. Laat ik zelf dus maar proberen een samenvatting te geven van de (in mijn ogen) belangrijkste dingen die ik gehoord en geleerd heb.
Planets staat voor Preservation and Long-term Access through Networked Services en is een vierjarig project, dat gedeeltelijk door de EU gesponsord wordt. Doel van het project is om praktische, toepasbare hulpmiddelen te ontwikkelen voor het langdurig toegankelijk houden van digitale objecten. De afgelopen dagen heb ik een paar heel spannende en veelbelovende ontwikkelingen gezien, die ik niet allemaal in één bericht kan beschrijven. Vandaag daarom alleen een stukje over XCL en PLATO.

XCDL en XCEL
Van de XCL-presentaties was ik echt heel erg onder de indruk. Bij de Universiteit van Keulen wordt gewerkt aan een eXtensible Characterisation Language. Doel is om te komen tot een 'taal' (eXtensible Characterisation Definition Language, XCDL) waarmee het mogelijk is de inhoud van digitale objecten te beschrijven. Tegelijkertijd werken ze aan eXtensible Characterisation Extraction Language (XCEL) waarmee het mogelijk is om geautomatiseerd XCDL-beschrijvingen van unieke bestanden te maken.
Een paar jaar geleden hoorde ik tijdens Tools & trends in de KB in Den Haag professor Thaller hier ook een presentatie over geven en ik snapte er destijds helemaal niets van. Gelukkig lieten Jan Schnasse en Volker Heydegger (medewerkers van Thaller) ons echt zien hoe het werkt en wat er mee mogelijk is. 
Met behulp van XCL kun je van een afbeelding bijvoorbeeld automatisch aspecten als het kleurenpalet, de breedte en de hoogte vastleggen. Maar dat niet alleen, op bit-niveau worden ook alle pixel-gegevens (waarde/kleur) opgeslagen. 
Wat heb je daar aan? Stel je wil een tiff-bestand converteren naar een png-bestand. Dan kun je met behulp van de Extraxctor vóór de conversie een XCDL-beschrijving van het tiff-bestand maken en na conversie een XCDL-beschrijving van het png-bestand. En nu komt de truc: deze beschrijvingen kun je geautomatiseerd laten vergelijken door een programma dat "Comparator" heet. Dat betekent dus dat je conversies niet 'handmatig' hoeft te controleren! En, wat ook interessant is, die Comparator ziet iedere pixel-afwijking, zelfs wanneer die met het menselijk oog niet te zien is!


Het beschrijven en analyseren van afbeelding zijn één ding, plaatjes zijn nog redelijk recht-toe recht-aan (al kunnen ze ook die bewegende gif-bestanden beschrijven). Teksten zijn echter een heel ander verhaal. Ze zijn nu bezig met het maken van een XCEL voor het beschrijven van tekst-bestanden. Hierin zal ook rekening gehouden worden met opmaak-verschijnselen als voetnoten, andere lettertypes en alinea's. Het is nu wel mogelijk om dit handmatig in een XCDL te beschrijven, maar ze hebben nog geen 'extractor' die dit geautomatiseerd voor grotere bestanden kan doen. Als het zo ver is, dan is het dus mogelijk om automatisch vast te stellen wat er eventueel verloren is gegaan bij een conversie van Microsoft Word naar ODF.

PLATO
Een andere ontwikkeling is de Planets Preservation Planning Tool (PLATO), waarmee bewaaracties voor een collectie gepland kunnen worden. 
Voor een organisatie is het vaak niet eenvoudig om vast te stellen wat de beste manier is om een bepaalde 'collectie' digitale objecten duurzaam toegankelijk te maken. Kunnen de bestanden het best gemigreerd worden of is emulatie de beste strategie? Naar welk nieuw bestandformaat kan het best gemigreerd worden en welke conversie-programma's zouden daar het best geschikt voor zijn? Hoe lang zal zo'n conversie-traject duren en wat gaat dat dan kosten?
Op basis van een mindmap-sjabloon kan een organisatie eerst proberen alle randvoorwaarden (zoals wettelijke bepalingen, budget, doorlooptijd, opslagruimte, eisen aan vorm, structuur en inhoud etc) zo 'meetbaar' mogelijk beschrijven. Daarna kunnen (op basis van sjablonen en beschreven 'migratiepaden' in de applicatie) de mogelijke bewaarstrategieën uitgeprobeerd worden. Dit is echt heel letterlijk, met behulp van en in PLATO kan een representatieve set bestanden bijvoorbeeld geconverteerd worden, waarna de resultaten vergeleken kunnen worden met de beschreven randvoorwaarden.  In de derde stap kan de organisatie de resultaten van de experimenten beoordelen en een aanbeveling voor een bewaarstrategie schrijven. De laatste stap is dan het vaststellen van een uitvoerbaar 'bewaarplan' en dat kan ook in PLATO.
Een van de belangrijkste doelen van PLATO is vooral vastleggen waarom welke keuzes gemaakt zijn, zodat het later altijd mogelijk is om hier verantwoording over af te leggen.

Later meer...

donderdag 4 juni 2009

Er is er een jarig

Vandaag precies een jaar geleden overhandigde ik tijdens de studiedagen van de KVAN in Utrecht het eerste exemplaar van ED3 aan Martin Berendse. Voor mij persoonlijk verliep de aanloop naar die dag nog al tumultueus. De ontwikkeling van de Eisen was daarentegen verbazingwekkend voorspoedig verlopen. In minder dan een jaar (de eerste vergadering vond plaats op 19 juni 2007) hebben we met zijn zevenen de eerste versie van de eisenset in elkaar gezet.


Meer dan soft- en hardware
Een van de doelen van het LOPAI bij het opstellen van de eisenset was om aan iedereen duidelijk te maken waar je aan moet denken bij het bouwen, beheren en gebruiken van een digitaal depot. Hierbij hebben we vooral duidelijk willen maken dat een digitaal depot niet (alleen) hard- en software is, maar dat de organisatie daar om heen minstens zo belangrijk is. Mede doordat we dit tijdens presentaties over ED3 zo sterk hebben benadrukt, denk ik dat we hier wel in zijn geslaagd. Dit blijkt onder andere uit de definitie van een eDepot, die in de kadernotitie van de Denktank e-depot van de Kring van Archivarissen in Limburg is overgenomen.

Referentiekader
ED3 werd het afgelopen jaar ook verschillende keren door anderen als ‘referentiekader’ gebruikt. In sommige gevallen heel terecht, in andere gevallen ben ik er wat minder gelukkig mee.
De gemeente Amsterdam heeft in 2008, nadat Gedeputeerde Staten van Noord-Holland het digitaal depot van de gemeente Amsterdam als onvoldoende hadden beoordeeld, Data Matters opdracht gegeven om een digitaal depot te bouwen. In het plan van eisen wordt veelvuldig verwezen naar de eisen uit ED3. Daarnaast maakt Amsterdam ook gebruik van de door ons voorgestelde ‘vertalingen’ van de OAIS-termen.
Waar ik minder gelukkig mee ben, maar wat we misschien gedeeltelijk zelf schuld zijn, is dat archiefdiensten ED3 gebruiken om eisen te stellen aan de beheersomgeving ‘in de administratie,’ met name als het gaat om vervanging van permanent te bewaren archiefstukken. ED3 is echter nooit bedoeld als toetsingskader voor het ‘dynamisch’ archief, zoals ook blijkt uit dit schema:

“Vertaling”
Ten slotte zijn we het afgelopen jaar ook een beetje beschimpt, omdat we het nodig vonden om de termen uit het OAIS-model te vertalen en omdat we alleen eisen voor het ‘statisch’ digitaal archief hebben opgesteld. Hieruit zou blijken dat het LOPAI slecht Engels begrijpt en zich alleen maar bekreund om permanent te bewaren archief.
Misschien is ‘vertaling’ van de OAIS-termen ook niet de goede omschrijving van wat we gedaan hebben. Het was wellicht beter geweest om te spreken over het transponeren van de Engelse OAIS-termen naar de Nederlandse archiefpraktijk, inclusief wet- en regelgeving.
De reden waarom wij gekozen hebben om eisen op te stellen voor ‘te bewaren archiefbescheiden’ is, omdat wij in dit geval inderdaad een analogie met de papieren situatie wilden handhaven. Op grond van de Archiefwet zijn lokale zorgdragers verplicht hun permanent te bewaren archiefbescheiden over te brengen naar een door Gedeputeerde Staten goedgekeurde archiefbewaarplaats. We hebben gemeend daarom eisen te moeten vaststellen voor de “digitale bewaarplaats”, waarin permanent te bewaren digitale archieven kunnen worden ondergebracht. Maar, in een bewaarplaats kunnen natuurlijk ook op termijn te vernietigen archiefbescheiden bewaard worden.

Vooruitblik
Vandaag is de werkgroep ED3 van het LOPAI weer bijeen op zijn vaste vergaderlocatie op Utrecht Centraal. Niet alleen om de eerste verjaardag te vieren, maar ook om te bekijken hoe we verder gaan. We zullen het daarbij over twee dingen gaan hebben:
  1. Opstellen nieuwe versie van ED3
    Het afgelopen jaar hebben we ED3 in de praktijk getest. Het doel daarbij was om vast te stellen of wij de goede vragen stellen, of de beheerders de vragen begrijpen en of wij de antwoorden snappen. Hieruit zijn al enkele verbeteringen naar voren gekomen, die waarschijnlijk in de loop van 2010 in een tweede versie zullen worden uitgewerkt.
    Maar we zullen uiteraard ook bekijken of nieuwe externe ontwikkelingen (bijvoorbeeld de ontwikkeling van nieuwe normen) aanpassing van ED3 noodzakelijk maken.

  2. Opstellen van een toetsinstrument voor de digitale beheersomgeving
    Het afgelopen jaar is steeds duidelijker geworden dat overheden en toezichthouders behoefte hebben aan een duidelijk kader voor de inrichting van hun digitaal archiefbeheer. Samen met de WGA gaan we de komende maanden proberen hier een eerste opzet voor te maken. Hierbij zullen we vooral uitgaan van de bestaande normen en hulpmiddelen en deze integreren tot één hanteerbaar kader.


Er is nog genoeg te doen!

(Afbeelding: Hannekes taarten)

woensdag 3 juni 2009

E-circulation?

Bij alle discussies over eDepots is nog maar weinig gesproken over de gewenste kwantiteit. Heeft ons vaderlands archiefwezen behoefte aan meerdere eDepots of is één groot systeem voldoende? Het lijkt erop dat het Nationaal Archief die laatste mening aanhangt.

Bij de komende decentralisatie van de RHC's is vanuit Den Haag aangegeven, dat deze instellingen kunnen aansluiten bij het centrale eDepot. Ook zouden mogelijk gemeenten hierbij kunnen aansluiten.
Dit zou een negatieve invloed kunnen hebben op regionale ontwikkelingen, waarin immers de RHC's vaak als primes inter pares een voortrekkersrol vervullen.
Is het niet wenselijker dat per landsdeel (ook) eDepots worden ontwikkeld? Hierin zouden behalve de RHC's ook de betrokken provincies, gemeenten, waterschappen en andere overheden gezamenlijk kunnen optrekken. Dat heeft voordelen:

1. er ontstaat een breed draagvlak voor het eDepot, zowel bestuurlijk als financieel
2. er kan goed worden aangesloten op regionale behoeften (tempo, omvang, etc)
3. er is mogelijkheid voor differentiatie bij de opzet, wat tunnelvisies voorkomt
4. er is onderlinge ondersteuning tussen eDepots mogelijk (risicospreiding).

Al met al genoeg om serieus te overwegen en naar goed gebruik in een beleidsvisie te verankeren?