donderdag 25 juni 2009

Digital Preservation - The Planets Way (1)

Hoe beschrijf je drie zeer volle, zeer interessante en leerzame dagen in de prachtige KB in Kopenhagen
De makkelijke oplossing is: kijk hier. Dit zijn de tweets die drie van de aanwezigen de afgelopen dagen verzonden hebben. 
Een andere oplossing is: kijk hier. Dit is de weblog van Audun, die drie dagen live geblogd heeft.
Maar dat zou te gemakkelijk zijn. Laat ik zelf dus maar proberen een samenvatting te geven van de (in mijn ogen) belangrijkste dingen die ik gehoord en geleerd heb.
Planets staat voor Preservation and Long-term Access through Networked Services en is een vierjarig project, dat gedeeltelijk door de EU gesponsord wordt. Doel van het project is om praktische, toepasbare hulpmiddelen te ontwikkelen voor het langdurig toegankelijk houden van digitale objecten. De afgelopen dagen heb ik een paar heel spannende en veelbelovende ontwikkelingen gezien, die ik niet allemaal in één bericht kan beschrijven. Vandaag daarom alleen een stukje over XCL en PLATO.

XCDL en XCEL
Van de XCL-presentaties was ik echt heel erg onder de indruk. Bij de Universiteit van Keulen wordt gewerkt aan een eXtensible Characterisation Language. Doel is om te komen tot een 'taal' (eXtensible Characterisation Definition Language, XCDL) waarmee het mogelijk is de inhoud van digitale objecten te beschrijven. Tegelijkertijd werken ze aan eXtensible Characterisation Extraction Language (XCEL) waarmee het mogelijk is om geautomatiseerd XCDL-beschrijvingen van unieke bestanden te maken.
Een paar jaar geleden hoorde ik tijdens Tools & trends in de KB in Den Haag professor Thaller hier ook een presentatie over geven en ik snapte er destijds helemaal niets van. Gelukkig lieten Jan Schnasse en Volker Heydegger (medewerkers van Thaller) ons echt zien hoe het werkt en wat er mee mogelijk is. 
Met behulp van XCL kun je van een afbeelding bijvoorbeeld automatisch aspecten als het kleurenpalet, de breedte en de hoogte vastleggen. Maar dat niet alleen, op bit-niveau worden ook alle pixel-gegevens (waarde/kleur) opgeslagen. 
Wat heb je daar aan? Stel je wil een tiff-bestand converteren naar een png-bestand. Dan kun je met behulp van de Extraxctor vóór de conversie een XCDL-beschrijving van het tiff-bestand maken en na conversie een XCDL-beschrijving van het png-bestand. En nu komt de truc: deze beschrijvingen kun je geautomatiseerd laten vergelijken door een programma dat "Comparator" heet. Dat betekent dus dat je conversies niet 'handmatig' hoeft te controleren! En, wat ook interessant is, die Comparator ziet iedere pixel-afwijking, zelfs wanneer die met het menselijk oog niet te zien is!


Het beschrijven en analyseren van afbeelding zijn één ding, plaatjes zijn nog redelijk recht-toe recht-aan (al kunnen ze ook die bewegende gif-bestanden beschrijven). Teksten zijn echter een heel ander verhaal. Ze zijn nu bezig met het maken van een XCEL voor het beschrijven van tekst-bestanden. Hierin zal ook rekening gehouden worden met opmaak-verschijnselen als voetnoten, andere lettertypes en alinea's. Het is nu wel mogelijk om dit handmatig in een XCDL te beschrijven, maar ze hebben nog geen 'extractor' die dit geautomatiseerd voor grotere bestanden kan doen. Als het zo ver is, dan is het dus mogelijk om automatisch vast te stellen wat er eventueel verloren is gegaan bij een conversie van Microsoft Word naar ODF.

PLATO
Een andere ontwikkeling is de Planets Preservation Planning Tool (PLATO), waarmee bewaaracties voor een collectie gepland kunnen worden. 
Voor een organisatie is het vaak niet eenvoudig om vast te stellen wat de beste manier is om een bepaalde 'collectie' digitale objecten duurzaam toegankelijk te maken. Kunnen de bestanden het best gemigreerd worden of is emulatie de beste strategie? Naar welk nieuw bestandformaat kan het best gemigreerd worden en welke conversie-programma's zouden daar het best geschikt voor zijn? Hoe lang zal zo'n conversie-traject duren en wat gaat dat dan kosten?
Op basis van een mindmap-sjabloon kan een organisatie eerst proberen alle randvoorwaarden (zoals wettelijke bepalingen, budget, doorlooptijd, opslagruimte, eisen aan vorm, structuur en inhoud etc) zo 'meetbaar' mogelijk beschrijven. Daarna kunnen (op basis van sjablonen en beschreven 'migratiepaden' in de applicatie) de mogelijke bewaarstrategieën uitgeprobeerd worden. Dit is echt heel letterlijk, met behulp van en in PLATO kan een representatieve set bestanden bijvoorbeeld geconverteerd worden, waarna de resultaten vergeleken kunnen worden met de beschreven randvoorwaarden.  In de derde stap kan de organisatie de resultaten van de experimenten beoordelen en een aanbeveling voor een bewaarstrategie schrijven. De laatste stap is dan het vaststellen van een uitvoerbaar 'bewaarplan' en dat kan ook in PLATO.
Een van de belangrijkste doelen van PLATO is vooral vastleggen waarom welke keuzes gemaakt zijn, zodat het later altijd mogelijk is om hier verantwoording over af te leggen.

Later meer...

1 opmerking:

  1. klinkt allemaal indrukwekkend; m'n mobieltje was iig minuten bezig met laden ;-)

    BeantwoordenVerwijderen