woensdag 4 november 2009

Digitale Tipp-Ex


Vroeger, zeker op de middelbare school, maar als ik het me goed herinner ook al op de lagere school (ja, zo oud ben ik al), gebruikten verschillende kinderen uit mijn klas Tipp-Ex om schrijffouten weg te lakken. Vreselijk: het stonk en het maakte kabaal, want je moest natuurlijk eerst heel goed schudden. Toen ik het zelf eens probeerde, bleek ook nog dat je er niets aan hebt als je met een vulpen schrijft, zoals ik van kinds af aan doe.

Ik moest hier aan denken toen ik een stukje van L’Archivista las over wat ze in Amerika ‘redaction’ noemen: het weglakken van vertrouwelijke informatie uit archiefstukken voordat deze gepubliceerd worden.
Bij papieren documenten is dat redelijk simpel: je maakt een kopie van het document, Tipp-ext alle problematische passages weg (je kunt hier natuurlijk ook een dikke zwarte alcohol-stift voor gebruiken) en maakt een nieuwe kopie van het document, die je ter inzage geeft. Dat dit bij digitale documenten iets ingewikkelder ligt, hebben we in Nederland pas nog gezien bij het voortijdig uitlekken van de Miljoenennota.
Een nog mooier voorbeeld is de actie van de Belastingdienst twee jaar geleden geleden, die toen in het kader van de WOB het Draaiboek Project Bank Zonder Naam op zijn website publiceerde. Allerlei vertrouwelijke informatie was met zwarte balken 'weggelakt', maar bleek redelijk simpel leesbaar te maken.

L'Archivista schrijft daar over:
There are also several really bad PDF redaction techniques. Never, ever use Adobe Acrobat's Draw or Annotate tool to place black, white, etc. boxes over information you wish to redact. Another spectacularly bad idea: "redacting" a word processing document by changing the font color to white or using a shading or highlighting feature to obscure the text and then converting the document to PDF format.

Hoe het wel moet, beschrijft ze kort in haar blog en uitgebreider in een presentatie tijdens de MARAC-conferentie een paar dagen geleden. (Ik heb die presentatie helaas nog niet gevonden.)
Er zijn verschillende hulpmiddelen die het mogelijk maken om pdf-bestanden te 'schonen', waaronder de standaard-functionaliteiten van Adobe Acrobat 8 en 9. Er zijn ook aparte applicaties die dit soort dingen doen, zoals Redax en Redact-It.

Haar belangrijkste, maar ook meest problematische advies, is dat het cruciaal is "to keep abreast of the relevant legal and digital forensics literature: people are trying to figure out how to crack these tools and techniques and recover redacted information, and one of them may eventually succeed."

Hier speelt het probleem van 'duurzame toegankelijkheid' eigenlijk andersom dan we gewend zijn. Een geschoond, papieren document zal altijd schoon blijven. Mits er goed gelakt is, zijn er simpelweg geen technieken om op basis van enkel het gekopieerde document de weggelakte informatie te reconstrueren. Maar bij een digitaal geschoond bestand, is het heel goed denkbaar dat de techniek die gebruikt is om te schonen na bijvoorbeeld een jaar al zodanig achterhaald is, dat de verwijderde passages eenvoudig terug te halen zijn. En als je deze bestanden via je website beschikbaar hebt gesteld, kun je er zeker van zijn dat er op diverse plekken nog kopieën opgeslagen zijn. Met alle mogelijke gevolgen van dien.

Er zijn twee redenen waarom deze problematiek relevant kan zijn voor digitale depots.
De eerste is dat er op dit moment de tendens is om digitale archiefbescheiden maar zo snel mogelijk in het digitaal depot op te nemen. Bij het Nationaal Archief start binnenkort een pilot waarbij een ministerie alle afgehandelde dossiers direct in het depot van het Nationaal Archief onderbrengt. Aangezien deze bestanden nog onder het regime van de WOB vallen, moet bij een verzoek om toegang bekeken worden of alle informatie wel openbaar is. Dat kan dus leiden tot het weglakken van bepaalde passages.
De tweede is de trend dat steeds meer (ook oudere) archiefbescheiden via internet beschikbaar gesteld worden, vooral bouwvergunningen zijn populaire dossiers. Het CBP heeft in zijn richtsnoer opgenomen dat ook in deze gevallen voorkomen moet worden dat gegevens over natuurlijke personen vrij beschikbaar komen. Ook hierbij kan dus sprake zijn van het 'schonen' van de gepubliceerde archiefbescheiden.

Worden met dit schonen archiefbescheiden gecorrumpeerd?
Ik denk het niet, op voorwaarde dat het schonen enkel gebeurd in het Beschikbaar Digitaal Archiefstuk (DIP in OAIS-termen) en niet in het Opgenomen Digitaal Archiefstuk (AIP in OAIS-termen). Het betekent natuurlijk wel dat een dienst bij het 'samenstellen' van een BDA hier rekening mee moet houden en moet documenteren dat er passages 'ontoegankelijk' gemaakt zijn.

Afbeelding: Oxna