De digitale eeuwigheid ?

23 mei 2005

Dat we er aan gewoon geworden zijn gaat wat ver, maar een ding is ondertussen wel duidelijk: voor je het weet ben je al je gegevens kwijt. Dat is ieder van ons overkomen, wellicht al meer dan één keer. Als gegevens en documenten lange tijd bewaard moeten worden (tientallen of honderden jaren), zoals dat met ons cultureel erfgoed het geval is, is het daarom verstandig rekening te houden met de zwakheden van de informatietechnologie.

Geert-Jan van Bussel

Verouderen
Immers, op korte termijn kunnen hackers en virussen grote schade aanrichten. Op wat langere termijn: tapes, floppies, harde schijven en overige opslagmedia verouderen, raken in onbruik en kunnen vanuit applicaties en besturingssystemen niet meer worden benaderd. En deze software raakt nog sneller in onbruik dan de gebruikte hardware.

Voorzieningen
Als we documenten lang willen bewaren zullen we voorzieningen moeten treffen die die bewaring ook daadwerkelijk mogelijk maken. Bibliotheken en archieven zijn er bij gediend om hun digitale documenten in een ‘digitaal depot’ te kunnen onderbrengen. Uiteraard wordt er veel onderzoek gedaan om zo’n digitaal depot (ook wel informatiekluis genoemd) te realiseren. Het onderzoek in het Gemeente Archief Rotterdam is er daar een van.

Intermemory
Een onderzoek dat belangrijke consequenties voor het informatiebeheer zou kunnen hebben is uitgevoerd op het NEC Research Institute in Princeton. Andrew Goldberg en Peter Yianilos, twee onderzoekers van dat instituut, onderzochten in hoeverre het mogelijk zou zijn op Internet een onverwoestbare digitale kluis tot stand brengen, het Intermemory zoals zij dat noemen. Ze gebruikten daarvoor een reeds langer bestaande techniek, namelijk dat van het ‘hashen’ van documenten en bestanden. Ze ‘versplinteren’ met andere woorden een bestand en verspreiden het over tientallen, honderden of zelfs duizenden computers. Ook bij het verloren gaan van een deel van de Intermemory-computers is uit de overgebleven fragmenten het bestand volledig te reconstrueren. Deze ‘hashing’-techniek is op zich niet nieuw, alleen de schaal waarop zij die wensen toe te passen is dat wel.

Eindeloze reconstructie
‘Hashen’ is gebaseerd op de polynomenwiskunde. De documenten worden door middel van een wiskundige bewerking omgezet in een polynoom, een onder alle omstandigheden te reconstrueren unieke wiskundige figuur. Dat wil zeggen: indien voldoende punten van die polynoom bekend zijn. Geen enkel ander document kan eenzelfde polynoom hebben: de uniciteit van de documenten is daarmee gewaarborgd. Als er 2000 punten nodig zijn om een document of een bestand in zijn oorspronkelijke vorm te kunnen reconstrueren, dan zorgt het door Goldberg en Yianilos gebruikte algoritme ervoor dat er 4000 punten worden berekend en over het internet verspreid. De helft van die 4000 punten mag zo verloren gaan; er zijn immers maar 2000 punten nodig voor de reconstructie. Het doet er niet toe welke combinatie van computers verloren gaat, als de helft van het aantal punten overblijft, is ieder document te allen tijde te reconstrueren.

Automatisch
Het Intermemory zal zich automatisch op nieuwe opslagmedia verversen, aangezien de uitlening van opslagcapaciteit aan het Intermemory steeds tijdelijk is. Daardoor is continue conversie en migratie noodzakelijk, maar het probleem van verouderde en in onbruik rakende media is daarmee wel opgelost. Geringe schade kan door het Intermemory zelf worden gerepareerd: iedere aangesloten computer wordt periodiek door een aantal andere getoetst. Bij uitval wordt de ‘uitgevallen’ informatie gereconstrueerd door deze ‘bezoekers’ en wordt het Intermemory hersteld. Bij de uitgroei van het Intermemory wordt de opgeslagen informatie over steeds meer computers ‘versplinterd’. De oudste bestanden zijn uiteindelijk dermate wijd verbreid dat er honderd-duizenden computers moeten uitvallen willen ze definitief verloren gaan. De kans daarop is uiteraard zeer gering.

Intranet
Uiteraard is een dergelijk Intermemory ook binnen een intranet realiseerbaar, al is dat dan op een veel kleinere schaal. We zouden het dan een Intramemory kunnen noemen. Deze variant is uitermate interessant voor bedrijfsarchieven en -bibliotheken. Het eigen netwerk van Goldberg en Yioanilos werd als testcase gebruikt; wat er ook gebeurde (wissen van computerschijven, volledige computers uit het netwerk halen e.d.), alle opgeslagen gegevens bleven volledig oproepbaar. Wellicht dat deze ‘digitale eeuwigheid’ een rol kan spelen binnen de Nederlandse onderzoeken naar een ‘digitaal depot’?

Share This:

Leave a Reply

Your email address will not be published. Required fields are marked *