XML-bestandsformatenstrijd: olie op het vuur

24 januari 2007

Een Australische software-engineer heeft via mail van Microsoft het verzoek ontvangen om tegen betaling enkele Wikipedia-lemma's bij te werken. Na deze bekendmaking is op verschillende sites een levendige discussie ontstaan over de ethische implicaties van het verzoek én over de voor- en nadelen van enerzijds OpenDocument Format (ODF) en anderzijds Office Open XML (OOXML). Rick Jelliffe, Chief Technology Officer van het XML-softwarebedrijf Topologi Pty en XML-specialist pur sang, kreeg het verzoek van Microsoft om op basis van een contract de Wikipedia-artikelen over het ODF– en het OOXML-formaat bij te werken. Volgens Jelliffe was Microsoft op zoek naar een 'independent but friendly' persoon die gedurende enkele dagen in de genoemde lemma's kon 'provide more balance on Wikipedia concerning the ODF and OOXML formats'. Naar eigen zeggen gebruikt Jelliffe vrijwel geen Microsoft-producten en is hij verre van een fan van het softwarebedrijf. Jelliffe is auteur van 'The XML & SGML Cookbook' en ziet zichzelf als een 'voorvechter van standaarden'. Jelliffe staat bekend als onafhankelijk en hij geniet veel vertrouwen. Hij is er al met al niet van overtuigd dat hij niet is gevraagd om pro-Microsoft-informatie aan de open encyclopedie toe te voegen. Wat voor hem pleit is dat hij bekendmaakt een dergelijk aanbod gekregen te hebben en dat hij ook werkelijk overweegt om het contract aan te gaan.

Het bericht van Jelliffe in een blog op de O'Reilly-website heeft de toch al levendige discussie over de bestandsformaten nogmaals versterkt, met name als het gaat om de ethiek van het geheel. Het is onduidelijk wat er gebeurt als Jelliffe zijn veranderingen daadwerkelijk doorvoert. De beheerders van Wikipedia zijn namelijk niet te spreken over wijzigingen die worden doorgevoerd op verzoek van bedrijven, omdat daardoor de onafhankelijkheid van de site in gevaar komt. De vraag overigens is of Jelliffe veranderingen aanbrengt die vooraf toestemming van Microsoft benodigen. Dat is twijfelachtig. Het was dan beter geweest als Jelliffe niet had verkondigd dat hij een contract had getekend met Microsoft. Op zich zou Jelliffe door de beheerders van Wikipedia in de ban gedaan kunnen worden, maar er is op dit moment niet veel bewijsmateriaal om dat te rechtvaardigen. Een logischer gevolg is dat andere lezers de wijzigingen van Jelliffe controleren en eventuele fouten verbeteren of ontbrekende informatie toevoegen, met als resultaat een algehele kwaliteitsverbetering van de lemma's, aldus een Wikipedia-beheerder. Een woordvoerder van Wikipedia, David Gerard, zei dat: 'We're disappointed that Microsoft thought it had to work by stealth like this. The company would be better off donating the money to Wikipedia and earning the goodwill that would result'. De hele discussie brengt alle argumenten voor en tegen beide formaten weer eens furieus voor het daglicht. Zeker is dat er wel het een en ander op te merken is als het gaat om OOXML. Er zitten heel wat problemen in de meer dan 5500 pagina's tellende specificaties, die ten grondslag lagen aan de erkenning van het formaat als een ECMA-standaard. Voor een redelijk compleet overzicht van alle problemen zie hier. Al deze problemen samen zijn voldoende om een standaardisatieproces door de International Standard Organization te doen mislukken, tenminste als de ISO zijn eigen richtlijnen serieus neemt. Maar het is zeer verbazingwekkend om voortdurend uitspraken als de volgende van Jelliffe in deze discussie tegen te komen: 'I think OOXML has attributes that distinguish it: ODF has simply not been designed with the goal of being able to represent all the information possible in an MS Office document; this makes it poorer for archiving but paradoxically may make it better for level-playing-field, inter-organization document interchange. But the archiving community deserves support just as much as the document distribution community'. Even afgezien van het feit of ODF wel of niet in staat is om Microsoft-bestanden weer te geven (dat kan het, ook uit het verleden !), Jelliffe lijkt hier aan te geven dat juist de 'archiving community' recht heeft op OOXML. In de commentaren op zijn blog komt die archivaris nog verschillende keren terug. 'The need to keep to archivists happy is easily understood, and I have no objection to the notion of Microsoft creating an XML-based format that can express every single piece of legacy data in their back catalogue. That's their business. But what need is there for it to be an ISO standard?', is een mooi voorbeeld. Is het werkelijk zo dat de 'archiving community' zit te wachten op OOXML ? Jelliffe zegt het wel erg fraai: hij zegt dat ODF waarschijnlijk een beter formaat is voor de uitwisseling van documenten dan OOXML. Dat is, gezien de problemen die uit de OOXML-specificatie voorkomen, voorlopig ook juist. Maar laten we ook eerlijk zijn: de 'archival community' zit niet op OOXML te wachten als een archiveringsformaat; het heeft alle na- en voordelen van andere XML-formaten: het is muteerbaar, geweldig om uniformiteit in opslag voor collaboration te realiseren, het bestandsmanagement te vereenvoudigen en hergebruik te stimuleren. Ongeschikt echter voor langdurige archivering, waar juist vorm, structuur en inhoud van het bestand in de tijd moet worden vastgehouden en waarin geen mutaties mogen worden aangebracht. De 'archival community' heeft daarvoor al een ISO-standaard beschikbaar, nl. PDF/A (ISO/IEC 19005-1. Document management – Electronic document file format for long-term preservation). OOXML kan echter heel interessant zijn voor de 'archival community' als een conversietool, als een middel om de problemen met duurzaamheid die Microsoft in het verleden zelf heeft gecreëerd op te lossen. Een conversietool, die het mogelijk maakt om alles naar een XML-formaat te trekken, om daarna (als het nodig is) de conversie naar PDF/A (voor archivering) of ODF (voor collaboration) mogelijk te maken (al is dit laatste, gezien de specificaties van OOXML, die conversie naar ODF problematisch maken, niet zo eenvoudig). En op het moment dat Adobe het Mars-formaat realiseert, dan komt de discussie over collaboration, interoperabiliteit en uniformiteit weer in een heel ander licht te staan. PDF/A ontbreekt in de discussie volledig, terwijl het bestaan hiervan juist een pijler onder de duurzaamheidsdiscussie van de huidige XML-formaten weghaalt.

Share This:

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.