Internet Archive rekt opslagcapaciteit op

27 maart 2009

Het 'Internet Archive' – een van de grootste digitale bibliotheken ter wereld – draait voortaan in een datacenter op de campus van Sun in Santa Clara, Californië. Het Internet Archive is in 1996 opgericht als een non-profit organisatie die zich tot doel stelde om websites te archiveren: inclusief bewegende beelden, audiostreams en tekstdocumenten. Internet Archive is bij het grote publiek vooral bekend via 'The Wayback Machine': een site waarlangs je oude versies van je favoriete websites kunt oproepen. Eind 2008 was het Internet Archive goed voor meer dan 3 petabyte aan informatie. Momenteel groeit het archief maandelijks aan met zo'n 100 terabyte. Sun Microsystems kondigt nu aan dat het de technische infrastructuur van dit gigantisch archief – zowel de hardware- als softwareplatformen – voortaan voor zijn rekening zal nemen. Het archief wordt in een apart 'modular' datacenter ondergebracht op de Californische campus van Sun Microsystems. De grote uitdaging daarbij is dat de digitale bibliotheek bewaard moet blijven op zo'n manier dat de data ook nog ingepast kan worden in eventuele toekomstige standaarden en formaten. De nonprofit-organisatie Internet Archive heeft nu meer dan 85 miljard webpagina's gearchiveerd. Vijf jaar geleden waren dat er nog 30 miljard. De containers zijn volgestouwd met Sun Fire x4500s servers die draaien op Solaris 10 en het ZFS-bestandssysteem gebruiken.


Groot voordeel aan de containeraanpak is dat de bouw van het datacenter veel minder tijd in beslag neemt. Volgens Sun kan het Internet Archive straks 500 aanvragen per seconde verwerken. Sun hield afgelopen woensdag in Santa Clara een openingsbijeenkomst van het nieuwe datacentrum. De website Archive.org verandert vooralsnog niet. The Internet Archive slaat niet alleen webpagina's op, maar ook andere bestanden, zoals muziek, software en e-books. In de bibliotheek van het Egyptische Alexandrië staat een complete mirror. 'The Internet Archive offers long-term digital preservation to the ephemeral Internet', zo zei Brewster Kahle, oprichter van het Internet Archive. 'As more of the world's most valuable information moves online and data grows exponentially, the Internet Archive will serve as a living history to ensure future generations can access and continue to preserve these important documents over time'. 'We've worked closely with the Internet Archive to ensure the right technology platform is in place to handle and manage growing amounts of the world's most valuable data and that it lives on for future generations', zegt Dave Douglas, Chief Sustainability Officer en senior vice-president of Cloud Computing van Sun. 'The combination of open storage technology innovation in a Sun Modular Datacenter is a perfect match for this organization's mission and gives them the storage performance they need in a smaller power envelope – all at a cost-effective price point'. Het Internet Archive wendde zich tot Sun voor de oplossing van twee belangrijke uitdagingen: 'storing massive amounts of data and ensuring this data will be preserved in the future. We needed a way to parse, index and physically encode exponentially greater amounts of raw data; while, at the same time protect stored resources from damage or destruction. Data degradation and maintaining accessibility of the data in unknown future formatting were among the many challenges facing this project', zo zei Kahle. 'No company can match the storage innovation that is coming out of Sun right now. Putting Sun's highly dense storage technology into a modular datacenter gives us the performance and efficiency we need at a low price point'.

Share This:

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.