Category Archives: Opslag (Storage)

Een dure les!

In OD van november 2019 publiceerde ik een reactie-column op de column van Daan van Beek aangaande het ‘data lake’. Ik noemde deze reactie Een dure les!, omdat, zoals zo vaak bij dit soort nieuwe technologie, organisaties, bang om achter te blijven, met beide voeten vooruit erin springen om er achteraf achter te komen dat dat misschien toch niet zo handig was. Ondertussen is er een hele hoop geld in gestopt, maar is er wel heel veel ‘geleerd’. Tenminste dat mag gehoopt worden. Het bijgaande bestand bevat zowel de column van Daan van Beek als mijn reactie daarop.

Citatie: G.J. van Bussel, ‘Een dure les!’, OD, november 2019, nr. 7, blz. 7.

Share This:

Wat is BLOCKCHAIN? Een begrijpelijke film over blockchain technologie.

Ik heb al meerdere malen iets gezegd en geschreven over de blockchain. De bijgaande video van het Centre for International Governance Innovation legt het concept op een begrijpelijke en realistische wijze uit. Let wel: er blijven wel enkele problemen bestaan, zoals opname van informatieobjecten (documenten, video- en audiofiles, e.d.), archiefwettelijke vernietiging en het realiseren van de AVG / GDPR. Maar de video maakt op simpele wijze duidelijk wat de betekenis van de blockchain kan zijn en maakt vooral helder dat het een voortzetting is van een eeuwenoud gebruik van registers, op een nieuwe (nog niet helemaal uitgekristalliseerde) manier. Het is een makkelijk filmpje om naar te verwijzen, zodat op een simpele wijze kan worden uitgelegd wat de technologie inhoudt, zonder in jargon te hoeven vervallen.

Share This:

Herdruk

In februari 2017 (we werden wat laat op de hoogte gesteld) verscheen ‘Digital Archiving, Green IT and the Environment: Deleting Data to Manage Critical Effects of the Data Deluge’ als laatste (10de) hoofdstuk in Shaun Pather (ed.), Leading Issues in ICT Evaluation Research, Vol. II, Reading: Academic Conferences and Publishing International Ltd, 2017), pp. 200-220.

Dit boek is een compilatie van tien zorgvuldig geselecteerde artikelen (2010-1015), verschenen in The Electronic Journal for Information Systems Research (EJISE), die beschouwd worden als een reflectie van de ‘leading issues’ in de evaluatie van informatiesystemen in de genoemde periode. Als zodanig worden ze beschouwd als ‘invaluable to both the research and practitioner communities’. Het bovengenoemde artikel verscheen in EJISE, vol 18 (2015), nr. 2, pp. 187-198. Een PDF daarvan is hier te downloaden. De tekst van het hoofdstuk is ongewijzigd gebleven, maar wel voorzien van een inleiding door de redacteur. In deze inleiding werd aangegeven waarom dit artikel in de bundel is opgenomen. Ik laat deze redactionele inleiding hieronder volgen.

‘The phenomenal reach of networks in our modern inter-networked society of the 21st century suggests that we are witness to an exponential growth of data storage across both cloud and localised systems. Moore’s law (Moore, 1965) implies a massive increase in requirements for data storage (see e.g. Chip, 2005a). However, given that storage is largely dependent on energy, the inter-networked era is placing an undue premium on the judicious application of limited energy sources. Thus whilst this paper by van Bussel, Smit and van de Pas is not based on a typical IS evaluation problem, it does provide a basis for a new dimension of evaluation. Given that the cost of data storage will decrease as the demand increases, the evaluation of energy costs of IS projects will undoubtedly be necessary. This paper, then, provides a basis on which a new perspective of IS project (ex-ante) should evolve, involving an evaluation of the ‘greenness’ of the IS infrastructure. The outcomes of such evaluation should assist in ensuring that hardware architecture of IS will draw only minimally on the already constrained resources of the natural environment’.

Shaun Pather, Leading Issues, p. 200.

Het boek zelf is verkrijgbaar bij de Academic Bookshop, voor £19.00.

Share This:

Opslag van data in DNA

“DNA digital storage” verwijst naar elke mogelijkheid om digitale data op te slaan in DNA, dat is geproduceerd door gebruik te maken van “commercially available oligonucleotide synthesis machines for storage and DNA sequencing machines for retrieval”. Het opslagsysteem in DNA is veel compacter dan de huidige magnetische tape of hard drives, omdat de dichtheid van DNA vele malen groter is. Het heeft ook een erg lang leven, zodat de data in stand blijven, tenminste zolang het DNA op een koude, droge en donkere plaats wordt beheerd. Aangezien DNA een universeel en fundamenteel biologisch opslagmechanisme is, is de kans op onleesbaarheid van het medium in de toekomst niet zo heel erg groot (afhankelijk uiteraard van de bewaarcondities). Onderzoekers noemen de opslagmethode “apocalypse-proof” omdat “after a hypothetical global disaster, future generations might eventually find the stores and be able to read them.” Het is echter ook een erg langzame methode want “the DNA needs to be sequenced in order to retrieve the data”. De methode is dus vooral interessant voor data die een lage retrieval graad hebben, weinig worden gebruikt dus, zoals grote hoeveelheden wetenschappelijke data of “long-term archival data”. Over dat laatste s te discussiëren, maar een interessante opslagmethode is het in ieder geval.
Hieronder staat een korte presentatie van Nick Goldman, van het European Bioinformatics Institute, waarin het hele procede van DNA opslag uit de doeken wordt gedaan. Zeer interessant en het kijken waard. Het duurt iets langer dan een kwartier en de kijker weet dan in ieder geval meer dan dat het erg duur is.

Share This:

In data we (don’t) trust!

Halo Business Intelligence publiceerde in juli 2015 de onderstaande visualisatie over de betrouwbaarheid van data binnen bedrijven. Als iets de noodzaak illustreert voor een een meer gestructureerder management van informatie is het wel dit. Is deze visualisatie zelf betrouwbaar? Eerlijk gezegd heb ik geen idee, maar het bevestigt wel het beeld dat ik in de afgelopen jaren zelf gecreëerd heb op basis van de ervaringen uit mijn eigen beroepspraktijk.

data-quality-infographic

Share This:

Digital Vellum: Vint Cerf at Chautauqua Institution, 2015.

Een ICT grootheid horen spreken over Digital Preservation en het belang van het behouden van informatie? Kijk en luister naar deze voordracht (inclusief Q&A) van Google’s Chief Internet Evangelist Vint Cerf (een van de mede-uitvinders van het Internet) over zijn (en Google’s) Digital Vellum. Een interessante voordracht. Je moet wel wat zitvlees hebben (het duurt ruim een uur!), maar ik heb me niet verveeld (al was wat hij vertelde niet nieuw). Maar toch! Digitale Duurzaamheid is ‘ineens’ op de agenda gezet. Dat gebeurt pas als een erkende ICT grootheid (wat Cerf onmiskenbaar is!) het als een probleem definieert. Ongeacht de wetenschappers en archivarissen die er zich al druk over gemaakt hebben! En als het echt op de agenda staat, komen we steeds dichter bij een ‘oplossing’.

Share This:

Backbone of the Internet? Facebook’s and Google’s datacenters

Google en Facebook zijn twee Internet-giganten, die ongelooflijke hoeveelheden data verwerken en miljoenen interacties per dag verwerken. Vandaag twee filmpjes over de datacenters die daarvoor nodig zijn. Ze zijn niet zo lang, maar geven wel een goed beeld van de opslag- en verwerkingskracht die nodig is om als search- en social media site succes te kunnen hebben. Beide bedrijven hebben datacenters verspreid over de gehele wereld. Samen met datacenters van andere giganten (denk Amazon, Microsoft, Twitter) vormen deze datacenters ‘the backbone of the Internet’.

Voor Google:

Voor Facebook:

Share This:

Over Cloud en Big Data – artikel in META

In META. Tijdschrift voor Bibliotheek en Archief, 2015, nr. 4, blz. 32-35, verscheen mijn artikel ‘Over Cloud en Big Data. Uitdagingen en onontkoombaarheid’. Het is als PDF te downloaden.
 
Ik sluit dat artikel af met de volgende bespiegeling: 
 
“Cloud computing wordt in tijden van bezuiniging vooral gezien als een mogelijke en interessante automatiseringsoptie, ook in bibliotheken, musea en archieven. Het concept biedt vele mogelijkheden om kosten te besparen en tegelijkertijd kwaliteit en performance te verhogen. Uiteraard kunnen die laatste twee alleen indien de hiervoor aangegeven uitdagingen en juridische complicaties kunnen worden ondervangen. Veel organisaties zijn echter vooral gecharmeerd door de kostenverminderingen die kunnen worden gerealiseerd en de mogelijkheden om de eigen, complexe informatie infrastructuren af te bouwen. Ze zijn zich niet echt bewust van de potentiële problematiek, die cloud computing en Big Data met zich meebrengen. Juist die uitdagingen en complicaties echter oefenen rechtstreeks invloed uit op de performance van bedrijfsprocessen en zijn niet zomaar te ondervangen. Dat vergt nogal wat, waardoor het van belang is de organisatorische risico’s goed in kaart te brengen en af te wegen.”
 
Citatie: G.J. van Bussel, ‘Over Cloud en Big Data, Uitdagingen en onontkoombaarheid’, META. Tijdschrift voor Biblotheek en Archief, 2015, nr. 4, pp. 32-35.

Share This:

Into the Cloud

James Glanz van The New York Times en Ken Brill, oprichter van het Uptime Institute en een specialist in Datacenters en Cloud Computing bezoeken een datacenter en laten zien wat er nodig is om die continue in bedrijf te houden. Een zeer instructieve video van de New York Times, die hier te zien is.

De video is zeer aan te bevelen. Het maakt duidelijk wat er allemaal nodig is voor het in stand houden van bijvoorbeeld het World Wide Web. Cloud is een mooi woord, maar uiteindelijk is er natuurlijk een robuuste fysieke infrastructuur nodig, die een enorme aanslag doet op de jaarlijkse energieproductie!

Voor een overzicht van de uitdagingen waarvoor Digital Archiving gesteld wordt, zie een overzicht van artikelen, boeken en video’s bij Group47.

Share This:

Zo lek als een mandje, of ‘A gift for the hackers’

KRO Reporter zond in december 2013 een documentaire uit over de risico’s van de printers, scanners en NAS-apparatuur die benaderbaar zijn zijn vanaf het internet door anderen, omdat ze (default instelling) niet beveiligd zijn met een wachtwoord: een cadeautje voor hackers. Dit cadeautje kan hackers een schat aan persoonlijke en vertrouwelijke informatie opleveren van grote bedrijven, maar ook van particulieren. Elektronische patiënteninformatie, paspoorten en financiële gegevens waren onbeveiligd. KRO Reporter deed onderzoek. De documentaire werd in januari 2013 met een Engelse voice-over door Journeyman.tv internationaal verspreid. Hoewel het specifieke probleem ondertussen is opgelost zijn dit soort problematische beveiligingslekken aan de orde van de dag. Een opmerking past er wel bij: het is niet zo simpel als wordt verteld. In die zin is de reportage enigszins misleidend. Maar het wijst op een duidelijk probleem: er is te weinig beveiliging ingebouwd in het ontwerp van de systemen zelf…

Share This:

Watch Dogs We Are Data: the interconnectivity of public data

Watch Dogs is een action-adventure van Ubisoft. ‘Set in alternate reality Chicago, Illinois, the player controls Aidan Pearce (voiced by Noam Jenkins) who can hack into electronic devices linked to the city’s central operating system (CtOS). In the game universe, the Northeast blackout of 2003 was caused by a hacker, which prompted the development of CtOS. This system illustrates the concept of the inter-connectivity of data and the world’s increasing reliance on technology by controlling almost every piece of technology in the city and containing information on all citizens. Summarily, that system can be accessed by people like you so that bank numbers and personal funds can be stolen, traffic lights can be switched at random, and information can be used and abused’. Om aan te geven dat het spel veel realistischer is dan we wellicht zouden denken, lanceerde Ubisoft de website Watch Dog’s We are Data, waarin precies wordt aangegeven hoe zeer het Watch Dog universum lijkt op het onze.
 
De website staat je toe te kijken naar data (‘CCTV networks, traffic lights, real-time running trains, as well as localized shared social media on Twitter, Facebook, email, Instagram, Flickr, etc’. Dit pops-up in real-time in drie verschillende steden: Londen, Parijs en Berlijn.
 
De website wil aangeven dat ‘society’s hyper reliance on technology and interconnected reality already exists… and all that information can be shared, traded, and monitored in real-time by anyone’.
 
Door iedereen! Dus ook door jou!

 
Hieronder een video met uitleg over de site en de werking ervan. In het Frans! Goed om je talenkennis te testen!
 
De website waarop je zelf kunt grasduinen (in het Engels!) kun je hier vinden.

 
 

Share This:

Big Ideas: Demystifying Hadoop

Patricia Florissi (EMC Americas/EMEA CTO) publiceert regelmatig video’s waarin nieuwe ontwikkelingen op begrijpelijke wijze worden uitgelegd. Dit keer gaat het over Hadoop, een beangrijk verschijnsel in het Big Data-tijdperk. Het gaat in op de geschiedenis, de architecturele principes en de functies van het platform. Nuttig om te bekijken! Het vergt even een wenningsproces aan het accent, maar als dat eenmaal ‘gevallen’ is, is het een interessante, nuttige en vermakelijke 20 minuten.
 

Share This:

For the record: The Surveillance State

‘For The Record’ is een magazine voor onderzoeksjournalistiek, zonder politieke agenda en zonder iets te verliezen te hebben. Deze eerste aflevering laat zien: ‘how the NSA turned America into a surveillance state. Hear from former NSA employees who left the agency after discovering the government was spying on her people. Plus, join us as we investigate a facility being built in Utah slated to become the largest information-gathering center in the country’. Een film uit maart 2013, een schokkend betoog dat stelt dat: ‘with every call, every email … the government is watching’. Let wel: het gaat puur om het in de gaten houden van Amerikaanse burgers door de Amerikaanse regering. Maar laten we eerlijk zijn: de Nederlandse regering doet precies hetzelfde…..
 

Share This:

Disaster Big Data? The key to recovery

De Japanse aardbeving van 11 maart 2011 (met de tsunami die daaraan gepaard ging) heeft enorme hoeveelheden data achtergelaten in cyberspace. Deze data vertellen het verhaal van de mensen tijdens (en na) deze ramp. Die data worden Disaster Big Data genoemd. Wat kunnen deze data betekenen voor de toekomst van de heropbouw van dit land? 
 

Share This:

Finn Brunton on “Dead Media”

Op de USENIX Conferentie in 2011 sprak Finn Brunton, nu een assistent professor Media, Culture & Communication de keynote uit over: “Dead Media: What the Obsolete, Unsuccessful, Experimental, and Avant-Garde Can Teach Us About the Future of Media”. Ik heb deze keynote hieronder opgenomen. Het duurt ongeveer een uur, dus het is een hele zit, maar het is wel zeer de moeite waard. Of, zoals de keynotr werd aangekondigd: “The Telharmonium. Scopitone. The Euphonia. Bone music, Oramics, rocket mail, the Multiphone, optical telegraphs, scent organs, mechanical televisions, breath printing, calculating machines, magic lanterns . . . What does it mean for a communication or information storage medium to die? What can old media formats—dead, obsolete, experimental, or ahead of their time—tell us about the future of technological communication now? This talk will go back to Cambrian explosions in media types and the visionaries, hucksters, and lunatics who staked knowledge, fame, fortune, and sometimes their lives on the success of their technologies, and tell stories from the vast population of amazing projects that never made it.”
 

Share This:

What are Big Data – really!

Een animatie van EMC over Big Data: wat is het, wat kunnen we er mee en wat levert het op. Uiteraard vanuit het standpunt van EMC, maar het is een aardige animatie om naar te kijken. De voice over is van EMC’s Patricia Florissi, VP en Global Sales CTO. De animatie zet het fenomeen Big Data in perspectief. Alleen daarom is het al interessant, alhoewel niet alle aspecten aan bod komen. Zo wordt wat minder aandacht besteed aan de complexiteit van de data-representatie en het problematische van de analyse. Deze zullen nog heel wat uitdagingen bieden. Dat er nadruk gelegd wordt op betekenis en relaties is een pre. Voor de rest: er ligt wat nadruk op ‘groot’ als in ‘maat’: een petabyte is ‘big’, maar is geen ‘big data’. De moeite waard om rustig te bekijken….

 

Share This:

Stephen Fry explains Cloud Computing

Laten we even negeren dat de laatste seconden van deze video een reclameboodschap bevatten. Buiten dat minpunt is het een hele mooie film, die de geschiedenis van de computeridee, van het denken in ‘utilities’ en het principe van cloud computing op een geweldige manier uitlegt en in verband brengt met het verleden. Dat te doen in vijf minuten en op een manier zoals in een stripverhaal is verbluffend. Erg gelikt en geslaagd!

Share This:

Taming Big Data

Er is niet zo’n groot verschil tussen big en small data. Het zijn de tools die aan het veranderen zijn. En overigens: we zijn ook nog niet zo sterk in het beheren van small data….

TamingBigData-IBM

Share This:

Zal ik deze mail echt wel verzenden?

Een nieuwe infographic: nu over het wel of niet verzenden van mail en de kosten daarvan. Een humoristische benadering met een serieuze boodschap, uiteraard afgestemd op Amerikaanse toestanden (Nederlandse data niet beschikbaar, althans niet bij mij). Nadenken of een mail verzonden moetn worden is echter helemaal niet zo vreemd: we krijgen allemaal een enorme hoeveelheid mails binnen dagelijks, waarvan het grootste deel onmiddellijk in de prullenmand beland. Misschien eens niet verzenden is dan ook een optie.

email-overload-640x3790

Share This:

Digital Archiving Cheat Sheet

De bijgaande infographic is afkomstig van John Bell. Bell is de HASTAC scholar 2013. HASTAC is het Humanities, Arts, Science and Technology Advanced Collaboratory, ‘an organization of more than 10,000 individuals and institutions dedicated to innovative new modes of learning and research in education from kindergarten to post-graduate’. De bijgaande infographic was een presentatie voor de AMIA (Association of Moving Image Archivists) en van zijn bijdrage aan Digital Humanities Week van 2013. De infographic geeft in kort bestek aan de waarde van bestandsformaten en media voor ‘information survival’.

bell_digital_archiving_infographic

Share This: