Datamining en de toekomst

Eric Horvitz van Microsoft Research en Kira Radinsky van het Israëlische Technion-instituut gebruiken software om de digitale archieven van de New York Times en online archieven door te spitten. Ze doen dit in de hoop patronen te ontdekken die het mogelijk maken toekomstige ontwikkelingen rondom bijvoorbeeld humanitaire rampen te voorspellen. 

eric_horvitz_w20De software die ze ontwikkeld hebben doorzoekt behalve 22 jaar aan digitale krantenarchieven van de New York Times ook bronnen als Wikipedia en andere internetsites. Ze zijn met name op zoek naar berichtgeving rondom rampen, ongelukken en rellen. Dergelijke data-mining wordt al langer gedaan, maar voor dit soort onderwerpen gebeurt dat meestal door personen.

Volgens de onderzoekers heeft het gebruik van software om digitale archieven te doorzoeken diverse voordelen boven menselijk onderzoek. Zo kan software makkelijk patronen ontdekken in grote hoeveelheden data, doorzoekt software ook bronnen waar onderzoekers niet aan toe komen, en signaleert de software ook verhalen die de voorpagina’s niet gehaald hebben maar toch belangrijk kunnen zijn in een ontwikkeling. Een van de problemen die de onderzoekers tegenkwamen, was het feit dat lang niet over alle tragische gebeurtenissen uit Afrika uitgebreide berichtgeving is.

Dit onderzoek is het laatste in een reeks onderzoeken die proberen het web tij ‘minen’ om toekomstige gebeurtenissen te voorspellen. Recorded Future bijvoorbeeld analyseert nieuws, blogs en sociale media ‘to help identify predictive signals’ voor bedrijven, vooral in de financiele en defensiesector. Twitter en Google worden ook gebruikt om griepuitbraken te voorspellen.

Het onderzoek is vastgelegd in de paper, ‘Mining the Web to Predict Future Events‘. Zij onderzochten bijvoorbeeld de manier waarop nieuws over natuurrampen (zoals orkanen en droogte) kan worden gebruik om cholerauitbraken in Angola te voorspellen. Als gevolg van deze rampen ‘alerts about a downstream risk of cholera could have been issued nearly a year in advance’.

Horvitz en Radinsky geven toe dat epidemiologen al naar deze relaties kijken, maar ‘such studies are typically few in number, employ heuristic assessments, and are frequently retrospective analyses, rather than aimed at generating predictions for guiding near-term action’.

‘I truly view this as a foreshadowing of what’s to come’, zo stelt Horvitz. ‘Eventually this kind of work will start to have an influence on how things go for people’. Microsoft brengt het onderzoek nog niet naar de commerciele markt, maar zet het onderzoek voort. Horvitz wil onderzoek doen met ‘data further back in time’.

Share This:

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.