Google breidt zoeken uit tot gescande PDF’s

31 oktober 2008

Door gebruik te maken van een OCR (optical character recognition) technologie is Google er in geslaagd om de geconverteerde tekst van PDF-scans beschikbaar te maken in de zoekresultaten van haar zoekmachine door gebruik te maken van de 'View as HTML' link. Google verklaarde donderdag 30 oktober dat het begonnen was 'turning electronic copies of printed documents — PDF files generated from scanned paper — back into digital text using optical character-recognition (OCR) technology'. Evin Levey, product manager bij Google, schreef in een blog post dat 'In the past, scanned documents were rarely included in search results as we couldn't be sure of their content. We had occasional clues from references to the document — so you might get a search result with a title but no snippet highlighting your query. Today, that changes. We are now able to perform OCR on any scanned documents that we find stored inAdobe 's PDF format'. Als voorbeeld een document van de Consumer Product Safety Commission (CPSC) dat als scan nu middels HTML zichtbaar en leesbaar is. Bij Yahoo, Microsoft en Ask werd hetzelfde document als PDF gevonden, maar was het niet als een HTML te lezen. Bij niet gescande PDF's was dezelfde optie al geruime tijd beschikbaar. Het is een interessante optie, omdat er nu een enorme hoeveelheid documenten op een betere manier toegankelijk te maken is.

Door beelden van tekst in tekst om te zetten breidt Google zijn toch al imposante index nog verder uit. Zoals Levey stelt. 'Google's OCR system converts pictures into thousands of words. This is a small but important step forward in our mission of making all the world's information accessible and useful'. Google's benadering neemt niet de noodzaak weg om de gescande file te raadplegen; zeker als het foto's of diagrammen bevat is het een noodzaak, want die komen niet in het HTML-document voor. Hoewel Google uitstekend werk doet in de tekstconversie, het laat tekeningen, foto's en alle andere grafische elementen ongemoeid. Wellicht dat de engineers nog in staat zullen zijn om afbeeldingen uit gescande PDF's te halen en ze in de HTML-documenten te passen. 'To people reading these documents, the distinction between words and pictures of words makes little difference, but for a computer the picture is almost unintelligible. Consider a circle. Should it be read it as a zero, the letter 'O', just a circle, or the ring from my coffee cup? People learn to answer this kind of question very quickly, but for the computer it is a painstaking and error-prone process', zo schrijft Levey. Een ongelukkige bijkomstigheid is dat persoonlijke informatie die niet onherkenbaar gemaakt is voor het scanningproces nu openbaar kan worden. 'Public.Resource.org, a project that aims to make public government publicly accessible, recently found about 1,700 documents with Social Security numbers or alien identification numbers out of a corpus of 2.5 million court documents that go back decades', zo zegt een woordvoerde rvan de British Library. Maar dat is uiteraard het probleem als alle informatie van de wereld toegankelijk gemaakt wordt. Het is een interessante optie voor archieven en bibliotheken, die met behulp van deze Google-technologie complete collecties full-text doorzoekbaar kunnen maken. Het betekent in ieder geval dat er opnieuw nagedacht moet worden over het metadataverhaal in relatie tot retrieval. Hoewel metadata hun nut blijven houden, is het wellicht (gezien deze techniek van Google) nodig om in de toegankelijkheids-metadata wijzigingen aan te brengen.

Van Bussel Document Services

Auditing, Strategic Consultancy and Research

Leave a Reply Cancel reply

Share This:

Leave a Reply Cancel reply