Mobiele spraakherkenning gebruikt gebruikers om te leren

24 augustus 2007

Een nieuw bedrijf, Vlingo, heeft spraakherkenningssoftware ontwikkeld voor mobiele telefoons. Een van de meest bijzondere kenmerken is dat het systeem leert van de uitspraak van alle gebruikers van het systeem, net zoals bij spraaksoftware op de PC. Maar weinig bezitters van mobiele telefoons maken gebruik van spraakherkenning op hun telefoon. Dat is op zich niet verwonderlijk, want ze zijn zeer weinig gebruiksvriendelijk, omdat ze een zeer beperkte 'woordenschat' hebben of doordat ze van gebruikers eisen dat een bepaalde set woorden aangeleerd moet worden. De technologie werkt niet foutloos en meestal moet een commando herhaald worden. Vlingo Mobile hoopt deze problemen op te lossen. Het bedrijf is van start gegaan met een bèta van zijn spraakherkenningssoftware. Er hoeft geen lijst met commando's uit het hoofd geleerd te worden. Om de gebruiksvriendelijkheid te bevorderen kan er op een natuurlijke wijze tegen het apparaat gesproken kan worden. Daarnaast is de Vlingo-software niet gebonden aan een beperkt aantal telefoonapplicaties, maar werkt het in alle programma's.

De software is in Java geschreven en maakt gebruik van 'hierarchical language models'. Dit betekent dat uitgesproken woorden geanalyseerd worden op hun geluidsvorm, uitspraak, grammatica en onderlinge relatie. Deze analyse wordt uitgevoerd op de servers van Vlingo of die van de aanbieder van mobiele telefonie en de resultaten worden vervolgens teruggestuurd. Het gevolg is dat het systeem 'leert' van de stemmen van al zijn gebruikers, waardoor de software een grotere nauwkeurigheid zou kunnen bereiken. De noodzaak van Internet voor de data-analyse zorgt er echter voor dat het systeem vermoedelijk niet werkt als er geen verbinding met Internet gemaakt kan worden. 'The new technology that we've developed here basically allows all of those to be combined and scaled up to tens of millions of users', zegt Dave Grannan, Chief Executive Officer van het bedrijf. 'We'd like to be able to take any text box on a mobile phone and make it like a Google box, where your wording doesn't matter'. Het systeem leert als het actief is, houdt zelfs rekening met fouten en accenten. 'For example someone with a heavy Boston accent might say 'Pak the cah' and, over time, the system would be able to recognize that means 'park the car,'. 'Sanjaya' might return 'Santana' the first time, but the first few users might go correct it—now we're capturing those acoustics and spellings and, within a reasonable amount of time (a few hours or overnight), the system has learned a new word. It definitely benefits from the network effect—the more people who use the system, the better it gets'. Grannan meldde dat 'as of today, Vlingo only supports 'feature phones'—that is, phones with the typical 12 keys. There is no technical reason why we can't work on smartphones with a QWERTY keypad, and we'll eventually support smartphones', zo zei hij. 'But we feel that the payoff is so high for people who use feature phones that that's our main focus right now'. Het is een interessante optie, maar het is de vraag of (vooral vanwege de continue verbinding met Internet) een breed gebruik zal volgen.

Share This:

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.