Doorbraak bij het doorzoeken van ‘onleesbare’ teksten

Hoe groot en ongestructureerd een tekstbestand ook is, de computer haalt er uit wat u zoektMoet u regelmatig informatie opzoeken in enorme ‘lappen’ tekst? Of in moeilijk leesbare notities? Dankzij een nieuwe techniek tovert de computer uw gegevens snel tevoorschijn.

Onderzoekers van de Rijksuniversiteit Groningen hebben een methode ontwikkeld om snel en trefzeker relevante informatie te filteren uit moeilijk toegankelijke bronnen.

Weinig gestructureerde informatie

Het gaat dan om teksten die niet zijn geschreven om van a tot z te worden gelezen. En om nauwelijks gestructureerde teksten, losse notities en voor intern gebruik bedoelde documenten.

De bedenker van deze vorm van kunstmatige intelligentie is informaticus Ashwin Ittoo. Hij verwacht dat zijn algoritmen zeer breed toepasbaar zijn. Ook door zoekmachines als Google. Ittoo promoveert op 5 januari 2012 aan de Faculteit Economie en Bedrijfskunde.

Computer moet teksten leren begrijpen

Voor een computer is het vinden van losse woordjes of combinaties van woorden in grote hoeveelheden tekst heel eenvoudig. Maar om een computer een tekst te laten begrijpen en hem er een conclusie uit te laten destilleren, is een techniek die nog in ontwikkeling is.

Dat vereist zogeheten ‘Natural Language Processing’ (NLP), een zijtak van kunstmatige intelligentie. Zo was het heel bijzonder toen de supercomputer Watson van IBM een klein jaar geleden in staat bleek quizvragen beter te begrijpen en te beantwoorden dan de mens.

Ook voor slordige kladjes

Niet geheel toevallig werkte Ittoo aan vergelijkbare technieken als het Watsonproject, want NLP vormde daarvoor de grondslag. Zijn algoritmes ontsluiten echter een enorme hoeveelheid extra informatie.

Het was al mogelijk een computer goed leesbare teksten te laten begrijpen. Zoals nieuwsberichten en wetenschappelijke artikelen. De computer kon er ook al relevante informatie uithalen. Maar de nieuwe tekstanalyse is ook toepasbaar op in telegramstijl geschreven, informele kladjes, vol spel- en grammatica-fouten. Zoals klachtenformulieren van klanten of interne memo’s.

Prototypes al in gebruik

De promovendus testte en ontwikkelde zijn zoekalgoritmes onder meer bij Philips Health Care en Bang&Olufsen. Beide bedrijven gebruiken inmiddels prototypes van zijn zoektechniek om hun bedrijfsinformatie te verfijnen, zoals data over klanttevredenheid.

Hoewel de techniek is ontwikkeld bij bedrijven in consumentenelektronica, is ze veel breder toepasbaar. Te denken valt aan het doorzoeken van medische dossiers en financiële documenten. En bij terrorismebestrijding.

Commercieel interessant

Ook zoekmachines kunnen er baat bij hebben. Volgens de onderzoeker levert zoeken via Google vaak zeer veel resultaten op. Die wil je trefzeker kunnen filteren. Hij verwacht dat zijn algoritmes daarbij behulpzaam zijn.

De verfijning van de bestaande NLP-technieken is niet alleen een wetenschappelijke stap voorwaarts, maar ook een commercieel interessante vinding. Alleen al in de Verenigde Staten wordt de markt voor dit soort tekstanalyse geschat op $ 835 mln. En het aantal gebruikers van de benodigde software steeg in 2010 met 25%.

Toepasbaar voor elke taal

Daarom streeft de informaticus naar spoedige commerciële toepassing van zijn algoritmes. Die zijn nu specifiek voor de Engelse taal ontwikkeld. Maar ze zijn toepasbaar voor elke taal, als daar maar een goed model voor bestaat.

Over Renske Cramer
Ik ben gepensioneerd communicatie- en marketingadviseur. Ik houd me bezig met dingen die nóg leuker zijn dan werken ;-)

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s