maandag 20 december 2010

Computer herkent inhoudelijke overlap

Computer herkent inhoudelijke overlap: "

Vergelijk de volgende twee krantenberichten, uit respectievelijk het NRC Handelsblad en de Telegraaf:


Steve Irwin


De 44-jarige Steve Irwin –-bekend door zijn tv-programma’s over dieren-– stierf maandagmiddag (plaatselijke tijd) nadat hij tijdens het duiken voor de Australische noordoostkust bij Port Douglas in zijn borstkas wordt gestoken door een giftige pijlstaartrog.




Steve Irwin, de Australische televisiepresentator die bekend is als The Crocodile Hunter, is maandag overleden nadat hij tijdens een duikexpeditite was gestoken door een pijlstaartrog.



De twee zinnen beschrijven dezelfde gebeurtenis, maar doen dat met behulp van bijna volledig verschillende bewoordingen. Een computer die alleen naar de woorden kijkt zal niet herkennen dat ze beide over hetzelfde onderwerp gaan. Wie op het internet zou zoeken naar informatie over ‘de dood van de Crocodile Hunter’, krijgt daarom alleen het Telegraafbericht –- terwijl een zoekmachine die de inhoudelijke overlap wel herkent, beide artikelen kan aanbieden.


Specifieker


Onderzoekers van het Tilburgse Instituut voor Cognitie en Communicatie (TiCC) aan de Universiteit van Tilburg hebben een grote dataverzameling aangemaakt die een computer kan gebruiken bij het herkennen van dergelijke inhoudelijke overlap. Deze databank van meer dan twee miljoen woorden bevat vele Nederlandse tekstparen die steeds over hetzelfde onderwerp gaan. Dit zijn niet alleen nieuwsberichten, maar ook vertalingen van dezelfde tekst. In eerste instantie moesten de onderzoekers handmatig aangeven waar de inhoudelijke overlap precies zat.


Later hebben ze ook een tool gebouwd die de overlap automatisch kan detecteren. Deze software kijkt niet alleen naar wèlke zinnen in de teksten inhoudelijk dezelfde betekenis hebben, maar ook naar hoe de verschillende zinnen met elkaar samenhangen. Zo is de tekst van het NRC Handelsblad hierboven veel specifieker dan die van de Telegraaf.


Kranten

Plagiaat


De mogelijkheden van een computer die inhoudelijke overlap kan herkennen zijn groot. Zoekmachines kunnen ook pagina’s aanbieden waar niet exact jouw zoektermen in staan, maar die wel over hetzelfde onderwerp gaan. Vraag-antwoordsystemen kunnen je vraag beantwoorden, ook al heb je je vraag niet precies in de juiste bewoordingen gesteld. En grote tekstbestanden kan zo’n computer automatisch voor je samenvatten. “Helemaal ideaal is de mogelijkheid van zinsfusie”, vertelt hoogleraar Emiel Krahmer, betrokken bij het project. “Deze tool kan niet alleen vaststellen dat twee zinnen grofweg dezelfde informatie bevatten, maar is ook in staat om de inhoud van de verschillende zinnen samen te voegen tot één nieuwe zin. Zo kan je razendsnel de relevante informatie halen uit grote hoeveelheden tekst.”


Dat is niet alleen handig voor mensen die snel informatie willen vinden in grote tekstbestanden zoals Google Books of Wikileaks. Krahmer ziet meer mogelijkheden, bijvoorbeeld in de journalistiek. “Maar denk ook aan het opsporen van plagiaat. Vaak wordt bij plagiaat niet zo maar een tekst gekopieerd, maar enigszins geparafraseerd. Met deze dataset zou een zoeksysteem dat kunnen detecteren.”


Lees ook:


"

of de hele samenvatting van een boek voor je schrijven?