George Zipf
Het was George Zipf, een geleerde aan Harvard, die in de jaren 30 stelde dat korte woordjes werden veroorzaakt door veel gebruik van het woord. Bij hoogfrequente woorden is het maar lastig als ze lang zijn; dat schiet niet erg op op bij het schrijven, lezen of spreken. Veelvoorkomende woorden zijn dus meestal kort, zodat je zo efficiënt mogelijk kunt communiceren. “Het klinkt als een erg logische theorie”, geeft Steven Piantadosi, een onderzoeker aan MIT, toe. “Maar het verklaart maar voor een heel klein deel de lengte van woorden.” Hij deed zelf ook onderzoek naar woordlengte. Hieruit blijkt dat de hoeveelheid informatie die een woord draagt een betere indicatie geeft van de woordlengte.
Variatie in woordlengte
Piantadosi maakte bij zijn onderzoek gebruik van het werk van Claude Shannon, die aan de wieg stond van de informatietheorie. Deze theorie stelt dat een woord weinig informatie bevat als het heel voorspelbaar is. Na een reeks woorden als ‘Het is een pak van mijn …’ verwacht je al dat het volgende woord ‘hart’ zal zijn. Dat woord bevat dus weinig nieuwe informatie. Maar na ‘Wij zijn …’ is het moeilijker om te voorspellen hoe de zin afloopt. Een woord als ‘vrolijk’ bevat dan dus juist veel informatie.
Om te onderzoeken hoeveel informatie verschillende woorden bevatten analyseerde Piantadosi een grote hoeveelheid teksten van Google. Telkens bekeek hij hoe voorspelbaar een woord was aan de hand van de één, twee of drie woorden die eraan vooraf gingen. Een lage voorspelbaarheid stond voor een hoog informatiegehalte. Vervolgens zette hij dat informatiegehalte af tegen de lengte van de verschillende woorden. En dat deed hij voor maar liefst elf verschillende talen.
In deze grafiek zie je de correlatie tussen woordlengte en woordfrequentie (gestreept) en tussen woordlengte en informatiegehalte (gevuld). De voorspelbaarheid is berekend op basis van de drie voorafgaande woorden. Zoals je ziet is bij de meeste talen het informatiegehalte sterker gerelateerd aan de woordlengte dan de woordfrequentie.
Het resultaat hiervan zie je in de grafiek hierboven. Piantadosi ontdekte dat gemiddeld 10 procent van de variatie in woordlengte is te verklaren aan de hand van het informatiegehalte van die woorden. Dat is nog niet veel, maar wel drie keer zoveel als de variatie verklaard aan de hand van frequentie. In het Engels komen woorden als ‘mind’ en ‘organization’ even vaak voor, maar in lengte verschillen ze aanzienlijk. Maar andersom komt dus ook vaak voor, zo geven de onderzoekers ruiterlijk toe: ‘menu’ en ‘selection’ lijken niks op elkaar wat betreft woordlengte, maar hebben wel ongeveer hetzelfde informatiegehalte.
Hersencapaciteit
Dat korte woordjes over het algemeen minder informatie bevatten, maakt ze zeker niet overbodig. Ze komen namelijk voor in de context van woorden die wél een hoog informatiegehalte hebben. De korte woorden geven zodoende de betekenisvolle woorden de ruimte, zodat onze hersenen de hele zin makkelijker kunnen verwerken. Volgens Piantadosi bestaat er een optimaal tempo voor efficiënte communicatie. Daarin kan een uiting bestaan uit enkele woorden met een hoog informatie-gehalte of uit een hele reeks korte woordjes die weinig informatie bevatten. Maar het meest zal een combinatie van deze woorden voorkomen.
Zie ook:
"