🌝/💼\🩰: Trendwatchen vanuit je luie stoel

maandag 20 december 2010

Trendwatchen vanuit je luie stoel

Google is in haar Google Books-project al jaren bezig met het digitaliseren van boeken. De teller staat nu op meer dan 12 miljoen boeken, veelal afkomstig uit ruim 40 universiteitsbibliotheken van over de hele wereld. Al deze boeken zijn pagina voor pagina ingescand en vervolgens gedigitaliseerd met Optical Character Recognition. Zo waren de scans voor de computer niet langer afbeeldingen, maar teksten bestaande uit afzonderlijke letters. Ten slotte voegde Google nog aan elk boek metadata toe: extra informatie over de datum en plek van publicatie. Het resultaat is een gigantische database met een schat aan informatie voor iedereen die geïnteresseerd is in taal en cultuur.

Sinds de introductie van de boekdrukpers zijn er ongeveer 129 miljoen boeken gepubliceerd. Hiervan heeft Google er nu ruim 12 miljoen ingescand. 5 miljoen van de ingescande boeken heeft Google geselecteerd voor de Ngram Viewer.

Naar de maan en terug

Voor de Ngram Viewer selecteerde Google uit haar database ruim 5 miljoen boeken waarvan de OCR en de metadata van dusdanige kwaliteit was dat een analyse betrouwbare resultaten op zou leveren. De oudste boeken in deze selectie stammen uit de 16e eeuw. De selectie is zo groot dat het een normaal mens 80 jaar zou kosten om alleen al de boeken gepubliceerd na 2000 te lezen, zo berekenden de betrokken wetenschappers in Science. En als je alle letters uit de 5 miljoen boeken in één lange lijn zou leggen, zou die tien keer naar de maan en terug gaan.

N-gram

In een n-gram staat n voor het aantal items dat als eenheid in een analyse wordt meegenomen. Bij een unigram (1-gram) is dit steeds één woord, bij een bigram (2-gram) zijn het er twee. Als je het bigram ‘natuurlijke selectie’ invoert, zal de Ngram Viewer op zoek gaan naar het voorkomen van deze combinatie in haar database. De zoekmachine van Google gaat niet verder dan 5-gram, dus je kunt zoektermen van maximaal vijf woorden invoeren.

Erg indrukwekkend natuurlijk, maar wat kun je er nu precies mee? In feite is de Ngram Viewer een zoekmachine. Je typt enkele zoektermen in en Google presenteert een grafiek waarin van elke zoekterm staat hoe vaak ze in de publicaties uit elk jaar voorkomen. De resultaten zijn relatief, zodat het grote aantal boeken uit de 20e eeuw de resultaten niet vervormt. Op deze manier kun je dus eenvoudig trends visualiseren. De ontwikkelaars van Google verwachten dat Culturomics, zoals zij de grootschalige data-analyse voor de bestudering van cultuur noemen, een nieuw soort bewijs zal vormen voor onderzoekers op het gebied van taal en cultuur.

De naam van de Joodse kunstenaar Marc Chagall kwam tijdens de naziperiode (1933-1945) opvallend minder voor in Duitse publicaties. Dit wijst op onderdrukking.

Zelf hebben de ontwikkelaars voor Science alvast wat kleine experimentjes met hun zoekmachine uitgevoerd. Zo onderzochten ze uit hoeveel woorden de Engelse taal bestaat (544.000 in 1900, 597.000 in 1950 en 1.022.000 in 2000). Ook konden ze aantonen dat de Joodse kunstenaar Marc Chagall in Nazi-Duitsland onderdrukt werd; zijn naam komt duidelijk minder voor in Duitse publicaties uit de periode 1933-1945. Een andere interessante analyse is de verschuiving van onregelmatige werkwoordsvervoegingen naar regelmatige werkwoordsvervoegingen. In het Amerikaans-Engels begon de verschuiving van ‘burnt’ naar ‘burned’ duidelijk eerder dan in het Brits-Engels.

De verleden tijd van ‘burn’ was oorspronkelijk ‘burnt’. Vanuit Amerika kwam de trend op gang om het werkwoord regelmatig te vervoegen, als ‘burned’.

Android in 1750

De resultaten die Ngram Viewer levert lijken misschien onomstotelijk, maar er zijn nog wel een paar kanttekeningen te plaatsen bij de nieuwe methode. Ten eerste zijn er geen Nederlandstalige boeken in de database opgenomen, al zal Google haar collectie vast binnenkort uitbreiden. Ten tweede neemt de zoekmachine in de analyse alleen boeken mee, geen kranten, tijdschriften of andere uitingen van een tijdsbeeld. Deze ‘snellere media’ zouden weleens heel andere trends kunnen laten zien dan de ‘trage’ boeken.

Het laatste en misschien wel belangrijkste punt is dat de uitkomsten van de Ngram Viewer cijfers zijn die op zichzelf niet zoveel zeggen. De gebruiker zal deze zelf nog moeten interpreteren. Waarom komt een bepaald woord in een bepaalde periode zo vaak voor? En had het woord in die periode wel dezelfde betekenis als nu? ‘Android’ komt bijvoorbeeld al voor sinds 1750, maar verwees toen hoogstwaarschijnlijk nog niet naar Googles besturingssysteem. Een erg handig instrument dus, die Ngram Viewer, maar om de juiste conclusies te trekken blijft een stel menselijke hersenen onontbeerlijk.

maandag 20 december 2010