vrijdag 19 november 2010

1 aan de top

1 aan de top: "
beurspagina uit de Volkskrant

Pak een krant -het doet er niet toe welke- en noteer van alle getallen die erin voorkomen het eerste cijfer. De nul komt in principe niet voor als eerste cijfer, tenzij de getallen niet-geheel zijn zoals 0,5 of 0,92. Letten we alleen op gehele getallen (en dat zijn de meeste), dan noteer je een 3 als je het getal 314 tegenkomt, een 1 als je het getal 190.552 ziet enzovoorts. Komen de cijfers 1 tot en met 9 ongeveer even vaak voor? Je eerste intuïtie zegt waarschijnlijk van wel, maar als je klaar bent met je turflijst, zul je hoogstwaarschijnlijk een opvallende spreiding opmerken.

Het was de Amerikaanse astronoom Simon Newcomb die in 1881 dit verschijnsel als eerste ontdekte. In een bibliotheek zat hij in logaritmentafels te bladeren (zakrekenmachines bestonden toen nog niet) en het viel hem op dat de pagina’s in het begin van het boek er veel beduimelder uitzagen dan die aan het eind. Blijkbaar hadden wetenschappers vaker de logaritme nodig gehad van een getal met een laag begincijfer (1, 2 of 3) dan met een hoger begincijfer. Hij publiceerde zijn bevindingen in het artikel ‘Note on the Frequency of Use of the Different Digits in Natural Numbers’. Zijn artikel werd door het grote publiek echter niet opgemerkt.

logaritmentafelsPopup
Een pagina uit een boekje met logaritmentafels. Afbeelding: © Zombiebrainz



Meer dan een halve eeuw later, in 1938, ontdekte Frank Benford, destijds werkzaam als natuurkundige bij General Electric in Amerika, precies hetzelfde patroon. In zijn artikel, getiteld ‘The law of anomalous numbers’, kwam hij tot dezelfde conclusies als Newcomb, maar van diens artikel had Benford nog nooit gehoord.

Benford leidde op basis van empirisch bewijs een wet af die stelt dat de verdeling van de begincijfers van getallen in een dataset logaritmisch verdeeld is; de begincijfers volgen geen uniforme verdeling zoals je intuïtief zou verwachten. Hiervoor verzamelde en onderzocht Benford duizenden getallen uit diverse bronnen, zoals de lengte van diverse rivieren, honkbalscores, het atomische gewicht van diverse elementen en getallen uit artikelen van een tijdschrift, om slechts een paar voorbeelden te noemen.

Inmiddels staat het verschijnsel dat lage cijfers vaker als begincijfer voorkomen dan hoge cijfers bekend als de wet van Benford. Benfords formule waarmee je de relatieve frequentie van de verschillende begincijfers kunt benaderen, ziet er als volgt uit:

F(n) = 100 x log (1 + 1/n).

In deze formule is F(n) het percentage getallen met het begincijfer n (n = 1, 2, 3, …, 9). Bij getallenreeksen die voldoen aan de wet van Benford zal bijvoorbeeld ongeveer 17,6% van de getallen met het cijfer 2 beginnen, want F(2) = 100 x log (3/2) ≈ 17,6. En in ongeveer 60,2% van de gevallen zal het begincijfer 1, 2 of 3 zijn, want F(1) + F(2) + F(3) ≈ 60,2.

Benfords wet kun je ook als volgt formuleren: de kans dat een willekeurig getal in een dataset begint met het cijfer n, is gelijk aan log(1 + 1/n). Zo is de kans dat een willekeurig getal uit een dataset begint met het cijfer 1 ongeveer gelijk aan 0,301, terwijl de kans op een 9 als begincijfer ongeveer gelijk is aan 0,046; dat is meer dan zes keer zo klein!

relatieve frequentie van de begincijfers van inwoneraantallen van Zwitserse gemeentenPopup
Inwoneraantallen van Zwitserse gemeenten

In 2007 verzamelde Christian Kleiber, onderzoeker aan de universiteit van Bazel, de inwoneraantallen van alle plaatsen in Zwitserland. Ook deze getallen blijken zich netjes te gedragen: de afwijking ten opzichte van Benfords wet is nihil. Het bovenstaande plaatje geeft in zwart de verdeling van de begincijfers van de inwoneraantallen in 2007; de Benfordverdeling is ter vergelijking in rood weergegeven.

Bron: Kommen alle Ziffern gleich häufig vor? (Christian Kleiber).



Schaalinvariant


Benfords wet is een soort natuurverschijnsel dat dus in 1881 door Newcomb en later dus door Benford werd waargenomen. Maar hoe verklaar je zoiets? Benford kwam zelf niet verder dan de verklaring dat de natuur ‘logaritmisch telt en functioneert’. Voor een heuristische verklaring helpt het volgende voorbeeld.

Veronderstel eens dat de bevolking in een land jaarlijks met 2% toeneemt. Bij een stad met 100.000 inwoners moet het aantal inwoners verdubbelen voordat het begincijfer van het inwonertal 2 is. Dat duurt ongeveer 35 jaar. Voor een stad met 50.000 inwoners geldt dat het inwonertal met ‘slechts’ 20% hoeft toe te nemen voordat het begincijfer van het inwonertal verandert van een 5 in een 6; dat duurt zo’n 10 jaar. Heeft een stad 90.000 inwoners, dan wisselt het begincijfer nog sneller: al na 6 jaar is het begincijfer een 1. Het begincijfer 1 blijft het langst stabiel en komt daarom het meest voor.

Een meer theoretische verklaring kwam in 1961 van de Amerikaanse wiskundige Roger Pinkham. Hij stelde dat als de wet inderdaad geldt, deze schaalonafhankelijk moet zijn, dat wil zeggen dat hij onafhankelijk is van de eenheid waarin de getallen worden uitgedrukt. Dus als je beurscijfers zou omrekenen van Amerikaanse dollars naar euro’s, of rivierlengtes van kilometers naar mijlen, zou je dezelfde wetmatigheid vaststellen: 1 komt als begincijfer beduidend meer voor dan de andere cijfers, op de tweede plaats gevolgd door het cijfer 2, enzovoorts. Pinkham bewees dat de logaritmische verdeling van Benford de enige verdeling is die schaalonafhankelijk is.

Relatief nieuw is het werk van de Amerikaanse wiskundige Theodore Hill: in 1996 zocht hij uit welke verdeling van cijfers theoretisch te verwachten is, wanneer je grote hoeveelheden data uit verschillende bronnen op één hoop gooit. Hill bewees dat de cijfers zich gemiddeld altijd zullen houden aan de wet van Benford. Dus de getallen uit die willekeurige krant hoeven niet enkel van de beurspagina te komen: de getallen die bij het weerbericht staan vermeld, de sportuitslagen en al die andere cijfers doen net zo goed mee.

Toch duikt de Benfordverdeling niet altijd op. De getallen mogen niet ‘bedacht’ zijn of toegekend door derden. Telefoonnummers, rekeningnummers, postcodes, lottogetallen en prijzen in supermarkten voldoen om deze reden niet.

Fraudebestrijding


vergrootglas

Een belangrijke toepassing van de wet van Benford is fraudebestrijding. De getallen die voorkomen in een groot financieel overzicht, voldoen meestal bij goede benadering aan de wet van Benford. Accountants maken daar vaak gebruik van om mogelijke fraude bij het opstellen van dergelijke overzichten op te sporen. Zij gaan er daarbij van uit dat het bewust manipuleren van getallen door fraudeurs een andere verdeling van begincijfers oplevert dan de wet van Benford voorspelt. Een accountant zal wantrouwend zijn indien hij bijvoorbeeld vaststelt dat 10% van de bedragen in de boekhouding begint met een 9, terwijl dit percentage volgens Benfords wet in de buurt moet liggen van 4,6%. De accountant zal in dit geval de boekhouding nader onderzoeken om vast te stellen wat de oorzaak is van deze afwijking. Hierdoor bestaat er een grote kans dat eventuele fraude aan het licht komt.

In 1995 onderzocht het Nederlandse Ministerie van Financiën de begincijfers van een stel belastingteruggaven op basis van de wet van Benford. Een steekproef van 30.000 belastingteruggaven uit het jaar 1992 werd hiervoor onder de loep genomen. Niet alleen de eerste cijfers, maar ook de tweede cijfers van deze teruggaven (ook daar zijn theorieën over), bleken zeer goed aan de wet van Benford te voldoen.

Mark Nigrini was een van de eerste onderzoekers die de wet van Benford succesvol toepasten op accountingdata en kan op dit gebied gezien worden als een echte pionier.

Zie ook:


"