zaterdag 19 juni 2004

some word on HBKP statistics and font

Beshouw het volgende figuur:


De bovenste rij toont de letters H, B en N in een niet alledaagse configuratie.
De rij daaronder laat zien wat men nog meer kan doen met die lettervormen, die zelf ook weer nieuwe lettervormtypen toelaten.
De rijen daaronder maken zichtbaar wat gemaakt kan worden van de overige letters van het woord 'honkbalknuppel'
Zo zijn er natuurlijk talloze mogelijkheden.
Nog een stap verder en men kan HONK schrijven met de letters B, A en L en dus BAAL schrijven of men schrijft BAL met de letters K, T en U afijn, enz...
De vorm daaronder is een scrabble functie met dat woord.

4 op een rij
Om nog iets te zeggen over de statistiek wat betreft de verdeling van de woorddelen in het woord en de natuur kan men beweren:


Het bovenste figuur toont een toevallige groepering van cirkels (bal) en vierkanten (honk).
De verdeling tussen P en (1-p) ontstaat omdat de 5 elementen elkaar als het ware paarsgewijs opheffen maw. ze samen weer 1 vormen.
De verdeling tussen N en K is alleen mogelijk als men de positie van de elementen van de in cirkel of vierkant buiten beschouwing laat.
Het aantal mogelijkheden van een figuur bepaalt de statistische kans dat het voorkomt op het aantal kolommen van de verdeling.
bv. de 4de kolom van k heeft 4 cirkels maar de bovenste twee hebben 3 maal zoveel kans om voor te komen dan de onderste twee omdat de positie van de elementen in de cirkels er niet toe doen. Die cirkels met 2 cirkels en 1 vierkant erin kan namelijk op 3 verschillende wijzen getekent worden.
Als men de resultaten van iedere kolom optelt is de uitkomst van iedere kolom 1/10.
Er zijn maar 10 letters in het woord honkbalknuppel als men duplicate letters wegstreept.
En het aantal mogelijkheden met de lettervorm bepaalt zijn positie in de resultatenrij.
De laatse regel is meer een rebus dan een som.
Het is de toepassing van de binonimaalformule ervoor maar ipv cijfers worden beelden gebruikt; waarbij voor de variabelen van de formule geldt dat n de 4 waardigheid van het figuur is en k het aantal cirkels.
p en (1-p) lijkt me duidelijk. Voor de rest is k is nu een driewaardig figuur en het laatste figuur is het verschil tussen n en k. Het resultaat van de formule is een deling tussen X en Y.
De werkelijke uitkomst zou 0.1536 zijn moeten en 2/13 komt dan al aardig in die buurt.
Deze uitkomst kan evenzo de verhouding tussen Uren en Loon zijn, of de kans op de letters n, o, k en 3 maal een x in een tekst van 10000 schrifttekens.
Oke, het oogt absurd maar het is net zo geldig.
De vraag is nu hoe dit in godsnaam aansluit op posting: http://ratserel.blogspot.com/2004_06_01_ratserel_archive.html#108712188466660640
Hoe zou het binonium van 'knuppel' eruitzien nu we die van 'honk' en 'bal' gezien hebben?
Laten we de knuppel eens uit de zak en in het hoenderhok gooien.
De statistische verdeling van elk van de 10 letters is altijd minder dan 1/10. De standaard deviatie van de kansverdeling van die 10 letters is 0.04387898016134, net iets meer dan 1/23.
De kans dat ik met een verkeerde letter zit binnen die 10 letters is dus ongeveer 1/23.
1 op de 23 tekens is dus afkeur.
Als ik met die 10 letters een regel maak bestaande uit meer dan 23 tekens dan is de kans dat er een letter misplaatst is groter dan nul.
Uit een steekproef van 15 tekens is de kans dat men er 2 of meer fouten in aantreft bij een verwachtingskans van 1/23 volgens de poissonverdeling: 13.9%
Bij een verwachtingskans van 1/10 bij diezelfde 15 tekens wordt de foutkans voor 2 of meer fouten: 44.2%
Indien men verwacht dat 15% van de 15 tekens 2 of meer fouten vertonen dan is de uitkomst iets groter dan 65%
Stel dat men nog verstaanbaar is met minder dan 4% fouten in de tekenrij en we noemen die semiotiek dan goed, bij meer dan 10% keuren we het af.
De kans dat men een afkeur met 10% fouten in 15 tekens ten onrechte goedkeurd wordt dan: 100%-44.2%=55.8%
De kans dat men een goedgekeurde regel (minder dan 4% fouten) ten onrechte afkeurd is: 12.2%
De kans dat de knuppel fout zit is dus 55.8%+12.2%=68%.
Zie onderstaande afbeelding


Bij een 10% foutieve verstaanbaarheid is de kans om onterecht te worden goedgekeurd groter dan de kans om terecht te worden afgekeurd.
En dat is op zijn minst vreemd, wellicht moet die norm van 10% worden
bijgesteld. Als men 12% neemt als norm inplaats van die 10% dan is de ten onrechte goedkeur 46.3% ipv 55.8% en als men die 4% opschroeft naar 10% dan..afijn.

Alhoewel de woorden 'honk', 'bal' en 'knuppel' teveel aan de verbeelding overlaten en te weinig precies zijn.
Hun synoniemen en homoniemen vergroten alleen maar de onverstaanbaarheid.
Zelfs als men de ten onrechte goedgekeurde exemplaren 'honk' noemt en de ten onrechte afgekeurde exemplaren 'bal' laat heten.
save