Voorwaardelijke kansen – Bayes

Inhoud

Inleiding

In deze aflevering gaan we kijken naar voorwaardelijke kansen en de stelling van Bayes. Dit zijn kansen waar van te voren al het één en ander bekend is. We zullen dit doen aan de hand van de volgende voorbeeld vragen:

  1. Wat is de kans dat een echtpaar met 2 kinderen 2 dochters heeft?
  2. Wat is de kans dat een echtpaar met 2 kinderen 2 dochters heeft als je weet dat één van de kinderen een dochter is?
  3. Wat is de kans dat een echtpaar met 2 kinderen 2 dochters heeft als je weet dat hun oudste kind een dochter is?
  4. Het percentage van alle volwassen mannelijke alcoholisten is 2,25%. Wat is de kans dat een man alcoholist is?
  5. Ziekte X komt bij 0,1% van de populatie voor.
    Een test om ziekte X vast te stellen is voor 99% betrouwbaar.
    Deze zelfde test heeft het in 1% van de positieve uitkomsten fout.
    Hoe groot is de kans dat je ziekte X hebt als je een positieve test hebt?
  6. Monty Hall probleem.

We zullen ook andere voorbeelden tegenkomen maar die zijn puur ter illustratie.

In een eerdere aflevering wordt al het één en ander uitgelegd over kansberekening en ik raad de lezer aan deze aflevering nog eens na te lezen.

Definitie

De wiskundige definitie van kans luidt:

P(k)=\frac{\#positieve\;uitkomsten}{\#mogelijke\;uitkomsten}

De P staat voor Probability (=kans) en # staat voor aantal.

Dus een kans is niets anders dan het quotiënt van het aantal mogelijke positieve uitkomsten en het totaal aantal uitkomsten.

De meeste voorbeelden hebben betrekking op dobbelstenen, munten en knikkers, dus vooruit maar…

Voorbeelden:

Wat is de kans op een 3 als je 1 keer gooit met een (normale) dobbelsteen?
Een dobbelsteen heeft 6 mogelijke uitkomsten (1 t/m 6) en één daarvan willen we hebben, namelijk 3. Dus is de kans:
P(3 ogen) = 1/6.

Wat is de kans dat je kop gooit als je 1 keer een muntje op werpt?
Een munt heeft 2 zijden, nl. kop en munt. We willen kop hebben dus is de kans:
P(kop) = 1/2.

In een vaas zitten 3 roden, 4 groene en 5 blauwe knikkers. Hoe groot is de kans dat je bij een blinde trekking een groene knikker hebt?
Er zitten totaal 12 knikker in de vaas, 4 daarvan zijn groen en dus is de kans:
P(groen) =  4/12 = 1/3.

Interval [0, 1]

Een kans is altijd een getal tussen de 0 en de 1. Dit volgt rechtstreeks uit de definitie, immers is de teller altijd kleiner (of gelijk) aan de noemer.

Een kans kan echter ook de waarde 0 zelf of 1 zelf hebben.

Een kans van 0 betekent dat iets niet kan voorkomen, bijvoorbeeld de kans op 7 ogen bij het werpen van 1 maal een normale dobbelsteen:
P(7 ogen) = 0/6 = 0.

Een kans van 1 betekent dat iets altijd zal voorkomen, bijvoorbeeld de kans dat je een rode knikker trekt uit een vaas met (alleen) 10 rode knikkers: P(rood) = 10/10 = 1.

Ook geldt dat de kans op A + de kans op niet-A gelijk is aan 1.
Dus P(A) + P(-A) = 1 ⇔ P(A) = 1 – P(-A).

De notatie -A betekent dus niet-A. En soms is het makkelijker om niet-A te bepalen dan A zelf en dan kun je dus P(A) = 1 – P(-A) gebruiken.

Onafhankelijke kansen

Bij onafhankelijke kansen heeft de kans op het ene niets te maken met de kans op het andere.
Je bepaalt afzonderlijk de kans op het ene en het andere en telt daarna de kansen bij elkaar op.

Voorbeeld:

Wat is de kans dat je kop gooit bij het gooien van een muntje en een 6 gooit bij het werpen met een dobbelsteen?
Er zijn hier twee handelingen die niets met elkaar te maken hebben. Ze zijn dus onafhankelijk van elkaar. Dus we moeten nu de twee kansen bepalen en deze dan bij elkaar optellen:
P(kop) = 1/2, P(6 ogen) = 1/6, P(kop ∨ 6 ogen) = 1/2 + 1/6 = 4/6 = 2/3.
Het symbool ∨ betekent: of.

Afhankelijke kansen

Bij afhankelijke kansen is de kans op het ene afhankelijk van de kans op het andere. Je rekent eerst de kans van het ene uit, daarna de kans op het andere en vermenigvuldigt vervolgens die kansen.

Voorbeeld:

Wat is de kans dat je 2 keer kop gooit bij het gooien van 2x een muntje?
Dit betekent dat je de eerste keer kop moet gooien (P(kop)=1/2) en de tweede keer ook kop moet gooien (P(kop)=1/2). Deze twee kansen moeten nu met elkaar vermenigvuldigd worden, dus:
P(kop ∧ kop) = 1/2 × 1/2 = 1/4.
Het symbool ∧ betekent: en.

Je kunt dit ook als volgt bekijken:
De mogelijke uitkomsten van 2 x gooien met een munt zijn: mm, km, mk, kk (waarbij k staat voor kop en m voor munt). Er zijn dus 4 mogelijke uitkomsten. We willen nu kk hebben en dat is 1 van de vier mogelijke uitkomsten, dus P(kk) = 1/4.

Verzamelingen

Je kunt kansen ook door middel van zogenaamde Venndiagrammen weergeven. En dat is handig om voorwaardelijke kansen te beschouwen.

De kansen die we tot nog toe hebben besproken zijn allemaal als volgt in een Venndiagram te vatten:

De U staat voor het universum. A is de verzameling waar het over gaat; dus bv. de ogen van een dobbelsteen, een vaas met knikkers, en muntje etc.

Een verzameling in de wiskunde is een “groep” met elementen die op de één of andere manier bij elkaar horen. Ieder element komt maar 1 keer voor en alle elementen staan tussen accolades; {…}.

Dus, bijvoorbeeld, de kans op een 3 bij het gooien met 1 dobbelsteen wordt dan:

Waarbij A = {1, 2, 3, 4, 5, 6}.

Hebben we nu twee verzamelingen dan kan een Venndiagram meerdere vormen aannemen.

Disjuncte verzamelingen

De twee verzamelingen hebben geen enkele overeenkomst:

Bijvoorbeeld: A = {1, 2, 3} en B = { 4, 5}

Er kunnen echter ook overlappingen plaats vinden en daarbij zijn een aantal varianten van belang.

Vereniging

Bij de vereniging van twee verzamelingen neem je alle elementen van de verzamelingen.

Voorbeeld: A = { 1, 2, 3, 4} en B = { 3, 4, 5, 6, 7, 8}.
Dan is de vereniging van A en B: A ∪ B = {1, 2, 3, 4, 5, 6, 7, 8}.

Het symbool ∪ betekent: Vereniging.

Merk op dat de elementen maar 1 keer voorkomen in de vereniging.

In een Venndiagram kan dat er als volgt uitzien:

Doorsnede

Bij de doorsnede van twee verzamelingen zitten alleen die elementen die zowel in A als in B zitten.

Voorbeeld: A = { 1, 2, 3, 4} en B = { 3, 4, 5, 6, 7, 8}.
Dan is de doorsnede van A en B: A ∩ B = {3, 4}.

Het symbool ∩ betekent: Doorsnede.

In een Venndiagram kan dat er als volgt uitzien:

Voorwaardelijke kansen

We gaan nu kijken naar de kans dat iets gebeurt terwijl we al weten dat iets anders is gebeurd.

De notatie luidt: P(A|B) en betekent: De kans op A gegeven B. Het symbool | betekent dus: “gegeven”.

En daar is in de wiskunde ook een formele definitie van:

P(A|B)=\frac{P(A\cap B)}{P(B)}

Dus de kans op A gegeven B is de kans op de doorsnede van A en B gedeeld door de kans op B.

Als voorbeeld gaan we eens kijken naar de eerste drie vragen.

i) Wat is de kans dat een echtpaar met 2 kinderen 2 dochters heeft?

Hier hebben we de bovenstaande formule nog niet nodig. We kijken gewoon naar de mogelijkheden van het hebben van 2 kinderen:

zz, zd, dz, dd.

De z staat natuurlijk voor zoon en de d voor dochter.

We zoeken de combinatie dd en die komt 1 keer voor in de 4 mogelijkheden.

Gebruikmakend van de standaard formule voor kans krijgen we dus:

P(dd) = 1/4.

ii) Wat is de kans dat een echtpaar met 2 kinderen 2 dochters heeft als je weet dat één van de kinderen een dochter is?

Nu is de situatie anders. De vraag op de kans op twee dochters is weliswaar hetzelfde maar we hebben meer informatie. We weten nu dat minstens één van hun kinderen een dochter is. Dit betekent dat het aantal mogelijkheden, ten opzichte van de vorige vraag, 1 is afgenomen, nl: zd, dz, dd. De zz is nu niet meer opportuun.

Dit betekent dat de kans op twee dochters nog maar 1/3 is, ofwel P(dd)=1/3.

Kunnen we dit resultaat nu ook verkrijgen door onze nieuwe formule?
We moeten dan goed definiëren wat de verzamelingen A en B zijn.

Welnu: A = {dd} en B = {zz, zd, dz, dd}.

P(A ∩ B) = 1/4 (dd komt maar 1 keer voor in B)

P(B) betekent de kans op minstens 1 dochter en is: P(B) = 3/4 (zd, dz of dd).

In de formule geeft dit: P(A|B) = (1/4) / (3/4) = 1/3. Het klopt!

iii) Wat is de kans dat een echtpaar met 2 kinderen 2 dochters heeft als je weet dat hun oudste kind een dochter is?

Deze lijkt heel erg op vraag ii) maar is subtiel toch anders. We weten niet alleen dat ze minstens 1 dochter hebben maar we weten ook welk kind dat is, namelijk de oudste.

Dus P(B) is nu 2/4 = 1/2.

Invullen in de formule:

P(A|B) = (1/4) / (1/2) = 1/2.

Kun je deze kans nu zelf op een andere manier bepalen?

Antwoord

We zoeken naar dd en we weten dat de oudste een d is. Er zijn nu dus nog maar twee mogelijkheden om uit te kiezen, namelijk: zd en dd.
En daar dd maar 1 keer voorkomt in {zd, dd} is de kans dus 1/2.

En nu de volgende vraag:

iv) Het percentage van alle volwassen mannelijke alcoholisten is 2,25%. Wat is de kans dat een man alcoholist is?

Deze lijkt op het oog heel simpel te beantwoorden, maar dat is het niet. Je bent wellicht geneigd te zeggen dat deze kans 0,0225 (2,25%) is maar dan ga je voorbij aan het feit dat er niet alleen maar mannen op deze aarde zijn!

We moeten A en B derhalve precies definiëren.

A=alcoholist
B=man

Dan P(A∩B) = 0,0225 en P(B)=0,5 (er vanuit gaand dat de populatie volwassenen uit 50% mannen en 50% vrouwen bestaat).

Dan krijgen we:

P(A|B) = 0,0225 / 0,5 = 0,045 ofwel 4,5% kans dat een man alcoholist is.

Bayes

Voor vraag v) en vi) hebben we niet meer genoeg aan de formule voor voorwaardelijk kans zoals in de vorige paragraaf is besproken.

We moeten de formule uitbreiden.

Merk op dat: A∩B = B∩A.

Nu gaan we kijken naar P(A|B) en P(B|A).

P(A|B)=\frac{P(A\cap B)}{P(B)}
P(B|A)=\frac{P(B\cap A)}{P(A)}

Maar omdat A∩B = B∩A  geldt ook P(A∩B) = P(B∩A).

Dus geldt:

P(B\cap A)=P(B|A)\cdot P(A)=P(A\cap B)

Maar dan ook:

P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(B\cap A)}{P(B)}=\frac{P(B|A)\cdot P(A)}{P(B)}

Dus in het kort:

P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}

En deze laatste formule is vernoemd naar Bayes en heet dus de formule van Bayes.

En deze formule gaan we gebruiken om vraag v) te beantwoorden.

v) Ziekte X komt bij 0,1% van de populatie voor.
Een test om ziekte X vast te stellen is voor 99% betrouwbaar.
Deze zelfde test heeft het in 1% van de positieve uitkomsten fout.
Hoe groot is de kans dat je ziekte X hebt als je een positieve test hebt?

Je hebt dus een test gedaan en die was positief. Vanuit de gegevens ben je ongetwijfeld overtuigd dat je nu 99% zeker bent dat je ziekte X hebt.
Maar niets is minder waar!

De rest van de gegevens moeten ook worden meegenomen.

Wat zeggen al die gegevens nu eigenlijk.

Laten we A vertalen met “Je hebt de ziekte X” en B met “Je testte positief”.

Dus A = Je hebt ziekte X en
B = Je testte positief.

En als we nu verder kijken naar alle componenten van de formule van Bayes, dan krijgen we:

P(A|B): de kans op ziekte X bij een positieve test
P(A): de kans op de ziekte X zonder test
P(B|A): kans op een positieve test als je de ziekte hebt
P(B): totale kans op een positieve test.

P(A|B) is wat we willen weten.

P(A) is gegeven en bedraagt 0,001 (0,1%).

P(B|A) is ook gegeven en bedraagt 0,99 (99%).

P(B) is wat lastiger te bepalen. We moeten deze uitsplitsen in twee (onafhankelijke) delen:

deel 1: De kans op ziekte X zonder test en de kans op een positieve test als je ziekte X hebt,

deel 2: De kans dat je ziekte X niet hebt en de kans dat je ziekte X niet hebt terwijl de test positief is.

De kans op deel 1 kun je als volgt schrijven: P(A) × P(B|A) = 0,001 × 0,99 = 0,00099.

De kans op deel 2 kun je als volgt schrijven: P(-A) × P(B|-A) = 0,999 × 0,01 = 0,00999.

Omdat deel 1 en deel 2 onafhankelijk zijn moeten we deze twee bij elkaar optellen.

We krijgen nu dus:

P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}=\frac{P(B|A)\cdot P(B)}{P(A)\cdot P(B|A)+P(-A)\cdot P(B|-A)}

En als we alle getalletjes invullen dan krijgen we:

P(A|B)=\frac{0,99\cdot 0,001}{0,001\cdot 0,99+0,999\cdot 0,01}=\frac{0,00099}{0,01098}=0,0902

En dit is wellicht een verrassend resultaat. Wanneer je een positieve test hebt dan heb je maar zo’n 9% kans dat je de ziekte X ook daadwerkelijk hebt.

En als je nog eens goed naar de gegevens kijkt is dit zelfs intuïtief in te zien.

Wanneer de populatie 1000 mensen betreft dan is er precies 1 mens met de ziekte X.
Er worden echter 10 mensen positief getest terwijl ze de ziekte X niet hebben.
De kans is dus ongeveer 1/11 (≈0,09) dat je bij een positieve test ook daadwerkelijk ziekte X hebt.

Monty Hall

Een overbekend verhaal over een quiz waarin de kandidaat voor 3 dichte deuren staat waarachter 1 van die deuren een mooie prijs zit terwijl achter de andere deuren niets zit.
De kandidaat mag één deur kiezen, maar nog niet openen. De quizmaster opent nu één van de andere deuren waarachter geen prijs zit.
De kandidaat mag nu nog van deur wisselen (waarbij de kandidaat uiteraard niet voor de inmiddels open deur zal kiezen).

De vraag is: Moet de kandidaat inderdaad van deur wisselen of juist niet of maakt het niets uit?

De intuïtie zal zeggen dat de kandidaat nu een kans van 1 op 2, ofwel 1/2, heeft op de prijs, en dat het dus niet uitmaakt welke deur wordt gekozen.

De meeste mensen zullen dan ook geneigd zijn te zeggen dat het dus niets uitmaakt.

Maar niets is minder waar! De kandidaat verhoogt zijn kansen door juist wel te wisselen van deur. Hij verdubbelt zijn kans zelfs door te wisselen.

Met een tabel is dit goed te illustreren:

Kandidaat kiest deur Prijs achter deur Quizmaster opent deur Kandidaat wisselt niet Kandidaat wisselt wel
1 1 2 of 3 win verlies
1 2 3 verlies win
1 3 2 verlies win
2 1 3 verlies win
2 2 1 of 3 win verlies
2 3 1 verlies win
3 1 2 verlies win
3 2 1 verlies win
3 3 1 of 2 win verlies
3/9 wins 6/9 wins

Uit deze tabel blijkt dat wanneer het spel volledig wordt gespeeld de kandidaat 3 van de 9 keer wint als hij/zij niet wisselt en maar liefst 6  (2x zoveel dus) van de 9 keer wint als hij/zij wel wisselt.

Maf hè?

Maar wat zegt Bayes ervan?

We moeten eerst wat zaken benoemen en berekenen.

Mn zegt dat de mooie (M) prijs achter deur n (1, 2 of 3) staat.

Qn zegt dat de quizmaster (Q) deur n opent.

We gaan er vanuit dat de producent van de quiz geen speciale voorkeur heeft om de mooie prijs achter een specifieke deur te willen plaatsen en dus geldt:

P(M1) = P(M2) = P(M3) = 1/3.

Stel dat de kandidaat in eerste instantie deur 1 heeft gekozen.

Dan gelden voor de quizmaster de volgende kansen:

P(Q2|M1) = 1/2; de kans dat de quizmaster deur 2 opent als de prijs achter deur 1 zit;
P(Q3|M1) = 1/2; de kans dat de quizmaster deur 3 opent als de prijs achter deur 1 zit;
P(Q2|M2) = 0; de kans dat de quizmaster deur 2 opent als de prijs achter deur 2 zit;
P(Q3|M2) = 1; de kans dat de quizmaster deur 3 opent als de prijs achter deur 2 zit;
P(Q2|M3) = 1; de kans dat de quizmaster deur 2 opent als de prijs achter deur 3 zit;
P(Q3|M3) = 0; de kans dat de quizmaster deur 3 opent als de prijs achter deur 3 zit.

Stel de quizmaster opent deur 3 (en daar staat dus niets achter). Wat is nu de kans op de mooie prijs achter deur 2?

We moeten dus P(M2|Q3) berekenen.

Er geldt:

P(M_{2}|Q_{3})=\frac{P(Q_{3}|M_{2})\cdot P(M_{2})}{P(Q_{3}|M_{1})\cdot P(M_{1})+P(Q_{3}|M_{2})\cdot P(M_{2})+P(Q_{3}|M_{3})\cdot P(M_{3})}

Getalletjes invullen geeft:

P(M_{2}|Q_{3})=\frac{1\cdot \frac{1}{3}}{\frac{1}{2}\cdot \frac{1}{3}+1\cdot \frac{1}{3}+0\cdot \frac{1}{3}}=\frac{\frac{1}{3}}{\frac{1}{2}}=\frac{2}{3}

Als je toch nog twijfels hebt over bovenstaande tegen-intuïtieve antwoord dan bevind je je in goed gezelschap.
De grote Paul Erdös had zelf veel moeite met dit “probleem”. Pas nadat hij een simulatie had gezien was hij overtuigd van het resultaat.

Korte biografie

Thomas Bayes

Bayes leefde van 1702 tot en met 1771 en was van Britse afkomst. Hij was predikant en wiskundige en in deze laatste hoedanigheid hield hij zicht bezig met kansberekening.

Hij vroeg zich op enig moment af hoe de uitkomst van een experiment geschat kan worden als je de resultaten van eerdere experimenten gaat meewegen. Hij deed dit door steeds een propje papier achter zicht te gooien op een tafel die achter hem stond en dan aan zijn secretaresse te vragen waar het propje terecht was gekomen ten opzichte van zijn vorige gegooide propje.

Dit experiment werkte hij vervolgens in één van zijn vele geschriften uit, maar publiceerde dit nooit. Pas na zijn dood vond een huisvriend, R. Price, deze aantekeningen en publiceerde hierover.
Deze publicatie werd gelezen door, de eveneens zeer beroemde wiskundige, Laplace, die uit deze publicatie de formule van Bayes destilleerde.

Bronnen

https://www.youtube.com/watch?v=OByl4RJxnKA&ab_channel=TheOrganicChemistryTutor
https://www.youtube.com/watch?v=R13BD8qKeTg&ab_channel=Veritasium
https://www.youtube.com/watch?v=HZGCoVF3YvM&ab_channel=3Blue1Brown
https://www.youtube.com/watch?v=VuskwsIW02M&ab_channel=Dr.TreforBazett

https://nl.wikipedia.org/wiki/Driedeurenprobleem
https://statisticsbyjim.com/fun/monty-hall-problem/

https://nl.wikipedia.org/wiki/Thomas_Bayes

Laatst gewijzigd op 26 maart 2024.