Statistiek
Hoofdstuk 1: Getting started
1.1 Introductie
Op het examen krijg je geen puur theoretische vragen (bewijzen, …) maar je hebt de theorie wel nodig
om de oefeningen op te lossen.
Ze hebben een eigen technologie ontwikkeld in het kader van een educatief project. De filosofie achter
het project is “wanneer je communiceert over statistiek, dan kan je berekeningen maken in de software
maar de lezer kan niets praktisch doen met de berekeningen. Het handboek is opgesteld met
voorbeelden die zeer gemakkelijk te reproduceren zijn.”
Elke berekening is voorzien van een hyperlink, via de link open je een browser en kan je de gegevens,
codes en alle benodigde informatie terugvinden. In het menu-item action kan je op reproduce klikken
en zie je de software die het histogram aanmaakt.
Hieronder zie je weer de berekening.
Het voordeel is dat je de berekening kan reproduceren en ook kan aanpassen indien je dit wenst. Je
kan bv. klassen van een histogram wijzigen etc.
Indien je zelf een oefening maakt en vastloopt, kan je naar RFC gaan en dan kan je de link naar de prof
sturen zodat hij kan zien waar je vast loopt.
H1 niet nodig:
- 1.3 Zelf datasheets creëren
- 1.5 Het schrijven van een compendium
- 1.8 Peer reviews
Brent Van Tigchelt 1
,Hoofdstuk 2: Introduction to probability -
waarschijnlijkheidsleer / waarschijnlijkheidstheorie
2.1 Wat zijn waarschijnlijkheden?
Er bestaat geen echte definitie, maar de definitie Jeffreys is het beste.
Jeffreys: “Probability is the degree of confidence that we may reasonably have in a proposition. This
definition is quite vague but is used in Jeffrey’s axiom system. This enables us to derive an axiomatic
probability theory.”
“Een waarschijnlijkheid is een getal dat gelegen is tussen 0 – 1 en duidt aan in welke mate een
gebeurtenis kan voorkomen. Waarschijnlijkheid is de mate van vertrouwen dat we hebben in een
voorspelling, uitspraak of stelling.”
o Dit is per definitie een subjectief iets, een subjectief getal.
o MAAR het is niet omdat het subjectief is, dat het niet correct is.
Jeffreys zegt dat we een waarschijnlijkheid moeten uitdrukken in een conditionele waarschijnlijkheid
omdat dit zinvoller is.
Jeffreys introduceert enkele afspraken waaraan we ons moeten houden zodat we met
waarschijnlijkheden iets nuttig kunnen doen.
- De kans dat een gebeurtenis (event 1) zich voordoet ligt tussen 0 en 1
o 0 ≤ P(Event1) ≤ 1
o P wordt gebruikt als een symbool voor Probabilty (waarschijnlijkheid)
- De kans dat het event niet voorkomt = 1 - kans dat het event voorkomt
o P(notEvent1) = 1 − P(Event1)
o Voorbeeld: De kans dat het regent is 60%, de kans dat het niet regent is 40%.
- Hieruit volgt dat de som van een succes (event doet zich voor) en een faling (event doet zich
niet voor) gelijk is aan 1.
o P(Event1) + P(notEvent1) = 1
o Voorbeeld: Zie voorbeeld hierboven → 60% + 40% = 100% = 1
Brent Van Tigchelt 2
,Het allerbelangrijkste in het systeem van Jeffreys is: er zijn twee soorten waarschijnlijkheden:
1. De conditionele waarschijnlijkheid: (meest voorkomend)
Wat is de waarschijnlijkheid (P) dat C voorkomt, gegeven dat X waar is.
Voorbeeld: Wat is de waarschijnlijkheid dat het vandaag regent, indien het gisteren voorspeld werd?
- X = het feit dat het weerbericht van gisteren heeft voorspeld dat het vandaag gaat regenen
- C = het regent vandaag.
2. De niet-conditionele waarschijnlijkheid:
Indien er geen verband is tussen X en C, moet men geen rekening houden met X
Voorbeeld: Stel dat de weersvoorspelling gewoon gegokt is, dan is de weersvoorspelling onafhankelijk
van het weer van vandaag en dan zal de conditionele waarschijnlijkheid gelijk zijn aan de gewone
waarschijnlijkheid dat het regent.
- If P(C|X) = P(C) it follows that P(CX) = P(C)P(X) (because C and X are independent events).
Meestal is er WEL een afhankelijkheid tussen X en C → ≠
Voorbeeld: Als je een onderzoek doet, heb je meestal al een heleboel gegevens (feiten) en dan wil je
een conclusie trekken over iets anders, gegeven dat je de feiten kent. Dit is dus een conditionele
waarschijnlijkheid.
Voorbeeld: Je wil weten wat de waarschijnlijkheid (C) is dat je slaagt op een examen. Je hebt je goed
of niet goed voorbereid voor het examen (X). Is de waarschijnlijkheid dat je slaagt, gegeven dat je
gestudeerd hebt, gewoon gelijk aan de waarschijnlijkheid dat je slaagt of niet?
- Stel dat je op het examen een muntstuk werpt, kop is geslaagd, let is niet geslaagd. Dan heeft
studeren (X) geen nut. De kans of je slaagt is onafhankelijk van het feit dat je gestudeerd hebt
of niet. Dan is P(C I X) = P(C). X doet er niet toe.
- Indien je een gewoon examen hebt en je studeert wel goed. Dan gaat de kans dat je slaagt op
dat examen, gegeven dat je goed gestudeerd hebt groter zijn dan de kans als je niet gestudeerd
zou hebben. Indien er een afhankelijkheid is tussen C en X, dan ≠
≠ indien er een AFHANKELIJKHEID is tussen X en C.
= P(CX) / P(X) met P(X) ≠0 indien er een AFHANKELIJKHEID is tussen X en C.
Indien twee gebeurtenissen voorkomen en ze zijn ONAFHANKELIJK van elkaar, dan is de
waarschijnlijkheid dat die gebeurtenissen voorkomen gelijk aan P(CX) = P(C) * P(X). Zijn ze
ONAFHANKELIJK dan krijg je P(C I X) = ( P(C) * P(X) ) / P(X) → P(C I X) = P(C).
Brent Van Tigchelt 3
,2.2 Jeffreys’ axiom system:
Sommige theorema (stellingen) zeggen dat je waarschijnlijkheden moet optellen (unie) of
vermenigvuldigen (doorsnede).
1. Intersection or Conjunction (doorsnede van A en B)
Doorsnede: A ∩ B which means A and B
Voorbeeld: Er zijn twee gebeurtenissen (regen en de zon schijnt), je maakt een doorsnede door te
zeggen: “Wat is de kans dat het regent EN dat de zon schijnt?”
Bij een doorsnede moet je de waarschijnlijkheden vermenigvuldigen indien je wil weten wat de kans
is dat A en B tegelijkertijd voorkomen.
2. Union or Disjunction (unie van A en B)
Unie: A ∪ B wich means A or B
Voorbeeld: Er zijn twee gebeurtenissen (regen en de zon schijnt), je maakt een doorsnede door te
zeggen: “Wat is de kans dat het regent OF dat de zon schijnt?”
Bij een unie moet je de waarschijnlijkheden optellen indien je wil weten wat de kans is dat A of B
voorkomt.
Het laatste theorema van Jeffreys’ axiom system is gekend als het Bayes’ theorema
2.3 Bayes’ Theorem: de stelling van Bayes
We beginnen met een eerste stelling die zegt: een conditionele waarschijnlijkheid is per definitie
gelijk is aan een verhouding van twee waarschijnlijkheden.
P = waarschijnlijkheid A = gebeurtenis/toestand B = wat men weet
De waarschijnlijkheid van A gegeven B is de waarschijnlijkheid van A en B gedeeld door de
waarschijnlijkheid van B.
Definitie: waarschijnlijkheid dat ze allebei voorkomen (=P(AB)) delen door waarschijnlijkheid P(B).
Brent Van Tigchelt 4
,De waarschijnlijkheid van P(AB) is hetzelfde als P(BA) → tellers zijn gelijk, het enige verschil is noemer.
Weet dat de waarschijnlijkheid van A gegeven B geschreven kan worden als B gegeven A met een
andere noemer.
Indien je dan de twee vergelijkingen in elkaar invult, krijg je volgende formule / uitdrukking:
Dit is de stelling van Bayes in vereenvoudigde vorm
De stelling van Bayes gaat als volgt: de waarschijnlijkheid van A gegeven B altijd kan geschreven
worden als de waarschijnlijkheid van B gegeven A maal waarschijnlijkheid van A (correctie) gedeeld
door de waarschijnlijkheid van B (correctie).
Je kan conditionele waarschijnlijkheden omdraaien als je een correctiefactor toevoegt!
➔ Nu gaan we A en B een concretere naam geven
Stel: we hebben een wetenschappelijke Hypothese (A) die we willen bewijzen met gegeven Data (B)
- Dus A wordt H
- Dus B wordt D
Wat is de kans dat onze hypothese juist is, gegeven dat we bepaalde Data observeren???
Als je de waarschijnlijkheid wil bepalen, dan weet je dat die waarschijnlijkheid
minstens proportioneel (alfa) is met
We laten de noemer uit de stelling van Bayes weg.
Lees: de waarschijnlijkheid van H gegeven D is proportioneel met de waarschijnlijkheid van D
gegeven H maal de waarschijnlijkheid van H.
Als ik wil weten of de hypothese waar is gegeven de data, dan kan ik dat berekenen door “Hoe
waarschijnlijk is het dat de data geobserveerd worden indien de hypothese waar is?” vermenigvuldigd
met de waarschijnlijkheid dat de hypothese waar is (zonder kennis vooraf).
- De a posteriori waarschijnlijkheid (waarschijnlijkheid uit ervaring, met voorkennis)
- De likelihood
- De a priori waarschijnlijkheid (waarschijnlijkheid zonder voorkennis)
Stel je hebt een nieuw onderzoek, dan is waarschijnlijk 50% van de wetenschappers voor het
experiment en 50% tegen het experiment. Dan is uw a priori waarschijnlijkheid 50%.
Brent Van Tigchelt 5
,Je gaat data observeren, je gaat kijken naar gevallen waarbij de hypothese klopt. Je kijkt naar welke
data je hebt als de hypothese klopt. Hier kan je aantallen en een waarschijnlijkheid van berekenen.
Indien je vermenigvuldigd met (de a priori waarschijnlijkheid), dan bekom je iets dat
proportioneel is met de waarschijnlijkheid dat de hypothese waar is, gegeven de data, namelijk
Nu kan je dit ook doen met 2 verschillende hypothesen (hypothese 1 en hypothese 2)
Je deelt de formule van hypothese 1 door de formule van hypothese 2.
De verhouding van de a posteriori waarschijnlijkheden is dan gelijk aan de verhouding van de
likelihoods maal de verhouding van de a priori waarschijnlijkheden.
Voorbeeld: Je wordt geblinddoekt en je mag uit 1 van de 2 zakken een muntstuk trekken. Wat is de
kans (waarschijnlijkheid) dat je een goud stuk uit de eerste zak trekt? Intuïtief voelen we aan dat de
kans dat je een goudstuk uit de eerste zak groter is dan uit de tweede zak. Hoe groot is die
waarschijnlijkheid?
Je hebt twee zakken met gouden en zilveren muntstukken in:
- Zak 1 = H1 → 150 goud, 50 zilver
- Zak 2 = H2 → 100 goud, 200 zilver
½ ➔ dit is de kans dat je zonder voorkennis uit zak 1 iets zou trekken of uit zak 2 → MAAR WE
HEBBEN HIER WEL INFO
- Als ik uit zak 1 iets trek, kan ik d.m.v. de data de kans berekenen dat het stuk goud zou zijn,
gegeven het uit de 1ste zak komt EN OMGEKEERD voor zak 2
- Ratio likelihoods (verhouding goud): 150 op 200 en 100 op 300
- Ratio a priori (P(H1) en P(H2)) (als we niets weten) waarschijnlijkheden: de kans dat je uit zak
1 of zak 2 een muntstuk pakt is 50%
o Verhouding twee waarschijnlijkheden is 9/4
o Het is veel waarschijnlijker dat het goudstuk uit de eerste zak komt
9/13 geeft de kans weer dat wanneer we een goudstuk getrokken hebben, dat het uit zak 1 komt.
Brent Van Tigchelt 6
,Sensitiviteit en Specificiteit
Sensitiviteit en specificiteit hebben te maken met de nauwkeurigheid van een voorspelling.
Als we de nauwkeurigheid van onze voorspelling in kaart willen brengen, dan doen we dit door
gebruik te maken van enkele kenmerken die aangeven hoe goed of hoe slecht een model werkt.
Stel je hebt maar 2 hypothesen (hypothese 1 en hypothese 2)
- Oftewel is hypothese 1 waar oftewel is hypothese 2 waar (dit is een binair probleem)
o Ze kunnen niet samen waar of samen onwaar zijn
De wetenschapper die het onderzoekt voert, gaat een conclusie moeten nemen op basis van de
statistische berekening:
- Ofwel accepteer je Hypothese 2 (H2 is true) = verwerpen Hypothese 1
- Ofwel verwerp je Hypothese 2 (H1 is true) = accepteren Hypothese 1
Je hebt 4 mogelijke combinaties:
Voorbeeld: Indien de wetenschapper zegt dat het goudstuk uit H2 komt en in werkelijkheid komt het
goudstuk ook echt uit H2, dan is het een True Negative
Voorbeeld: Indien de wetenschapper zegt dat het goudstuk uit H2 komt en in werkelijkheid komt het
goudstuk niet uit H2, dan is het een False Negative
- De onderzoeker vergist zich.
Voorbeeld: Indien de wetenschapper zegt dat het goudstuk uit H1 komt en in werkelijkheid komt het
goudstuk ook echt uit H1, dan is het een True Positive
Voorbeeld: Indien de wetenschapper zegt dat het goudstuk uit H1 komt en in werkelijkheid komt het
goudstuk niet uit H1, dan is het een False Positive
- De onderzoeker vergist zich.
Brent Van Tigchelt 7
,Samenvatting van de tabel:
Als je statistieken hebt over de juiste en foute voorspellingen die je gemaakt hebt, kan je de
procentuele verhoudingen van juiste voorspellingen berekenen:
- Je kan de True Negative Rate berekenen door de True Negatives te delen door de som van de
True Negatives en de False Postives
- Je kan de True Positive Rate berekenen door de True Positives te delen door de som van de
True Positives en de False Negatives
- De procentuele verhoudingen van de juiste voorspellingen van de linker kolom = hoe goed ga
je in de linker kolom voorspellen = specificiteit
- De procentuele verhoudingen van de juiste voorspellingen van de rechter kolom = hoe goed
ga je in de rechter kolom voorspellen = sensitiviteit
Sensitiviteit & Specificiteit zijn ratio’s van aantal keer je correct voorspelt in verhouding met alle
positieve voorspellingen.
• Als sensitiviteit + specificiteit dicht bij 0 ligt, dan moeten we het model verbeteren. Hoe dichter
bij 1, hoe beter.
Brent Van Tigchelt 8
,Voorbeeld: Een fraude detectie systeem heeft een sensitiviteit en specificiteit van 99%, de prevalentie
(voorkomen van fraude transacties) is slechts 0,2% van alle transacties.
Hoe groot is de waarschijnlijkheid dat een transactie die als frauduleus beschouwd wordt, ook echt
frauduleus is?
Je gaat ook transacties met fraude missen / onterecht afkeuren (fouten maken).
De kans dat een transactie die als frauduleus beschouwd wordt, ook echt frauduleus is, is +- 16,6%.
Voorbeeld: Stel je hebt een zeer zeldzame ziekte, ze komt maar bij 1 op de 10 miljoen mensen voor.
Dan is de prevalentie van die ziekte zeer klein. De a priori waarschijnlijkheid dat je de ziekte hebt, is
bijzonder klein. Zelfs al gebruik je een medische test die zeer sensitief en specifiek is en je word positief
getest. Dan is de kans vrij groot dat je de ziekte toch niet hebt.
Voorbeeld: VRAAG: is het de moeite om deze test te kopen?
• Test kost 100 euro
• Sensitiviteit is 90% (goed)
• Gebaseerd op data is de waarschijnlijkheid 7% dat je positief
• Prevalentie is 0.3%
Er is een zekerheid van 3.86% dat je de ziekte hebt als je positief test = werkelijke waarschijnlijkheid
Zonder test is de waarschijnlijkheid 0.3% dat je de ziekte hebt.
Brent Van Tigchelt 9
, 2.4 Multinomial Naive Bayes Classifier: statistisch model dat
gebasseerd is op de stelling van Naive Bayes
We gaan een classificatiesysteem gebruiken.
Voorbeeld: We nemen 1.000 artikels van een bepaald pers en we hebben manueel gekeken hoeveel
artikels correcte en incorrecte informatie bevatten, hoeveel artikels nu real (100% echt) of fake news
zijn.
Voorbeeld: We willen een model bouwen dat in staat is om te bepalen of een nieuw artikel real of fake
is. We gebruiken een tabel waar we verschillende woordcombinaties onderzoeken. We bepalen
bijvoorbeeld hoeveel artikels het woord ‘royal’ bevatten.
Likelihood real Likelihood fake
- Verschillende woordcombinaties bekijken
o We bekijken hoe vaak het woord ‘royal’ voorkomt in real news en in fake news
▪ 81 van de 1.000 artikels met het woord royal in waren ‘real news’ → 8,1%
▪ 92 van de 1.000 artikels met het woord royal in waren ‘real news’ → 9,2%
In de twee rechtse kolommen staat de conditionele waarschijnlijkheid van woordcombinaties,
gegeven dat het een real of fake artikel is.
- Woordcombinaties: royal family (2 woorden) → waarschijnlijkheid verandert, samen is de kans
veel groter dat het fake news is
Brent Van Tigchelt 10