Statistiek
LES 1:
Hoofdstuk 1 => getting started
U moet in staat zijn om alle voorbeelden te kunnen reproduceren.
Cursus schrijf: foto van de histogram met deze data => je kan het nalezen dan, maar dat wilt
niet zeggen dat je dan exact dezelfde histogram kan maken.
Voorbeeld:
Links: univariate dataset
C => bedrijf dat ik opstart is C.
P => waarschijnlijkheid dat het bedrijf succesvol is.(gaat laag getal zijn tussen 0 en 1, dus dicht bij 0)
Je hebt een teller en een noemer (een breuk!) in de teller staat dat X en C allebei voorkomen (slagen
+ goede partner) delen door een goede partner (gaat ENKEL als de noemer niet gelijk is aan 0)
/ => gegeven dat. De conditionele waarschijnlijkheid dat mijn bedrijf succesvol is, gegeven dat de
partner waarmee ik werk nog nooit een bedrijf heeft gerund, gaat die conditionele waarschijnlijkheid
er niks aan veranderen.
Waarschijnlijkheid? => zinloos als je niet weet of je spreekt over een gewone, conditionele
waarschijnlijkheid.. de informatie dat je krijgt heeft op een gegeven moment wel heel veel van
belang.
1
Maxine Vermeiren 2024
,De definitie van conditionele => kans dat ze allebei voorkomen/ kans van wat na het streepje komt..
Wat gebeurt er de waarschijnlijkheid van B(ervaren partner) gegeven A (slagen van bedrijf), wat is
dan de kans als je uw bedrijf verkoopt, wat is de kans dan dat uw business angel heeft gezorgd dat je
zoveel succes hebt gehad.. P(B/A) = P(BA)/P(A) => condtionele waarschijnlijkheden kunt herschrijven
en kunnen zorgen dat alles wat voor het streepje staat kan gewisseld worden met na het streepje.
Manier 2:
Vis teken => linker en rechter deel zijn aan elkaar proportioneel.
H => wat ik wil onderzoeken, hypothese
D => gegevens dat je hebt onderzocht
=>De kans dat de hypothese waar is, gegeven dat je bepaalde gegevens hebt onderzocht,
proportioneel met de kans dat ik de data observeer, indien de hypothese waarschijnlijkheid is *
waarschijnlijkheid dat de hypothese waar is.
Data is altijd hetzelfde, maar de hypothese is altijd verschillend… we gaan de 2 proporties opschrijven
en gaan we deze door elkaar delen.
likelyhood / prirehood
Voorbeeld
2 zakken (goud of zilver), de eerste zak noemen we hypothese 1 en tweede zak is hypothese 2.. zak 1
150 goud en 50 zilver, zak 2 is 100 goud, 200 zilver..
Wat is de kans als we goud trekken dat deze in zak 1 zit? =>
(eerste deel likehood, tweede deel prior want 50%)
2
Maxine Vermeiren 2024
,9+4 => 13+ (teller delen door de som)
Voorbeeld 2 (BINAIR!!) (boek puntje 7. Sensitivity and specificity)
2hypothese (terwijl 1 hypothese waar of terwijl de andere waar)
We hopen dat de percentages van sensitivity en specificity hoog zijn.
Stel u voor dat het systeem 99% sensitivity en specificity heeft, maar de prevalency is 0.2% (fraude).
Wat is de kans dat het werkelijk fraude is als het model zegt dat het positief is (fraude dus)
3
Maxine Vermeiren 2024
,Voorbeeld 3:
We kunnen shocking and royal family na kijken of dit correct is of niet in een fake artikel..
0 prohabiliteit => we gaan bij alle getallen iets bij tellen (heel klein, NOOIT met 0 vermenigvuldigen)
=> NAIVE BAYES
Wet van de grote getallen
Berekening willen maken, schatting van de waarschijnlijkheid ZONDER een theorie. Dan gaan
we dit simuleren.. dus naarmate je meer simulaties doet, gaat je waarschijnlijkheid vergroten
MAAR deze gaat niet zeggen hoe vaak je de waarschijnlijkheid moet uitvoeren.
4
Maxine Vermeiren 2024
,LES 2
Hoofdstuk 2: descriptive statiscs & exploratory data
Bernoulli distribution (binaire variabele) (11boek)
Kans dat (X=1)P
Kans dat het niet waar is 1-Q = P
Voorbeeld
1 geboorte 50% voor jongen, 50% voor een meisje. Er zijn twee statussen..
Variantie (p*q) => kans succes * kans falen
Binomial distribution (12 boek)
Je kan 3 verschillende kansen uitrekenen.
Voorbeeld (jongen x meisje)
In het grote ziekenhuis heb je gemiddeld 45 geboortes per dag.
Prohability to succes => 0.5
Evaluated => 27 => 60% van de 45
5
Maxine Vermeiren 2024
, 6.7% => is de kans!
Uniform distribution(14)
De dichtheidsfunctie begint bij een ONDERGRENS(3) en eindigt bij een BOVENGRENS(6) en is
HORIZONTAAL. ALLE getallen tussen 3 en 6 zijn EVEN waarschijnlijk.
Uniform distribution (cumulutatieve) => STIJGENDE LIJN!
- Skewenss => ALTIJD 0
- Kurtosis => gepiektheid? => DEF? => Het heeft te maken met de staarten van de
dichtheidsfunctie! Hoe dik zijn de staarten van de verdeling? Veel interessanter dan het
midden.
o Hoe groter de kurtoisis, hoe groter de kans dat je extreme waarden hebt en
dus grotere staarten.
o Dikte staarten ALTIJD 9/5
▪ Groter? Bepaalde waarden meer waarschijnlijk kunnen voorkomen.
Normal distribution (15)
Gaussian distributution
top => 5 breedte = 2
6
Maxine Vermeiren 2024
,Expected value => MU => voorspelling te maken => mu gebruiken als predicitie
Variance => sigma kwadradat
Standaardeviantie => sigma => de onzekerheid => de breedte => hoe zeker/onzeker ben je over de
predictie mu.
Goeie benadering? => Ik ben er zeker van dat er geen andere betere bestaat. DUS JA
Mean => 2.55
Sd => 0.37
Hier is het antwoord NEE => geen goeie benadering voor een voorspelling!
7
Maxine Vermeiren 2024
,Voorbeeld
Bepaalde eigenschappen:
1) Normaal verdeling en optelt bij een andere => normaalverdeling van de som
2) XI(normaalverdeling) N => N normaalverdelingen => de som van de kwadraten van de
normaalverdeling is een CHI kwadraten.
a.
3) …. (15…. Alle eigenschappen)
Gaussian naive bayes classifier (16)
Voorbeeld:
Sommige hebben diabetes (binaire) en sommige hebben geen diabetes.
- Type (1 of 0) => endogene variabele
- Npreg+ glu + bp => 3 ziektes
- Classes => 1 of 0
- Samples => aantal observaties in de dataset (aantal patiënten!) AANTAL RIJEN!!!!
- Features => 3 (3 verklarende factoren)
- Gaussian => 3 (we veronderstellen dat bloeddruk, aantal zwangerschappen en glucose
normaal verdeeld zijn.
- Prior => No or YES
8
Maxine Vermeiren 2024
,Gemiddelde, verwachte waarde bij rood is lager dan bij groen
Hoe GROTER het verschil, hoe BETER de voorspellende waarde is van de variabele dat we bekijken!
Hoe voorspellend is die variabele! De stelling van bays zegt de waarschijnlijkheid dat je diabetes hebt
gegeven dat je aantal zwangerschappen hebt gehad… HORIZONTAAL VER UIT ELKAAR => hoge
betrouwbaarheid.
ROOD = gemiddelde 3
GROEN = gemiddelde 5
Hoe meer het verschil is, hoe beter!
Geval 1 =>3% => TRUE NEGATIVE
Geval 2 => 97% => prediction Yes actual NO
Chi distribution(17)
=>gaan we NIET gebruiken in de oefeningen, maar we gaan wel de CHI KWADRAAT GEBRUIKEN
Chi squared distribution (18)
- Gaat NIET onder 0!!!!!
9
Maxine Vermeiren 2024
, Df => 10 => 10 is het aantal termen dat we gebruikt hebben in de som. 10 normaalverdelingen!
Df => 20 => Gaat MINDER scheef worden. => meer neigen naar een normaalverdeling
Skweness/kurtosis => hangen vast aan N (zie formules)
Voorbeeld
Echtscheidingen! => parameter 3.46 dat je tussen de 3 a 4 nodig hebt,maar je ziet aan deze curve
dat dit niet klopt!
=> kan nooit juiste benadering zijn, want CHI heeft maar 1 bult (hier 2)
Verhoudingen van 2 chi kwadraten is een F verhouding (gewoon weten dat het F is )
10
Maxine Vermeiren 2024