Hoofdstuk 2 statistiek: Introduction to Probability
Definitie van kansberekening (=probability)= indien je N mogelijkheden hebt en
een gebeurtenis E kan voorkomen op M mogelijke manieren van N dan is de
kans op E: M/N.
Je hebt 1,2,3,4 en 5. De kans dat het getal een veelvoud is van 2 heeft 2
mogelijkheden: 2 of 4. De kans dat het een veelvoud van 2 is, is dus 2/5.
0<= P <= 1 de kans dat iets gebeurt ligt altijd tussen nul en één.
1 – (kans op niet X) = kans op X kans op X + kans op niet X = 1
¬A = NIET A
A ∩ B = A en B
A ∪ B = A of B
P (X ∪ Y ∪ Z) = de kans op X + kans op Y + kans op Z
P(C|X) = de kans op C indien X zich al heeft voorgedaan.
P(C) = De kans op C
P(C|¬X) = De kans op C indien X zich niet heeft voorgedaan.
Indien een eerdere uitkomst geen invloed heeft op de volgende uitkomst (bv.
wanneer je met een dobbelsteen gooit) P (XIC) = X
P(AX) betekent: wat is de kans dat A en X op dezelfde moment komen. Dat ze dus allebei voorkomen.
P(AIB)=P(AB)/P(B)
Vervolgens bespreken we 7 axioma’s en 9 theorema’s (Jeffrey’s axioma
systeem):
- Axioma 1 P (BIA) < P (CIA) of P(BIA) = P (CIA) of P(CIA) > (PBIA). Er
zijn geen andere mogelijkheden (logisch). = Comparability =
vergelijkbaarheid
- Axioma 2 Als P(BIA) > P(CIA) en P(CIA) > P(DIA) dan is P(BIA) > P(DIA).
= transitiviteitsregel. Maw als A groter is dan B en B is groter dan C, dan
is A groter dan C.
- Axioma 3 (hele vreemde) P(BiIA) = P(BiIj) voor alle i,j. Deducibility
- Axioma 4 Als P(B1B2 I A) = 0 en P(C1C2 I A) = 0 en P(B1 I A) = P(C1 I A)
en P(B2 I A) = P(C2 I A) dan is P((B1 ∪ B2)IA) = P((C1 ∪ C2)IA) maw de
kans dat ik ga tennissen of ga lopen (B1 en B2) nadat het regent is nul. En
de kans dat ik naar dat ik naar de winkel ga en op toilet zit als het regent
is ook nul (C1 en C2). De kans dat ik tennis nadat het regende is gelijk
aan de kans dat ik naar de winkel ga als het regende. En de kans dat ik ga
lopen als het regende is even groot als de kans dat ik naar toilet ga als het
regende. De kans is nu even groot dat ik ga lopen of ga tennissen OF naar
toilet ga of naar de winkel ga.
Dit is logisch aangezien de kansen even groot zijn vd gebeurtenissen.
, - Axioma 5 P(BIA)=1 wilt zegen dat B een onderdeel is van A. Een klans
van 1 wilt zeggen dat het een zekere gebeurtenis is.
- Axioma 6 A ∩ B = C. Dus P(B∩CIA) = P(BIA) als je A en B hebt, dan heb
je automatisch C. Nu gegeven dat je A alvast hebt (staat rechts van de
streep) en je daarna B hebt, dan heb je zowel B als C (A+B) maar ook
gewoon B.
- Axioma 7 P(B∩CIA)=P(BIA)P(CIB∩A) aangezien P(BIB∩A) = 1
- Theorema 1 indien A hetzelfde is als NIET B, dan is P(BIA)=0.
- Theorema 2 gegeven: B is juist als en slechts als C juist is. dwz B = B∩C
en C=C∩B dus P(BIA)= P(CIA). Dit is logisch, eigenlijk staat er dat A en B
hetzelfde zijn.
- Theorema 3 P(BIA) = P(B∩CIA) + P(B∩ niet CIA). De kans dat je B en A
hebt + de kans dat je enkel B hebt is gelijk aan de kans dat je B hebt.
- Theorema 4 P(BIA) + P(CIA) = P(B en CIA) + P(B of CIA) Dit betekent
dan ook wel dat P(B of CIA) <= P(BIA) + P(CIA)
- Theorema 5 te moelijk
- Theorema 6 Indien je allemaal zaken hebt met een gelijke kans om
gekozen te worden, dan is de kans dat zaak X gekozen wordt 1/totaal
aantal zaken.
- Theorema 7 te moelijk.
- Theorema 8 dit lijkt hard op axioma 7.
- Theorema 9 het Bayes theorema
Bayes’ theorema -> Dit theorema heb ik uitgeschreven op
papier en zit in bijlage bij de samenvatting
Stel: A betekent: het is nacht. B betekent: het regent.
,P(AIB)=P(AB)/P(B) en P(BIA)= P(BA)/P(A) deze formules zet je in elkaar:
P(AIB)= (P(BIA)*P(A))/ P(B)
The weak law of large numbers
Des te groter de steekproef die je eruit neemt, des te groter de kans dat diens
gemiddelde gelijk is aan het gemiddelde van de populatie.
The strong law of large numbers
Indien de steekproef oneindig groot is, dan is de kans 100% dat diens
gemiddelde gelijk is aan het populatiegemiddelde.
Het gemiddelde van de steekproef werkt dus convergerend. Dwz dat naarmate
deze groter is, de kans groter wordt dat het gelijk is aan de populatie.
Bv. Ziekenhuis 1: 50 kinderen worden per dag geboren. Ziekenhuis 2: 10
kinderen worden per dag geboren. Er zullen bij beide dagen bijzitten dat 60% vd
geboren kinderen jongens zijn, dus significant meer jongens dan meisjes. Maar
over het algemeen gezien zal het eerste ziekenhuis dit minder vaak voorhebben
omwille van de weak law of large numbers.
Statistiek hoofdstuk 4
Er zijn verschillende soorten data:
- Kwalitatieve data Dit gaat over alle data waarbij je niet antwoord met een cijfer. Je
antwoord bijvoorbeeld koe of ja. Je kan hier geen berekeningen mee doen, er is namelijk
geen rangorde aanwezig dus een gmeiddelde is nutteloos om uit te rekenen. Bv. man of
vrouw, hoe vaak gebruik je facebook? Dagelijks-wekelijks- ...
- Kwantitatieve data wanneer het gaat over een numerieke schaal. Bv. lengte, examen-scores,
...
Discrete variabelen beperkt aantal mogelijke klassen als uitkomst.
Continue variabelen dit kan oneindig veel mogelijkheden hebben omdat het tot oneindig
ver achter de komma gaat. Bv. lengte, gewicht, ...
Een likert schaal heeft kwalitatieve antwoorden maar je kan dit gebruiken als kwantitatieve data
achteraf door elk antwoord een cijfer te geven. Bv. wat vindt je van onze website? Zeer slecht –
eerder slecht – matig – eerder goed – zeer goed. Probleem voor mij is de stap tussen stap 4 en stap 5
misschien groter dan voor iemand anders. De interpretatie van de score kan verschillend zijn tussen
verschillende mensen.
Weergave van kwalitatieve data
Frequency plot staafdiagrammen. Je gebruikt deze voor kwalitatieve data, indien je het voor
kwantitatieve data gebruikt, dan is het een histogram. Je ordert deze van groot naar klein of
omgekeerd zodat het overzichtelijker werkt. Op de horizontale as staan categorieën opgesomd. Op
de verticale as staat de absolute frequentie. Het wordt gebruikt om snel te zien hoe vaak iets
voorkomt in een dataset. Positieve punten: Vele mensen kunnen hier goed mee overweg, je maakt
het snel en het is makkelijk te interpreteren. Negatieve punten: Je kan relatief weinig info meegeven
en bij te veel categorieën verlies je het overzicht.
, Frequency table Hier heb je geen grafiek maar een tabel. Het geeft ook de relatieve percentages
mee. Ook hier zijn de data gerangschikt van groot naar klein zodat je een snel overzicht hebt.
Positieve punten: dezelfde als frequency plot. Negatieve punten: Dezelfde als frequency plot.
Weergave van kwantitatieve data
Stem-and-leaf Plot De stem is het getal dat vooraan vermeld staat,
de leaf zijn de getallen erachter. Alle getallen met dezelfde “stem” staan in dezelfde rij. Op de X-as
zie je de frequentie van de observaties met dezelfde stem. De verticale beschrijft de waardes. Uit een
stem en leaf plot kan je de scheefheid snel halen, de algemene tendens, de variabiliteit en outliers
zijn snel detecteerbaar. Positieve punten: De originele data is nog beschikbaar, makkelijk te
interpreteren en veel info op korte ruimte en velen kennen het. Negatieve punten: de outliers zijn
zichtbaar en dit kan een verkeerd beeld geven over de data.
Histogram op de horizontale as staan de “categorieën” van klein naar
groot. Elke staaf is een “klasse” met een onder en bovengrens die open of gesloten kan zijn, deze zijn
vaak even groot waardoor elke staaf even breed is. Indien de klassebreedte niet overal gelijk is, dan
zullen sommige balken breder/smaller zijn dan andere. De hoogte van de staven geven de absolute
frequentie weer. Het klassemidden is het middelste getal van een klasse, elk getal dat in de klasse
valt wordt herleidt naar dat getal.
De relatieve frequentie is de absolute frequentie gedeeld door het aantal observaties, dit is een
percentage. De cummulatieve relatieve frequentie telt alles op eronder, wanneer dit 0,90 is, dan wilt
dat zeggen dat 90% evenveel of minder heeft. Door de relatieve frequentie te delen door de
klassebreedte krijg je de dichtheid.
Het is handig om dezelfde redenen als de stem en leaf plots, de tendens is duidelijk zichtbaar, de
scheefheid, outliers, en variatie is ook meteen zichtbaar. Positieve punten: het is standaard dus
mogelijk met zelfs de allermakkelijskte software, makkelijk interpreteerbaar en veel info en iedereen
kent een histogram. Negatieve punten: De klasses laten info verdwijnen, te grote klassebreedtes
nemen info weg, de kans bestaat dat de mensen in de klasse allemaal beneden of vanboven in die
klassen zitten en ze worden dan bekeken als het klassecentrum en indien er outliers zijn is het
histogram niet zo informatief.
Kwantielen kwantielen is een algemene verwijzing naar alle mogelijk indelingen die je kan maken:
kwartielen (25%), decielen (10%), ...
Formule: (1-f)Xi +fxi+1. Hiermee kan je berekenen welk getal exact op het X-te kwantiel ligt. Bv. ik wil
weten welke waarde overeenkomt met het 60 ste kwantiel, dataset= 15, 20, 30, 45.