Statistiek II
Hoofdstuk 9: steekproevenverdeling en betrouwbaarheidsintervallen
voor fracties
Pogingen zijn Bernoulli als:
- Er enkel 2 mogelijke uitkomsten zijn (succes en falen) voor elke poging
- The kans op succes (𝜌) dezelfde is bij elke poging. De kans op falen (1-𝜌) wordt vaak als 𝑞
genoteerd.
- De pogingen onafhankelijk zijn.
Voorbeelden: muntje opgooien, verzamelen van antwoorden op “ja/nee” vragen…
De 10% toestand: Bernoulli-proeven moeten onafhankelijk zijn. In theorie moeten we steekproeven
uit een populatie die oneindig groot is. Als de populatie echter eindig is, is het nog steeds goed om
door te gaan zolang de steekproef kleiner is dan 10% van de populatie.
Wanneer de willekeurige variabele dat van belang is “het aantal successen” is in een reeks Bernoulli-
onderzoeken, wordt dit een binomiale willekeurige variabele genoemd.
Er zijn 2 parameters nodig om dit binomiale kansmodel te definiëren: het aantal proeven (n) en de
kans op succes p).
De normale verdeling kan de binominale benaderen.
Succes/faalvoorwaarde = een binominaal model is ongeveer normaal als we ten minste 10 successen
en 10 mislukkingen verwachten:
𝑛𝑝 ≥ 10 𝑒𝑛 𝑛𝑞 ≥ 10
Eva Claes 1
, 1. Verdeling van steekproeffracties
Inleiding
Populatie = de grote groep waarover je een uitspraak wenst te doen.
- Parameter (fractie p) = waarde die de informatie beschrijft.
Steekproef = selectie uit de populatie.
- Statistiek (fractie 𝑝̂ ) = waarde die de informatie beschrijft.
Steekproevenverdeling: om meer te weten te komen over de variabiliteit in de steekproeffractie 𝑝̂ ,
moeten we ons voorstellen hoe de steekproeffractie kan variëren over alle mogelijke steekproeven.
Steekproeffractie: één enkele mogelijke steekproef uit een volledige populatie.
Variabiliteit: hoe zou de steekproeffractie variëren over alle mogelijke steekproeven?
Indien 20% van de klanten hun uitgaven met een kredietkaart verhogen, zal de marketingcampagne
geslaagd zijn. In een steekproef van 1000 klanten, verhoogden 211 klanten hun uitgaven. Is dit
voldoende om de campagne te lanceren?
➔ Hangt af van variabiliteit!!!
Simulatie van 10 000 steekproeffracties
Histogram voor 1000 personen met p= 0,2 als (populatie)fractie:
- Niet elke steekproef heeft een fractie gelijk aan 0,2.
- Steekproeffracties groter dan 0,24 en kleiner dan 0,16 zijn zeldzaam.
- Meeste steekproeffracties liggen tussen 0,18 en 0,22.
- Dit histogram toont de simulatie van de steekproevenverdeling van 𝑝̂ .
Steekproevenverdeling
De steekproevenverdeling van de fracties = de verdeling van de fracties over veel onafhankelijke
steekproeven van de populatie.
- Voorwaarden zijn dus: VEEL steekproeven en ONAFHANKELIJKE steekproeven.
Eva Claes 2
,Steekproevenverdeling ≠ verdeling van een steekproef
Samples distribution ≠ distribution of a sample
Steekproevenverdeling Verdeling van één steekproef
Gaat over de steekproeven die we nemen uit de Vorig jaar gezien.
populatie en dus niet over die ene steekproef Je bekijkt de data van de steekproef en hoe
waarvan je de verdeling wil voorstellen in een deze verdeeld zijn.
histogram. Gaat specifiek over één steekproef.
Voor verdelingen die klokvormig zijn en gecentreerd rond de reële fractie p kunnen we de
steekproefgrootte n gebruiken om de standaardafwijking van de steekproevenverdeling te vinden:
𝑝 (1 − 𝑝) 𝑝𝑞
𝑆𝐷(𝑝̂ ) = √ =√
𝑛 𝑛
0,2∗0,8
In ons voorbeeld: 𝑆𝐷(𝑝̂ ) = √ 1000
= 0,0126 = 1,26%
Verschil tussen steekproeffracties: steekproevenfout
- Niet echt een fout, misschien beter: steekproevenvariabiliteit
Steekproevenverdeling voor steekproeffracties
De normaalverdeling is een benadering voor de steekproevenverdeling van de steekproeffractie.
N(𝜇, 𝜎)
𝑝𝑞 𝑝𝑞
N(p, √ 𝑛 ) met 𝜇 (gemiddelde) = p en 𝜎 (standaardafwijking) =√ 𝑛
➔ Dit zal niet gelden in alle situaties, maar wel voor de meeste situaties in de praktijk.
o Wij behandelen alleen situatie die op die manier voorkomen, maar er zijn dus wel
uitzonderingen!
Eva Claes 3
, 𝑝𝑞 𝑝𝑞
68% vd waarnemingen vallen in het interval [−√ 𝑛 , √ 𝑛 ]
𝑝𝑞 𝑝𝑞
95% vd waarnemingen vallen in het interval [−2√ 𝑛 , 2√ 𝑛 ]
𝑝𝑞 𝑝𝑞
99,7% vd waarnemingen vallen in het interval [−3√ 𝑛 , 3√ 𝑛 ]
Aannames en voorwaarden
Aanname van onafhankelijkheid:
- De steekproefwaarden moeten onafhankelijk zijn van elkaar.
Voorwaarde van aselecte keuze:
- Indien de data komt van een experiment, moet de toekenning van de deelnemers aan de
groepen aselect gebeurd zijn.
- Voor een enquête heeft men een enkelvoudige aselecte steekproef uit de populatie nodig.
- Indien een ander opzet wordt gebruikt, moet men zeker zijn dat de steekproef niet
vertekend is en dat de data representatief zijn voor de populatie.
Aanname over steekproefgrootte:
- De steekproefgrootte n moet voldoende groot zijn.
10% voorwaarde:
- Indien de steekproef NIET met teruglegging wordt getrokken, moet de steekproefgrootte n
kleiner zijn dan 10% van de populatie.
Succes/mislukking voorwaarde:
- De steekproefgrootte moet groot genoeg zijn zodat zowel het aantal successen np als het
aantal mislukkingen nq verwacht wordt minstens 10 te zijn.
- 𝑛𝑝 ≥ 10 𝑒𝑛 𝑛𝑞 ≥ 10
2. Betrouwbaarheidsinterval voor een fractie
Hoe kunnen we een fractie van de populatie berekenen terwijl we enkel informatie uit een concrete
steekproef hebben? → doen we a.d.h.v. een betrouwbaarheidsinterval.
Voorbeeld:
Het resultaat van een poll was dat 1495 van de 3559 respondenten dacht dat de economische
omstandigheden beter zouden worden - een steekproeffractie van 𝑝̂ = = 42%. De studie
gaat over de populatie “alle inwoners van Amerika”.
We zouden deze steekproeffractie graag gebruiken om iets te zeggen over wat de fractie p van de
volledige populatie denkt omtrent de economische omstandigheden.
Eva Claes 4
,Standaardfout
We weten dat het steekproevenverdelingsmodel gecentreerd is rond de reële fractie p en dat de
𝑝𝑞
standaardafwijking van de steekproevenverdeling gegeven is door 𝑆𝐷(𝑝̂ ) = √ met q = 1-p.
𝑛
We weten ook van de Centrale Limietstelling dat de vorm van de steekproevenverdeling nagenoeg
̂ kunnen gebruiken om de standaardfout te berekenen:
Normaal is en we 𝒑
𝑝̂ 𝑞̂
𝑆𝐸(𝑝̂ ) = √
𝑛
0,42 (1−0,42)
In ons voorbeeld: 𝑆𝐸(𝑝̂ ) = √ = 0,0008 = 0,08%
3559
Normaalverdeling van de steekproeffracties
Gezien de verdeling Normaal is, kunnen we verwachten dat ongeveer 95% van alle steekproeven van
3559 USA volwassen een steekproeffractie zou hebben binnen 2 SE’s van p.
➔ We zijn 95% zeker dat 𝑝̂ binnen 2*(0,008) van p ligt.
➔ Voor ongeveer 95% v/d steekproeven bevat het interval [𝑝̂ – 2*SE(𝑝̂ ) ; 𝑝̂ + 2*SE(𝑝̂ )] de
populatiefractie p.
[42,0% - 2*0,8% ; 42,0% + 2*0,8%]
→ [42,0% - 1,6% ; 42,0% + 1,6%]
→ [40,4% ; 43,6%]
We kunnen met 95% betrouwbaarheid zeggen dat het interval [40,4% ; 43,6%] de reële
populatiefractie p bevat.
Gepaste interpretatie van een betrouwbaarheidsinterval:
"We kunnen met 95% betrouwbaarheid stellen dat tussen de 40,4% en 43,6% van USA volwassenen
dacht dat de economie zou verbeteren.”
➔ Dergelijke uitdrukkingen verwijzen naar betrouwbaarheidsintervallen.
Wat betekent 95% echt?
De interpretatie:
Als 100 onderzoekers elk een aselecte steekproef met grootte n nemen en elk een 95%-
betrouwbaarheidsinterval berekenen, dan zullen ongeveer 95 van de 100 intervallen de
populatiefractie p bevatten.
Eva Claes 5
, - Paarste stippen: gesimuleerde steekproeffractie
- Oranje lijnen: betrouwbaarheidsinterval van elke steekproef
- Groene lijn: echte populatiefractie
Aannames en voorwaarden
Aanname van onafhankelijkheid:
- Controleer de voorwaarde van aselecte keuze – de data moet volgens aselecte keuze
getrokken zijn.
- Controleer de 10% voorwaarde – indien minder dan 10% van de populatie werd getrokken, is
het veilig om verder te gaan.
Aanname over steekproefgrootte:
- Controleer de succes/mislukking voorwaarde – we moeten minstens 10 successen en 10
mislukkingen hebben in de steekproef.
3. Foutenmarge: zekerheid vs. precisie
Foutenmarge = margin of error ME
Een betrouwbaarheidsinterval heeft een foutenmarge.
95%-betrouwbaarheidsinterval:
𝑝̂ ± 2 ∗ 𝑆𝐸(𝑝̂ )
𝑠𝑐ℎ𝑎𝑡𝑡𝑖𝑛𝑔 ± 𝑓𝑜𝑢𝑡𝑒𝑛𝑚𝑎𝑟𝑔𝑒 → algemene vorm betrouwbaarheidsinterval
Foutenmarge (ME) = de reikwijdte van het interval aan elke kant van 𝑝̂ .
Kritische waarden
Om het niveau van betrouwbaarheid te wijzigen, moeten we het aantal SE’s aanpassen aan het
nieuwe niveau.
Eva Claes 6