In deze samenvatting vind je alle theorie terug van het vak statistiek. Dit betreffen letterlijk dezelfde inhoud als de slides van de prof die op een mooie manier worden weergegeven in een document om alles overzichtelijker te maken.
H10: steekproevenverdelingen en betrouwbaarheidsintervallen
voor proporties
Recap: categorisch versus kwantitatief
o Batch: observatienummer (aantal batches = steekproefgrootte)
o Crack: dichotome waarde, 0/1 = nee/ja (proportie batches met crack=1 als
samenvattende statistiek door het aantal 1 te delen door het totale aantal)
o Impurities/onzuiverheden: kwantitatieve waarde (gemiddeld aantal onzuiverheden
als samenvattende statistiek)
Verdeling van steekproefproporties
Over populatie en steekproeven:
Populatie: over wie/wat wil je een uitspraak doen?
Steekproef: indien niet haalbaar om de volledige populatie te bevragen/bemonsteren
Parameter: proportie p in de populatie (’werkelijke’ waarde)
Statistiek: proportie 𝑃" in de steekproef
Steekproevenverdeling:
Wat is de variabiliteit in de steekproefproportie 𝑃"? Stel je theoretisch voor hoe de
steekproefproportie kan variëren over alle mogelijke steekproeven.
Over populatie een steekproef:
Steekproefproportie: berekend op basis van één enkele steekproef uit een volledige
populatie
Variabiliteit: hoe zou de steekproefproportie variëren over alle mogelijke steekproeven?
è Je gaat een simulatie van meerdere steekproefproporties maken en merkt dat de
steekproefproportie varieert over verschillende steekproeven
Steekproevenverdeling / sampling distribution:
De verdeling van de proporties over veel onafhankelijke steekproeven van de populatie
noemen we de steekproevenverdeling van de proporties.
Voor verdelingen die klokvormig zijn en gecentreerd rond de reële proportie p, kunnen we
de steekproefgrootte n gebruiken om de standaardafwijking van de steekproevenverdeling
,(-.,) ,0
te vinden: 𝑆𝐷(𝑝̂ ) = + /
=+/
,Verschil tussen steekproefproporties: steekproevenfout (Niet echt een fout, misschien
beter: steekproevenvariabiliteit. Het feit dat de steekproevenproporties variëren)
,0
Steekproevenverdelingsmodel voor de steekproefproportie: 𝑁(𝑝, + / )
,0
Steekproevenverdelingsmodel is normaal met een gemiddelde p en SD = + / als aan
bepaalde standaardvoorwaarden wordt voldaan (zie verder aannames en condities)
Dit zal niet gelden in alle situaties, maar wel voor de meeste situaties in de praktijk.
Bedrijfsbeslissingen gebaseerd op 1 steekproef:
o We kunnen de variabiliteit tussen steekproeven niet controleren.
o In de praktijk hebben we (meestal) maar 1 steekproef getrokken.
o We kunnen aan de hand van deze ene steekproef wel voorspellen hoe de verschillende
steekproefproporties zullen variëren van steekproef tot steekproef (indien aan bepaalde
voorwaarden voldaan is).
o Dankzij deze gekende variatie kunnen we toch een (bedrijfs)beslissing nemen a.d.h.v. 1
enkele steekproef.
o Hoe dit concreet in zijn werk gaat vormt een belangrijk onderdeel van deze cursus.
z-scores:
o Vermits we met het Normaalmodel werken kunnen we z-scores berekenen voor
,4.,
gekende populatieproportie p en vooropgestelde 𝑝̂ : 𝑧 = 56(,)
o Via deze z-scores kunnen we dan de probabiliteit berekenen om een proportie te
bekomen groter dan de vooropgestelde 𝑝̂ .
o Zo kunnen we bij het maken van een bedrijfsbeslissing inschatten hoe uitzonderlijk het
bekomen van een proportie groter dan de vooropgestelde 𝑝̂ is.
Aannames en condities
• Aanname van onafhankelijkheid
o De steekproefwaarden moeten onafhankelijk zijn van elkaar
o Conditie van aselecte keuze
Indien de data komen van een experiment, moet de toekenning van de deelnemers
aan de groepen aselect (random) gebeurd zijn. Voor een enquête heeft men een
enkelvoudige aselecte steekproef uit de populatie nodig. Indien een ander opzet
wordt gebruikt, moet men zeker zijn dat de steekproef niet vertekend is en dat de
data representatief zijn voor de populatie.
o 10% conditie
Indien de steekproef niet met teruglegging wordt getrokken, mag de
steekproefgrootte n niet groter zijn dan 10% van de populatie.
2
,• Aanname over steekproefgrootte
o De steekproefgrootte n moet voldoende groot zijn (Normaal
steekproevenverdelingsmodel van 𝑝̂ )
o Succes/mislukking voorwaarde
De steekproefgrootte moet groot genoeg zijn zodat zowel het aantal successen np
als het aantal mislukkingen nq verwacht wordt minstens 10 te zijn.
Betrouwbaarheidsinterval voor een proportie
Voorbeeld:
Er wordt een poll uitgevoerd (3559 respondenten) en het resultaat is dat 1495 van de 3559
respondenten denkt dat de economische omstandigheden beter worden, dus we bekomen
een steekproefproportie van 𝑝̂ = = 42%.
We zouden deze steekproefproportie graag gebruiken om iets te zeggen over wat de
proportie p van de volledige populatie denkt omtrent de economische omstandigheden.
We weten dat het steekproevenverdelingsmodel gecentreerd is rond de reële proportie p
en dat de standaardafwijking van de steekproevenverdeling gegeven is door:
,0
𝑆𝐷(𝑝̂ ) = + / met q = 1 – p
We weten dat de vorm van de steekproevenverdeling nagenoeg Normaal is bij voldoende
groot aantal successen en mislukkingen. We kunnen 𝑝̂ gebruiken om de standaardfout
(standard error) te berekenen. De standard error is de geschatte standaarddeviatie van de
,404
steekproevenverdeling. 𝑆𝐸(𝑝̂ ) = + / = 0,008 in ons voorbeeld
Gezien de verdeling Normaal is, kunnen we verwachten dat ongeveer 95% van alle
steekproeven van 3559 U.S. volwassen een steekproefproportie zou hebben binnen twee
SE’s van p.
Dus: we zijn 95% zeker dat 𝑝̂ binnen 2×(0.008) van p ligt.
Draai de redenering om en bekijk vanuit de steekproefstatistiek! Er is ook 95% zekerheid dat
de populatieparameter binnen de 2 SE van de geobserveerde steekproefstatistiek ligt.
42.0 % +/- 2x 0.008 = [40.4 % ; 43.6 %] -> betrouwbaarheidsinterval is berekend
3
, Interpretatie: "We kunnen met 95% betrouwbaarheid stellen dat tussen de 40.4% and
43.6% van U.S. volwassenen denkt dat de economie zou verbeteren.”
Wat betekent 95% echt?
20 steekproeven
paarste stippen: steekproefproporties
oranje lijnen: betrouwbaarheidsinterval van elke steekproef
groene lijn: echte populatieproportie
1/20 (= 5%) waar populatieproportie niet in het interval is. Dit is aanvaardbaar omdat men
een 95% betrouwbaarheidsproportie hebben.
Aannames en condities om het interval op deze manier te berekenen:
• Aanname van onafhankelijkheid
o Controleer de conditie van aselecte keuze (randomization)– de data moet volgens
aselecte keuze getrokken zijn.
o Controleer de 10% conditie – indien minder dan 10% van de populatie werd
getrokken, is het veilig om verder te gaan.
• Aanname over steekproefgrootte
o Controleer de succes/mislukking conditie via de steekproefproportie (vermits we de
populatieproportie niet kennen) - we moeten dus minstens 10 successen en 10
mislukkingen hebben in de steekproef (n𝑝̂ en n𝑞4 ≥10).
Foutenmarge: Zekerheid versus Precisie
Uitdrukking 95% betrouwbaarheidsinterval voor de populatieproportie p: 𝑝̂ ±1.96 SE(𝑝̂ )
De reikwijdte van het interval aan elke kant van 𝑝̂ wordt de foutenmarge (ME, margin of
error) genoemd. Het betrouwbaarheidsinterval kan algemeen uitgedrukt worden in termen
van ME:
Schatting ± ME met 𝑝̂ hier als de schatting (estimate) van p en ME = 1.96 SE(𝑝̂ ).
Algemene uitdrukking van de foutenmarge (margin of error): ME = 𝑧 ∗ SE(𝑝̂ )
De foutenmarge van een betrouwbaarheidsinterval geeft informatie over de precisie van de
schatting.
𝑧 ∗ bepaalt de zekerheid (betrouwbaarheid, vb. 95%) dat het interval de werkelijke
populatieproportie bevat. Wil je meer zekerheid dan kun je 𝑧 ∗ verhogen (het interval wordt
breder), maar dan zal de precisie verlagen.
4
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur ReginaAllen. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €11,46. Vous n'êtes lié à rien après votre achat.