Statistiek samenvatting theorie
Hoofdstuk 9 ~ recap
Sampling Distributions and Confidence Intervals for Proportions
Er zijn veel verschillen tussen steekproeven dat worden afgenomen. Voorbeeld in de klas met de verkiezingen;
Steekproef 1 : 25%
Steekproef2 : 20%
Steekproef3 : 10%
het is nooit hetzelfde percentage
Introductory example
Marketingcampagnes tegen pestgedrag ofso, zijn erop gericht om klanten te bewegen om iets te kopen,
klanten loyaal te houden,.. die campagne is effectief en dat kan je meten aan de hand van de Response Rate
Je kan een test uitvoeren: een klein deel van je klanten een korting aanbieden en de response rate berekenen.
we hebben meer nodig om de onzekerheid te beschrijven rondom de inschatting op basis van de steekproef.
De populatie: wat is de populatie? de populatie is niet automatisch, wij controleren het. degene die de
studie uitvoert/het probleem wilt analyseren kan zelf een populatie kiezen waarin hij interesse heeft en inzicht
uit wilt krijgen.
Het kan zijn dat je een campagne ontwerpt enkel voor je TOP klanten/beste klanten. Dan is de Response Rate
van andere klanten helemaal niet belangrijk. je kan het zelf beslissen
De steekproef die we nemen moet representatief zijn voor die populatie.
9.1 The Distribution of Sample Proportions
Waarom bestuderen we niet heel de populatie?
Het is heel kostelijk (op basis van een steekproef komen we ook wel tot een goede
inschatting)
Het is ook tijdrovend; je hebt enkel een beperkte tijd om je steekproef te verzamelen
Kwaliteitscontrole; bvb. Van bier, voor het verzonden wordt naar de winkels worden er
steekproeven genomen en wordt de kwaliteit bestudeerd. Na de test is dat bier dat je
opdronk niet meer verkoopbaar = destructieve test nodig voor de kwaliteit te bepalen.
Proportie voor de populatie: p Parameter
Proportie voor de steekproef: ^p Inschatten
We moeten ons trachten in te beelden als we heel veel samples nemen, hoe zien we die proporties variëren?
we zouden het kunnen beschrijven met een histogram/distributie.
1
,In een simulatie hebben we 2 mogelijke uitkomsten succes/geen succes ja/nee ,..
Er is een bepaalde kans op succes die we controleren en dan gaan we willekeurige steekproeven trekken uit
een populatie en dan kunnen we kijken in iedere steekproef wat de proportie van goeie uitkomsten was die we
bekwamen.
In veel steekproeven (de meeste) wordt een proportie bekomen die verschilt van de populatie proportie.
De grootte van de steekproeven is niet altijd exact hetzelfde
Er is altijd een kans P dat voor iedere steekproef dezelfde is
De sampling distributie voor een proportie is normaal verdeeld. = beschrijft de onzekerheid overheen de
steekproef proportie die we bekomen.
Sampling error: Vergeet niet dat het verschil tussen steekproef verhoudingen, ook wel sampling error
genoemd, niet echt een fout is.
Het is gewoon de variabiliteit die je van het de ene steekproef naar de andere zou verwachten.
• Een betere term is wellicht steekproefvariabiliteit.
Variabiliteit:
Het normale model, is een steekproefdistributiemodel voor de steekproef proportie. Het werkt
niet voor alle situaties, maar het werkt voor de meeste situaties die u in de praktijk tegenkomt.
Randomization Condition (Randomisatieconditie):
• Als uw gegevens afkomstig zijn van een experiment, zouden proefpersonen willekeurig aan behandelingen
moeten zijn toegewezen.
• Als u een enquête hebt, moet uw steekproef een eenvoudige willekeurige steekproef van de populatie zijn.
• Als een ander steekproefontwerp werd gebruikt, zorg er dan voor dat de steekproefmethode niet
bevooroordeeld was en dat de gegevens representatief zijn voor de populatie.
10% conditie:
Als er geen steekproef is gedaan met vervanging, mag de steekproefgrootte, n , niet groter zijn dan 10% van de
bevolking.
Success/failure condition:
De steekproefgrootte moet groot genoeg zijn zodat zowel het aantal 'successen', np , als het aantal
'mislukkingen', nq, naar verwachting ten minste 10 bedragen.
2
, 9.2 A Confidence Interval for a Proportion
- We weten dat ons steekproefdistributiemodel gecentreerd is op de werkelijke verhouding, p.
- We weten dat de standaardafwijking van de steekproefverdeling wordt gegeven door de onderstaande
formule:
We kennen p
pq
We kennen √ niet
n
We kunnen de standaarddeviatie van de steekproef distributie inschatten door te gebruiken.
9.3 Margin of Error: Certainty vs. Precision
- De 95% betrouwbaarheidsinterval voor een proportie wordt uitgedrukt als:
- De omvang van dat interval aan weerszijden van ^𝑝 wordt de foutmarge (ME, Margin of error) genoemd.
- Het algemene betrouwbaarheidsinterval kan nu worden uitgedrukt in termen van de ME
- De foutenmarge hangt af van de betrouwbaarheidsniveau : 95%
Hoe meer vertrouwen we willen hebben, hoe groter de foutmarge moet zijn.
• We kunnen er 100% zeker van zijn dat elk aandeel tussen 0% en 100% is,
• Maar we zouden niet erg zeker zijn dat het interval van 41,98% naar 42,02% gaat.
Elk betrouwbaarheidsinterval is een balans tussen zekerheid en precisie.
• Spanning tussen zekerheid en precisie
• Gelukkig kunnen we meestal zowel voldoende zeker als voldoende nauwkeurig zijn om nuttige
uitspraken te doen.
De keuze van het vertrouwensniveau is enigszins willekeurig, maar u moet dat niveau zelf kiezen.
In de praktijk zijn de meest gebruikte betrouwbaarheidsniveaus 90%, 95% en 99%.
Elk percentage kan worden gebruikt. Maar het gebruik van zoiets als 92,9% of 97,2% kan met argwaan worden
bekeken.
• Afhankelijk van de motivatie!
je moet jezelf kunnen verantwoorden voor welk percentage je kiest. ALTIJD MOTIVEREN
3
, Critical Values
Om het betrouwbaarheidsniveau te wijzigen, moeten we het aantal SE's aanpassen aan het nieuwe niveau.
Voor elk betrouwbaarheidsniveau moeten we het aantal SE's uitstrekken aan weerszijden van ^𝒑 is de
kritische waarde.
Omdat een kritische waarde gebaseerd is op het normale model, geven we dit als z* aan.
(z werd altijd gebruikt om te verwijzen naar waarden van de standaard normale verdeling)
1,96 In plaats van 2
Voorbeeld boek
In maart 2013 namen werknemers van het wenskaartbedrijf Edit66 hun bazen gegijzeld. De bedrijfsleiders
hadden werknemers die moesten worden ontslagen geïnformeerd dat zij niet de ontslagvergoeding zouden
ontvangen waarop zij wettelijk recht hadden. Deze incidenten hebben de bijnaam 'bossnappings' gekregen en
zijn niet ongewoon in Frankrijk.
Een wedstrijd in Parijs vond 30% van de Fransen die deze actie 'goedkeurden' en 63% was begripvol of
sympathiseerde met de actie. Slechts 7% veroordeelde de actie. De Paris Match-enquête was gebaseerd op een
willekeurige representatieve steekproef van 1010 volwassenen.
Research questions:
Wat dachten andere Franse volwassenen van dit?
Waren ze sympathiek, begripvol, ondersteunend?
Plan:
• Statistische onderzoeksvraag:
- Wat kunnen we concluderen over het aandeel van alle Franse volwassenen die sympathiseren met de
praktijk van bossnapping?
• Instelling:
- Eén-aandeel z-interval maakt het mogelijk om een betrouwbaarheidsinterval te berekenen voor de ware
verhouding
- We kiezen een betrouwbaarheidsniveau van 95%
• Controleer:
Veronderstellingen & voorwaarden
4