Volledige samenvatting van de theorie van Statistiek voor pedagogen: deel 3 gegeven door Dr. Ceulemans Eva
!Niet genoeg om examen te slagen: veel oefeningen maken is nodig
1. Inleiding
1.1 Inleiding tot het data-analytische proces
1.1.1 Inleiding
Data-analyse
= het proces waarbij aan de hand van gegevens en statistische methoden een antwoord gegeven
wordt op onderzoeksvragen
!Gebruikt: t-toets voor onafhankelijke gemiddelen (met gelijke/ongelijke variantie) is verschil in
gemiddelden voldoende om te besluiten dat de twee groepen op populatieniveau verschillen?
1.1.2 Voorstelling van de gegevens en notatie
Yij Score op afhankelijke variabele van persoon i in conditie j:
waarbij j gelijk is aan 1 of 2, afhankelijk van de conditie)
waarbij i start bij 1 en loopt tot nj (bij ongebalanceerde proefopzet is n eigen aan
de conditie)
1.1.3 Flow-chart van het data-analytische proces
Systematisch voorgesteld:
Voorbereidingen Wat zijn onderzoeksvragen?
Evaluatie proefopzet: hoe zijn gegevens
verzameld?
Controleren op fouten: alle data
opgenomen? Missende data?
Exploratieve data-analyse Beschrijvende statistiek gebruiken om:
Data te leren kennen: meer vertrouwd
raken (hoe ziet verdeling eruit?)
normaliteit, symmetrisch?
Uitbijters detecteren
Tentatief antwoord vragen
Nieuwe inzichten over gegevens
Statistische inferentie Formuleren modellen en hypothesen
Keuze toetsstatistiek
Steekproevenverdeling en berekenen p-
waarde
Bepaal effectgrootte: is p-waarde
genoeg voor ons onderzoek?
Presentatie Communiceren resultaten: juiste jargon
Geef antwoord op onderzoeksvragen
Gebruiken inhoudelijke terminologie
Resultaten samenvatten in grafiek
Geef grenzen en bevindingen aan
1.1.4 Exploratieve data-analyse
Exploratie via numerieke methodes (gemiddelden, ..) en grafische methodes
Belangrijke exploratiemiddelen:
Histogrammen per conditie: geven meestal iets gedetailleerdere informatie weer
Box plots per conditie: goede weergave van de verdeling van de scores, geeft normaliteit weer
en uitbijters
1
, 1.1.5 Statistische inferentie
Hebben we evidentie dat een verschil in steekproefgemiddelden een indicatie is voor verschil in
populatie?
nood aan inductieve statistiek/statistische inferentie voor antwoord
!Concrete techniek hiervoor: t-toets voor onafhankelijke groepen
1.1.5.1 Stap 1: formuleer modellen en hypothesen
Nulhypothese Alternatieve hypothese
H0: µ1 = µ2 H1: µ1 ≠ µ2
= het beperkte model = het uitgebreide model
Yi1 ~ N (µ, σ ² ¿ , i = 1, .. n1 Yi1 ~ N (µ1, σ ² ¿ , i = 1, .. n1
Yi2 ~ N (µ, σ ² ¿ , i = 1, .. n2 Yi2 ~ N (µ2, σ ² ¿ , i = 1, .. n2
We leggen de beperking op dat de data Of
vanuit de beide groepen afkomstig is Yi1 = µ1 + εii 1
vanuit 1 verdeling Yi2 = µ2 + εii 2
Veronderstelt dat data normaal verdeeld Laat toe dat de populatiegemiddelden
is met gemiddelde µ en variantie σ ² van de groepen verschillen: de data is
Belangrijk: iid = independent and identically afkomstig uit twee verschillende
distributed scores uit groep 1 zijn verdelingen
onafhankelijk van elkaar en worden uit zelfde Indien µ1 = µ2 komt het uitgebreide
verdeling getrokken. model neer op het beperkte model
Kan ook geschreven worden als:
Yi1 = µ + εii 1
Yi2 = µ + εii 2
Waarbij ook εiij ~ N (0, σ ² ¿
Observaties zijn de som van een
algemeen gemiddelde µ en een
toevallige afwijking εiij (of ‘de fout’),
die ook normaal verdeeld is met
gemiddelde 0 en variantie σ ²
2
, 1.1.5.2 Keuze van de toetsstatistiek
Als toetsstatistiek om de nulhypothese te toetsen nemen we de t-statistiek:
( Ȳ 2−Ȳ 1 ) −( μ1−μ2 )
t=
SE ( Ȳ 2−Ȳ 1 )
waarbij
(n1 −1) S '12+(n2−1) S '22
SE( Ȳ 2−Ȳ 1 )=
√
n1+ n2−2
×
1 1
√ +
n 1 n2
En waarbij
nj
'2 1
S =j ∑¿¿
n j −1 i=1
Onder de nulhypothese betekent dit:
( Ȳ 2−Ȳ 1 ) −0
t=
SE ( Ȳ 2−Ȳ 1 )
Terminologie
SE = standard error grootte van de onzekerheid die bestaat over een schatting (de schatting
van het verschil tussen de twee populatiegemiddelden, op basis van de
steekproefgemiddelden). Hanteert deling door n-1 waardoor zuivere schatter.
S'j2 = samengestelde schatter of ‘pooled estimator of variance’
!Belangrijk:
T-statistiek levert grote waarden indien verschil tussen steekproefgemiddelden groot is =
evidentie tegen beperkte model (en nulhypothese).
Als de noemer groot is, wil dit zeggen dat er veel onzekerheid zit op de schatting van het
verschil in gemiddelden = geen evidentie tegen nulhypothese.
Dus: t-statistiek = ratio van het geschatte verschil tussen twee groepen en onzekerheid
hieromtrent
1.1.5.3 Steekproevenverdeling van t onder H0 en berekenen p-waarde
Verdeling t-statistiek: nodig om te weten te komen hoe waarschijnlijk het is om te observeren wat we
geobserveerd hebben
t-statistiek volgt t-verdeling met vrijheidsgraden n1 + n2 – 2
t ∼t df =n + n −2
1 2
!Indien je dus herhaalde steekproeven zou doen van
omvang n1 en n2 en het beperkte model zou opgaan
(gelijke gemiddelden, normale verdeling, ..)
verdeling van alle t-statistieken: levert verdeling op
volgens n1 + n2 – 2.
3
, Onder het uitgebreide model: herhaalde steekproeven (maar geen gelijke gemiddeldes) voor elke
steekproef verschil ( Ȳ 2−Ȳ 1) weergeven in histogram: geeft ook verdelingsfunctie met drie
kenmerken:
Zal normale verdeling benaderen indien genoeg steekproeven
Gemiddelde waarde zal µ2 - µ1 zijn
1 1
Standaarddeviatie is gelijk aan σ
√ +
n1 n2
Alternatieve toetsstatistiek
Indien we zouden weten wat de waarde van σ is, zouden we ook de z-statistiek kunnen gebruiken:
Ȳ 2−Ȳ 1
z=
1 1
σ
√ +
n1 n2
Onder H0 krijgen we dan een standaardnormale verdeling.
!Maar vaak is populatiegrootheid σ niet gekend daarom bijna nooit gebruikt.
Wel mogelijk: σ schatten aan de hand van gepoolde steekproefstandaarddeviatie:
(n 1−1)S '12+(n2−1)S '22
Spooled=
√
n1 +n2−2
Deze schatter van de standaarddeviatie komt ook terug in de formule van de standaardfout:
(n1 −1) S '12+(n2−1) S '22
SE( Ȳ 2−Ȳ 1 )=
√ n1+ n2−2
×
1 1
√+
n1 n2
= logisch want indien meer observaties, kleinere standaardfout
Dan toch maar de t-statistiek
Door onzekerheid over σ t-verdeling hanteren en niet standaardnormale verdeling
!T-verdeling = ook symmetrische klokvormige verdeling met zwaardere staarten.
!Indien grote vrijheidsgraden: verschil t-verdeling en standaardnormale verdeling verwaarloosbaar
De gepoolde steekproefstandaarddeviatie Spooled
Kan ook geschreven worden als gewogen som van de twee steekproefvarianties, waarbij groter
gewicht aan groep met grootste omvang (zijn altijd positief en sommeren tot 1).
( n 1−1 ) S ' 21 ( n 2−1 ) S ' 22
Spooled= +
( n−1 )+(n 2−1) ( n−1 ) +( n2−1)
!Zowel uitgebreide als beperkte model gaan uit van dat de variantie van de scores binnen de twee
groepen gelijk zijn aan elkaar: elk van de varianties S’²j is schatter van σ , dus is beter om ze samen te
nemen (gaat betere schatting opleveren).
4
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur jenteschaerlaeken. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €7,49. Vous n'êtes lié à rien après votre achat.