Examen: 15/06
- Volledig mc, 4 alternatieve antwoorden
o 6 vragen kennis
- 12 vragen oefeningen (basisoef)
- 12 inzichtoefeningen (verdieping)
DEEL 1: Inleiding
Inleiding tot het data-analytisch proces
(proces van data naar een schriftelijk rapport)
- Gebruik van samengestelde t-procedure: 2 populaties vergelijken qua gemiddelde
- Weten of ze hetzelfde gemiddelde hebben of niet
- We gaan ervan uit dat de 2 varianties gelijk zijn
Voorbeeld
- Onderzoek motivatie en creativiteit
- Onderzoeksvraag: wat is invloed van extrinsieke of intrinsieke motivatie op creativiteit (AV)
- Procedure experiment
o 47 studenten at random ingedeeld in 2 groepen met taak om gedicht te schrijven
o Groepen verdeeld o.b.v. lijst met redenen om te schrijven te rangorden
o Beoordeeld door 12 dichters op een 40-punschaal
- Het gemiddelde hier: het gemiddelde van de creativiteitsbeoordeling
Hoger in intrinsieke groep
Is het verschil van 4 punten groot genoeg om
uit te gaan van evidentie van een significant
resultaat?
Het data-analytisch proces
Voorbereidingen
- Zijn onderzoeksvragen duidelijk? Waarover je een uitspraak wil doen?
- Evalueer proefopzet
o Experiment: participanten op toeval toegewezen aan condities
Storende factoren zijn onder controle door experiment
Causale inferenties mogelijk
Wat mag je wel en niet concluderen
In cursustekst een voorbeeld van quasi-experiment
o Controleer gegevens op fouten
Geen negatieve score, decimaal punt vergeten, hoger dan een bepaald punt
Exploratieve data-analyse (beschrijvende statistiek)
, - Gebruik tools beschrijvende statistiek om
o Vertrouwd te worden met gegevens
o Tentatief antwoord op onderzoeksvragen te zoeken
o Uitbijters te detecteren
o Interessante aspecten van gegevens aan het licht te brengen
- Boxplot maken van gegevens: zo fouten snel zien (uitbijters)
o Wat het antwoord op het onderzoek zou kunnen zijn MAAR niet doen voor je een hypothese
hebt!!
- Histogram
o Melden hoeveel je samen neemt per staaf
o Bepaald hoe je histogram eruit ziet
o Intrinsiek: meer rechts
o Extrinsiek: meer links
o Ook spreiding hier vergelijkbaar
Statische inferentie
In deel II Deel III (nu)
1. H0 en H1 formuleren (merk op: H1=Ha!) 1. Formuleer modellen en hypothesen
2. Keuze van significantieniveau α (optioneel) 2. Toetsstatistiek: keuze en waarde
3. berekenen van toetsstatistiek (merk op: 3. leid steekproevenverdeling af, bepaal p-waarde
toetsstatistiek=toetsingsgrootheid!) en (optioneel) neem een beslissing
4. bepalen van p-waarde (merk op: p-waarde= 4. bepaal effectgrootte
overschrijdingskans!)
5. beslissing (optioneel) → illustratie voor ons voorbeeld: tweezijdige t-toets
voor 2 onafhankelijke groepen, onder assumptie dat
variantie gelijk is (samengestelde t-procedure)
p-waarde beïnvloed door steekproefgrootte
Notatie: (geen X’en maar Y’en)
- Yij : score van persoon i in groep j op de AV, met j gelijk aan 1 of 2
- nj : aantal observaties in groep j
- Y j : steekproefgemiddelde in groep j
- j: zijn de 2 condities/groepen
- n: aantal per conditie (er mag verschil zijn in de 2 condities)
- Y: is SP gemiddelde, apart bereken binnen de 2 condities
STAP 1: formuleer modellen en hypothesen
Beperkt model Uitgebreid model
H0: μ1 = μ2 H1: μ1 μ2
iid iid
Y i 1 ∼ N ( μ , σ 2 ) , i=1 , … ,n 1 Y i 1 ∼ N ( μ1 , σ 2 ) , i=1 , … , n1
iid iid
Y i 2 ∼ N ( μ , σ 2 ) , i=1 , … ,n 2 2
Y i 2 ∼ N ( μ 2 , σ ),i=1, ... , n2
iid iid
2 2
Y ij =μ+ ε ij , ε ij ∼ N (0 , σ ) Y ij =μ j+ ε ij , ε ij ∼ N (0 , σ )
, Getrokken uit zelfde normale verdeling Sigma’s zijn niet verschillend
Mu’s zijn wel verschillend, weten niet waar
deze ligt, alleen dat deze ander is
- iid = independent and identically distributed
o Observaties zijn onafhankelijk en komen uit zelfde verdeling
- H1 is degene die je wil aantonen, dat de waarheid gaat zijn
- Tweezijdig (≠): deze optie is veiliger
- H0 is tegenovergestelde (µ’s zijn gelijk aan elkaar)
o We verwachten dat deze scores uit een normaal verdeling komen
o Samengestelde t-procedure gebruiken maar gelijke variantie hoeft niet perse
- Uitgebreid model: voor elke individuele score apart opschrijven
o Yij (score in bepaalde conditie) = µ (bepaalde score) + Epsilon (= voorspellingsfout)
STAP 2: toetsstatistiek: keuze en waarde
- Wat weten we over verdeling van schatter (Ȳ 2−Ȳ 1 ) over verschillende steekproeven heen
o Normaal verdeeld
o Met gemiddelde waarde 2-1
o Standaardafwijking = σ
√ 1 1
+
n1 n2
σ = onbekend, dus schatten op basis van steekproefvarianties
Makkelijk interpreteerbaar getal zodat we geen last hebben van de spreiding
Sigma (spreiding oorspronkelijke scores)
Steekproefgrootte (hoe nauwkeuriger het gemiddelde)
- Werken onder 0 hypothese (H0)
( Ȳ 2− Ȳ 1)−( μ 2−μ1 ) ( Ȳ 2−Ȳ 1)−0 2
= samengestelde schatter ( S p )
o t= =
SE( Ȳ 2−Ȳ 1 ) SE( Ȳ 2 −Ȳ 1) = Pooled estimator of variance
o Waarbij
√ √
'2 '2
(n1 −1) S 1 +(n2−1)S 2 1 1
Standaardfout: SE( Ȳ 2−Ȳ 1 )= × +
n1+ n2−2 n1 n 2
nj
1
'2
En waarbij: S j = ∑ ¿¿
n j −1 i=1
- Zie oefening dia 26 les 1
STAP 3: leid steekproevenverdeling af en bepaal p-waarde, en (optioneel) neem een beslissing
- Gegeven H0 waar is: t∼t (df= n1 + n2 - 2)
- Steekproevenverdeling = herhaalde steekproeftrekkingen
- Niet meer volledige normaal verdeling maar een t-verdeling
o Dus: vrijheidsgraden (steekproef – parameters waarin je geïnteresseerd bent)
- Vergelijk waarde van toetsstatistiek (2,92) met t-verdeling met df=45 (tabellen of SSPS)
, H0 correct = score in het witte vak t 45
H1 correct = score in het zwarte vak
0.0027 0.0027
p-waarde bekomen uit SPSS
Met tabel niet df =45, maar df= 40 -2.92 0 2.92
Tweezijdig dus met tabel nog x2 doen p = 2Pr(t45>2.92) = 0.0054
Interpretatie p-waarde
Opgelet: Wat niet zeggen over de p-waarde:
- Kans dat H0 fout is
- Hangt af van steekproefgrootte n (geen effectgrootte)
- Zeg niet: “de p-waarde is significant”
Optioneel:
- Vergelijk met α (bv. α=.05) om al dan niet te besluiten tot significantie
- Beslissing nemen (al dan niet verwerpen van H0)
- Ons voorbeeld (p= 0,0054) → we verwerpen H0
- Een kleine p-waarde zegt niet veel over hoe groot je effect is
STAP 4: Bepaal effectgrootte
¿
- 100 (1-)% BI voor verschil tussen 2 gemiddelden: ( Ȳ 2−Ȳ 1) ±t (n + n −2 ) × SE( Ȳ 2−Ȳ 1)
1 2
o = de schatter
o = kritieke t*
o = de geschatte standaardfout
- BI = het interval waar het ware verschil van de populatie zou moeten tussen vallen
o We weten dit met een bepaalde (bv. 95% zekerheid)
- Voor ons voorbeeld: als α=.05 → 95% BI
- Effectgrootte help ‘praktische significantie’ evalueren
Presentatie (formuleren van conclusie)
- Formuleer conclusie
o Geef antwoord op onderzoeksvragen
o Gebruik inhoudelijke terminologie
- Vat resultaten samen in grafiek
- Geef grenzen van bevindingen aan
Conclusie voor ons voorbeeld:
“Er is sterke evidentie dat een lagere creativiteitsscore voor een gedicht wordt behaald na het
invullen van de extrinsieke vragenlijst (M=16) in vergelijking met de intrinsieke vragenlijst (M=20),
(t(45)=2.9, p<0.01, tweezijdig). Het geschatte verschil bedraagt 4 punten op een 40-puntenschaal.
Het 95% betrouwbaarheidsinterval voor de daling in de creativiteitsscore door de extrinsieke
motivatie varieert van 1 tot 7 punten.”
- M = gemiddelde (20-16= 4 punten)
- Vat resultaten samen in grafiek