STATISTICS FOR EDUCATIONAL SCIENTISTS
HOOFDSTUK 1 - ILLUSTRATIE DATA-ANALYTISCHE PROCES
FLOWCHART VAN HET DATA-ANALYTISCHE PROCES
1. Voorbereidingen
Is de onderzoeksvraag duidelijk?
Evalueer de proefopzet
Controleer gegevens op fouten
(vb. decimaal punt vergeten, score hoger dan 40…)
2. Exploratieve data-analyse
Gebruik tools van beschrijvende statistiek om
Vertrouwd te worden met gegevens
Tentatief antwoord op onderzoeksvraag te zoeken
Uitschieters te detecteren
Interessante aspecten van gegevens aan het licht te brengen
3. Statistische inferentie
1)Formuleer modellen en hypothesen
2)Toetsstatistiek: keuze en waarde
3)Leid steekproevenverdeling af, bepaal p-waarde en neem een beslissing
4)Bepaal de effectgrootte
Notatie
Yij: score van persoon i in groep j op de AV, met j gelijk aan 1 of 2
nj: aantal observaties in groep j
Y j: steekproefgemiddelde in groep j
4. Presentatie
Formuleer de conclusie
- Geef antwoord op onderzoeksvragen
- Gebruik inhoudelijke terminologie
Vat resultaten samen in een grafiek
Geef grenzen van bevindingen aan
5. Opmerking: in realiteit data-analytisch proces vaak ingewikkelder, vb. bij modellen horen
bepaalde assumpties (zoals normaal verdeeld, varianties gelijk) die soms niet opgaan
1
,STAPPENPLAN STATISTISCHE INFERENTIE
Formuleer modellen en hypothesen (1)
H0: μ1 = μ2 versus H1: μ1 μ2 Opgelet: uitgebreid
model komt neer op een
Beperkt model Uitgebreid model beperkt model als μ1 =
μ2
Yi1 iid N(μ,σ2), i = 1,…,n1 Yi1 N(μ
iid 1,σ ), i = 1,…,n1
2 iid = independent and
identically distributed:
Yi2iid N(μ,σ2), i = 1,…,n2 Yi2 N(μ2,σ2), i = 1,…,n2
iid
observaties zijn
onafhankelijk en komen
uit dezelfde verdeling
Yij = μ + Ɛij,iidƐij N(0,σ2) Yij = μj + Ɛij, Ɛij iidN(0,σ2)
Toetsstatistiek: keuze en waarde (2)
Eigenschappen van de verdeling van schatter Y 2 - Y 1 over verschillende steekproeven heen
Normaal verdeeld
Met gemiddelde waarde μ2 – μ1
En standaardafwijking
steekproefvarianties
√
σ 1
+
1
n1 n2
onbekend, dus schatten o.b.v.
( Y 2−Y 1 )−( μ 2−μ 1) ( Y onder
2−Y 1 )−0 Formularium:
t= = H0
SE(Y 2−Y 1) SE (Y 2−Y 1)
waarbij: SE(Y 2−Y 1) =
standaardfo √ n 1+n 2−2
samengestelde schatter
S2p
√
( n1−1 ) S'12 + ( n 2−1 ) S '22 x 1 1
+
n1 n2
nj
1
En waarbij: S’j2 = ∑ ( Y −Y j )2
nj−1 i=1 ij
(j = 1,2)
Leid steekproefverdeling af en bepaal p-waarde, en neem een beslissing (3)
Gegeven H0 is waar: t tdf = n1 + n2 - 2
Een steekproevenverdeling zij herhaalde steekproeftrekkingen
Bepaal p-waarde: vergelijk waarde van toetsstatistiek met t-verdeling met df
Beslissing (optioneel):
Vergelijk met α om al dan niet te besluiten tot significantie
Beslissing nemen (al dan niet verwerpen van H0)
Bepaal effectgrootte (4)
De effectgrootte helpt “praktische significantie” evalueren
100(1- α )% BI voor verschil tussen twee gemiddelden: (Y 2 - Y 1) t*(n1 + n2 – 2) x SE(Y 2 - Y 1)
kritieke
2
,HOOFDSTUK 2 - VARIANTIE-ANALYSE MET ÉÉN FACTOR
NOTATIE EN VOORSTELLING VAN DE GEGEVENS
Notatie
Yij: score van persoon i in groep j op de AV
nj: aantal observaties in groep j
N: totaal aantal observaties
a: aantal groepen
Y j: steekproefgemiddelde in groep j
Y : globale steekproefgemiddelde
Abstracte voorstelling van de gegevens
Tabelvorm
Participant-dataset: meestal gebruik in software
EXPLORATIEVE DATA-ANALYSE
Kengetallen per conditie
Y 1 = 35.4 Y 2 = 33.6 Y 3 = 25.6 Y 4 = 23.3
S’1 = 7.81 S’2 = 9.45 S’3 = 6.5 S’4 = 5.5
n1 = 11 n2 = 10 n3 = 13 n4 = 12
Kengetallen voor de volledige dataset
Y = 29.1
S’Y = 8.76
N = 46
STATISTISCHE INFERENTIE
Formuleer H0: μ1 = μ2 = … = μa
modellen en Beperkt model: Yij = μ + Ɛiidij, Ɛij N(0,σ2)
hypothesen
H1: er is ergens een verschil
Uitgebreid model: Yij = μj + iid
Ɛij, Ɛij N(0,σ2)
Toetsstatistiek: Vergelijken van adequaatheid van beide modellen
keuze en Hoe gaan we relatieve adequaatheid van beperkt en uitgebreid model na?
waarde Twee aspecten zijn van belang
1. Fit: hoe goed passen de modellen bij de gegevens?
Kleinste kwadratenschatters voor μ parameters van beide modellen
a nj
Beperkt model: zoek μ zodat ∑ ∑ ¿ ¿ ¿Y ij – μ)2 minimaal is ^μ = Y
j=1 i=1
a nj
Uitgebreid model: zoek μ1,…, μa zodat ∑ ∑ ¿ ¿ ¿Y ij – μj)2 minimaal is ^μj = Y
j=1 i=1
Levert samenvattende maat op voor fit van beide modellen, gebaseerd op
grootte van voorspellingsfouten of residuen: ‘errorkwadratensom’
a nj
SSErrorBeperkt = ∑ ∑ ¿ ¿ ¿Y ij – Y )2 = SSTotaal = (N – 1). SY’2
j=1 i=1
a nj a
SSErrorUitgebreid = ∑ ∑ ¿ ¿ ¿Yij – Y j)2 = ∑ ¿¿ nj – 1). Sj’2
j=1 i=1 j=1
3
, SSErrorBeperkt ≥ SSErrorUitgebreid
2. Complexiteit van beide modellen
# vrijheidsgraden = # observaties - # geschatte parameters in het model
Eenvoudiger/beperkter model heeft meer vrijheidsgraden
a
dfBeperkt = ∑n–1=N–1 j μ
j=1
a
dfUitgebreid = ∑n–a=N–a j μ1,…, μa
j=1
F-statistiek:
SS Error /Beperkt −SS Error /Uitgebreid a
df Beperkt −df Uitgebreid
= SSEffect = ∑ n (Y j j - Y )2
j=1
F=
SS Error /Uitgebreid
df Uitgebreid
SS Effect
iid
a−1 MS Effect schatter voor σ 2 Ɛij N(0,σ2)
F= =
SS Error /Uitgebreid MS Error /Uitgebreid
N −a
MS Effect a Variabiliteit tussen groepen
F=
MS Error /Uitgebreid
= ∑ nj¿ ¿ ¿ ¿ foutenvariabiliteit
systematische variabiliteit ten gevolge van variatie in OV
j=1 Variabiliteit binnen groepen
foutenvariabiliteit
Leid
steekproeven-
verdeling af
Bepaal
4