STATISTIEK VOOR PSYCHOLOGEN DEEL 2
Inductieve statistiek: inferenties maken vanuit de gegevens (de steekproef) over eigenschappen van een populatie.
Het inductieve statistische proces bestaat uit de volgende 5 stappen:
1) STATISTISCH MODEL KIEZEN
2) KEUZE VAN (EEN) STATISTIEK(EN)
3) BEPALEN VD STEEKPROEVENVERDELING VD STATISTIEK(EN)
4) PARAMETERSCHATTING
of
5) HYPOTHESETOETSING
1) STATISTISCH MODEL KIEZEN
Eenvoudige modellen:
• Voor 1 discrete variabele:
BERNOULLI model
(Bernoulli-)toevalsvariabele X met twee mogelijke uitkomsten:
X (succes) = 1
X (mislukking) = 0
X ~ Bern (θ) (0 < θ < 1) θ = P(succes) in 1 TE
πx (1) = P(X=1) = θ ja / succes
πx (0) = P(X=0) =1– θ nee / mislukking
µx = θ en σx² = θ(1– θ) = θ – θ²
Bij n herhalingen van een Bernoulli-experiment: Xi iid (independent and identically distributed)
Bij de veronderstelling ∀ Xi’s ~ Bern(θ) geldt:
(1) eenzelfde waarde voor θ (stationariteit) → θ = P(succes) is constant
(2) en alle Xi’s zijn mutueel statistisch onafhankelijk
BINOMIAAL model
Toevalsvariabele Y:
# successen
in n beurten (Bern-exp)
discrete variabele
Y ~ Bin ( n , θ) (n ∈ N, n ≥ 1; θ ∈ ]0,1[ ) n = aantal beurten θ = P(succes) in 1 TE n ≥ 1
πy (k) = P(Y=k) = n! / [ k! (n-k)! ] θk (1– θ)n–k
µy = nθ en σy² = nθ(1– θ)
Bern(θ) = Bin( 1, θ)
GEOMETRISCH model
Toevalsvariabele Z:
wachttijd tot (het eerste) succes
in n beurten/dagen (uitgedrukt)
discrete variabele
Z ~ Geo (θ) ( 0 < θ < 1) θ = P(succes) per beurt/dag
πz (k) = P(Z=k) = (1–θ)k–1 θ met k = 1,2,3,… k ≥ 1
1 1−𝜃
µz = en σz² =
𝜃 𝜃2
Indien # beurten t.e.m. rde (bv. 2de, 3de, 4de,…) succes = Y dan:
𝑟
Y = X1 + … + Xr met Xi ~ Geo(θ) , µy = en σy² = r σx²
𝜃
POISSON model (Siméon Denis Poisson)
Toevalsvariabele X:
# successen
in een continu medium (bv. tijdspanne, oppervlakte,…)
discrete variabele + als benadering van Bin( n, θ ) wanneer n > 30 en θ heel klein
X ~ Poisson (λ) (λ > 0) λ = (verwacht) # succes per tijds- of ruimte-interval
𝜆𝑘
πx (k) = P(X=k) = ⅇ−𝜆
𝑘!
µx = λ en σx² = λ λ = nθ
,• Voor 1 continue variabele:
UNIFORM model
Toevalsvariabele X is uniform verdeeld op [ a , b ] met a , b ∈ ℝ en a < b als elke waarde van X binnen interval [ a , b ] een
gelijke kans heeft om voor te komen:
ϕX
X ~ U ( a , b) (a , b ∈ ℝ ; a < b)
1
ϕX (x) = voor a x b
𝑏−𝑎
0 anders
𝑎+𝑏 (𝑎−𝑏)2
µX = en σX² =
2 12
𝑑−𝑐
als X ~ U ( a , b) en [ c , d ] [ a , b ] dan P(c x d) =
𝑏−𝑎
NORMAAL model (meest gebruikt)
Toevalsvariabele X is normaal verdeeld:
X ~ N ( µ , σ²) (σ > 0) (x ∈ ℝ)
1 1 𝑥−𝜇 2
𝑒 – 2( )
ϕX (x) = P(X=x) = 𝜎
√2π
µx = µ en σx² = σ2
! Bijzonder lid van deze familie:
STANDAARDNORMAAL model
Y ~ N ( 0 , 1)
µx = 0 en σx² = 1
Y(yi) = P(Y yi)
• P( a < X < b | X ~ N (µ, σ²)) = P( ζx(a) < ζx < ζx(b) ) = [ (ζx(b)) – (ζx(a)) ] → tabellenboekje
• P( X < a) = 0.90 (X = a) = 0.90 a = X.90 = .90-kwantiel van stand.norm.verd Z-score van a
Lineaire transformatie:
Als Y= aX + b , dan Y ~ N ( aµ + b , a² σ²) als X norm.verd., dan lineaire transformatie Y ook norm.verd.
1 −𝜇𝑥
a= ; b= x = Z–1(z) = µx + zσx
𝜎𝑥 𝜎𝑥
EXPONENTIEEL model
Toevalsvariabele T:
wachttijd (in intervaleenheden) tot (het eerste) succes
in een continu medium
continue variabele
T ~ Expon (λ) λ = (verwacht) # succes per eenheid
ϕT (t) = λ * e–λt als t ≥ 0
0 als t < 0
1 1 𝟏
µT = en σT² = 2 µ = gem wachttijd tot 1ste succes σT = = µT
𝜆 𝜆 𝝀
T (t) = P(T t) = 1 – e–λt als t ≥ 0 ea = 0.5 a = ln (0.5)
0 als t < 0
# successen wachttijd tot 1ste succes
discreet medium Bin(dTV) Geo(dTV)
(quasi-)continu medium Poisson(dTV) Expon(cTV)
,• Voor meerdere variabelen: Notaties:
2 toevalsvariabelen X en Y → bivariate gegevens: X ~ Bin(n, θ1) , Y ~ Bin(n, θ2)
→ Mogelijkheden: X ~ Geo(θ1) , Y ~ Geo(θ2)
o X en Y discreet
X ~ Poisson(λ1) , Y ~ Poisson(λ2)
o X en Y continu
X ~ U(a, b) , Y ~ U(c, d)
o (X discreet en Y continu)
T ~ Expon(λ1) , W ~ Expon(λ2)
→ Statistisch model:
X ~ N( µ1 , σ²1), Y ~ N( µ2 , σ²2)
o Discreet:
πX,Y (x, y) = P ( { | (X,Y)() = (x, y) } ) = gezamenlijke kansmassafunctie
o Continu:
ϕX,Y (x, y) = P ( a x b en c x d ) = gezamenlijke dichtheidsfunctie
→ Soms beperkt men zich tot het formuleren van een conditioneel model:
o Discreet:
πX,Y (x, y) = π X| Y= yj (x) * πY (yj) = π Y| X= xj (y) * πX (xj) = conditionele kansmassafunctie
o Continu:
ϕX,Y (x, y) = ϕX| Y= yj (x) * ϕY (yj) =ϕY| X= xj (y) * ϕX (xj) = conditionele dichtheidsfunctie
→ Bijzonder geval: Als X en Y statistisch onafhankelijk:
o Discreet:
πX,Y (x, y) = π X (x) * πY (y)
o Continu:
ϕX,Y (x, y) = ϕX (x) * ϕY (y)
o Cumulatieve verdelingsfunctie:
X,Y (x, y) = P ( { | X() x en Y() y } )
X,Y (x, y) = X (xj) * Y (yj ’)
→ Dus twee opties:
o Een onafhankelijk bivariaat normaalmodel:
−1
1 (𝜁𝑥 )2
ϕX (x) = ⋅𝑒 2 onafhankelijk
√2𝜋⋅𝜎
−1 2
1 (𝜁𝑦 )
ϕY (y) = ⋅𝑒 2
√2𝜋⋅𝜎
en omdat ϕX,Y (x, y) = ϕX (x) * ϕY (y)
−1
1 [(𝜁𝑥 )2 +(𝜁𝑦 )2 ]
daarom ϕX,Y (x, y) = 2⋅𝜋∙𝜎 ⋅𝑒 2
1 ∙𝜎2
met X ~ N (µ1, σ²1) en Y ~ N (µ2, σ²2) en X, Y onafhankelijk
o Een afhankelijk bivariaat normaalmodel:
Hierbij is de correlatie niet 0 ( XY 0 )
−1 2𝜌∙(𝑥−µ1 )∙(𝑦−µ2 )
1 [(𝜁𝑥 )2 +(𝜁𝑦 )2 − ]
ϕX,Y (x, y) = 2⋅𝜋∙𝜎 2)
⋅𝑒 2(1−𝜌)2 𝜎1 ∙𝜎2
1 ∙𝜎2 (1−𝜌
Hierbij is de correlatie XY
Men kan dit noteren als: (X, Y) ~ N ( µ1, µ2 ; σ²1 , σ²2 , ) ! andere notatie
De conditionele verdeling van Y hangt af van X
afhankelijk
, Complexe modellen:
• MENGSEL modellen:
o Totale populatie = som van meerdere deelpopulaties m.b.t. 1 variabele (niet bivariaat!!)
o 3 criteria:
1. Onderzoekseenheden behoren tot verschillende deelpopulaties
2. Geen kennis over wie tot welke groep behoort (latent lidmaatschap)
3. Subpopulaties vertonen geen overlap
o πX (x) of ϕX (x) voor totale groep = optelling deelgroepen
MAAR: Gewichten toekennen!
▪ Naargelang de grootte van de deelgroepen
▪ Die grootte duiden we aan met de parameters λ en λ’
met λ + λ’ = 1
Bv: Bij normaalverdeling:
X ~ λ N (µ1, σ²1) + (1 – λ) N (µ2, σ²2)
of ϕX = λ ϕX(1) + (1 – λ) ϕ X (2)
−1 2 −1
1 (𝜁 ) 1 (𝜁𝑥 )2
ϕX (x) = λ 2 ⋅ 𝑒 2 𝑥 + (1 – λ) 2 ⋅𝑒 2
√2𝜋⋅𝜎 √2𝜋⋅𝜎2
1
𝑥 – µ1 𝑥 – µ2
met x = en x =
𝜎12 𝜎22
o Als λ = 0 dan wordt dit een gewoon normaalmodel
Dus: de familie van de normaalmodellen is een deelfamilie van een mengselmodel waarvan de componentmodellen
normaal verdeeld zijn.
Gewoon model mengselmodel
o Men kan ook meer dan twee componentmodellen hebben
Bv: πX = λ1 π X (1) + λ2 π X (2) + (1 – λ1 – λ2) π X (3)
o Men kan ook mengselmodellen hebben met meerdere variabelen (= multivariate mengselmodellen)
Bv: πX,Y = λ1 π X,Y (1) + λ2 π X,Y (2) + (1 – λ1 – λ2) π X,Y (3)
• REGRESSIE modellen:
Enkelvoudig lineair regressiemodel:
o Twee toevalsvariabelen X en Y met een correlatie ertussen
Bivariate gegevens: (x1, y1) , (x2, y2) , … , (xn, yn)
Bv: X: hoe frustrerend een situatie is voor ons individu
Y: de mate van agressie in de situatie van ons individu
o We kunnen (y1, y2, …, yn) opvatten als realisaties van de statistisch onafhankelijke toevalsvariabelen Y 1, Y2, …, Yn
o Maar we nemen niet aan dat deze toevalsvariabelen identiek verdeeld zijn
ϕY1 (1) ϕY2 (1) … ϕYn (1) want plausibel dat hoe frustrerender situatie, hoe meer agressief gedrag
o Er is een correlatie XY tussen X en Y X = predictor ; Y = criterium
Als XY positief : de verwachte waarde van Yi is groter naarmate x i groter is
Als XY negatief : de verwachte waarde van Yi is kleiner naarmate x i groter is (of omgekeerd)
o In het geval van positieve correlatie: 𝑌|𝑋=𝑥𝑗 ~ 𝑁 (𝛽0 + 𝛽1 𝑥𝑗 , 𝜎 2 )
−1 ( 𝑦 − 𝛽0 + 𝛽1 𝑥𝑗 ) 2
1 [ ]
met ϕY|X = xj (y) = ⋅𝑒 2 𝜎
√2𝜋 𝜎
3 parameters: 0 , 1 , = conditioneel model van het criterium, gegeven een bepaalde predictor-waarde ;
doet enkel uitspraken over conditionele verdeling YX, niet over bivariate verdeling!!
Andere notatie: Yi = 0 + 1 x i + E i met E i iid ~ N ( 0, 2 )
0 = intercept = snijpunt met de y-as = basisniveau van Y
1 = richtingscoëfficiënt = stijging in Yi per eenheid omhoog in X i = “gevoeligheid”
E i’s = (niet rechtstreeks geobserveerde) foutenvariabelen
= stukje Yi dat je niet kan modelleren als je X i kent
= mate waarin Y fluctueert ten gevolge van toevalsfactoren