[( ) ( ) ]
n (Hoe toetsstatistiek varieert v steekproef tot steekpr.)
STATISTISCHE MODELLERING x−m1 2
y−m 2 2
1
(yest yi )2
1
x
− + 2
1 2 s1 s2 sy x = xi = 1 0 x 1
1. Eenvoudige modellen e n i1 i
2 ps1 s 2 x = opp onder =1 0<
1 discrete variabele 2. Complexe modellen
opm: |Ei|= absolute voorsp-fout |Ei|² = (yiest-yi)²
opm: b0 en b1 schatt. v β0 en β1 b0=β0 en b1=β1 x = P(T t)=x of x
opp onder grafiek v 0 tot t
X ~ Bern () 0<<1 Mengselmodellen (Dmv SPV kan men kans op voorkome v gevonde waarde stat T bep)
opm: Maar nog geen schatter (σ²) voor σ²
x(1) = P (X=1) = (succes) Som v meerdere modellen. Populatie opsplitsen III. Maximum likelihood methode dus: x*.05= a x(a)=.05 = p(X a)
x(0) = P (X=0) = 1- (geen succes) in deelpopulaties ((λ+1-λ)=1): Pm schatten zodat dat liklihood (L) v gegevens
µx = πx(x) = λπx(1) + (1-λ)πx(2) max. is: L=P(X=k| mp) I. Enumeratieve methode
φx(x) = λφx(1) + (1-λ)φx(2) Hoe? (L voor mogelijke pm-waarden berekenen. ~Alle mogelijke SP’en v omvang n
x² = (1-) = - 2
Uitgebreider, bv: (hoogste L is die waarvoor pm=X)) ~prop-functie v stat T bepalen (=kansfunctie v T)
Assumptie : iid + stationariteit
πx(x) = λ1πx(1) + λ2πx(2)+ (1-λ1- λ2) πx(3) Als X’en onafhankelijk zijn ~enkel mogelijk bij discrete TV’en.
φx,y(x,y) = λ1φx,y(1) + λ2φx,y(2)+ (1-λ1- λ2) φx,y(3) Discrete TV: L is gebaseerd op πx ~enkel mogelijk bij kleine n
Y ~ Bin (n, ) (TB. Pg7-11) n ≥ 1, k ≥ 0 - geordende SP (…) v n el MTL trekken uit
Y = totaal # successen in n beurten - L(X1, X2, Xn| modelparameter)
bv. 2 componentenmodellen: verz populatie v N el kan op Nn manieren
= kans op succes = π(X1|mp)* π(X2|mp)*… π: 0≤L≤1 - geordende SP v n el. ZTL trekken uit verz v N
X~ λN(μ1,σ21) + (1-λ)N(μ2,σ22)
n= # beurten (≠ steekproefgrootte) Continu TV: L is gebaseerd op φx φ: L ≥ 0 el kan op N! / (N-n)! manieren
( ) +( 1−λ )
2
1 x−μ 1
( )
2
1 x−μ2
− −
y(k) = P(Y=k) = (nk) k (1-)n-k(nk) = n!/[k!(n-k)!] 1 2 σ1 1 2 σ2 - L(X1, X2, Xn| modelparameter) - ongeordende SP {…} v. n el. MTL (op ZTW)
φ x ( x )=λ e e
µy = n (Bern() = Bin(1,)) √2 π σ 1 √2 π σ 2 = φ(X1|mp)* φ(X2|mp)*… trekken uit verz v N el geen formule!
Opm1: duidt familie v modellen aan ~Zelfde regels voor kans als liklihood - ongeordende SP van n el ZTL trekken uit verz v
y² = n(1-)
Opm2: Als =0 dan wordt model normaal model ~Als L na veel vermenigvuldigen te klein wordt N el. kan op N! / n!(N-n)! manieren (Nn)
Assumptie : iid
(door n= groot), dan ‘ln’ v/d L nemen
Opm: Bij prop successen (θ onbekend): II. Deductieve methode
Regressiemodellen ~Als meerdere schatters voor 1 pm mogelijk zijn,
Kansmassafunctie voor prop y/n successen in SPV wordt bepaald via wiskundige afleiding
Bivariate geg. (X,Y) of multiv. geg. (X1,X2,.., Y) gebruik die dat hoogste L-waarde uitkomt.
n beurten. Er geldt dat als Y~Bin(n,θ): ~Model met >1 pm: max.L-schatter voor alle Exacte beschrijving
1 var. voorspellen obv 1 of meer andere var.
μy/n = 1/n E[Y] = θ pm’s tegelijk= combinatie pm’s met grootste L Alle verdelingen
x= predictor y= criterium (y voorspellen obv x)
σ²y/n =(1/n²)σ²Y = θ(1-θ)/n ~X ~ U(a,b): L= (1/(b-a))n MTL (uit N= eindig (groot) of ZTL uit N=∞):
YX=xj ~ N(β0 + β1xj, σ²)
s2x
Lmax⇔(a,b)= kleinst mogelijk interval dat alle E [ X ] =m x
( )
2
1 y−(β 0+ β1 x j ) s 2x=
Z ~ Geo (θ) k>0 1 −
2 s SP-elementen omvat: a=Xmin ; b=Xmax
n
Z = wachttijd, # beurten tot 1e succes j y|x =x ( y )= e * voor alle continu TV is N=∞
j
√2 p s
= P(succes) per beurt/dag β0 =basisniveau Y 2. Keuze van toetsstatistieken *N↑⇒
s x ↑; n ↑ ⇒ s x ↓
opm : 0 is geen mogelijke waarde β1 =gevoeligh. X (=richtingscoëfficiënt, als ↑ dan steiler) Zoeken naar globale houdbaarheid v model in zijn geheel ZTL (uit N = eindig (kleiner dan 30))
z(k) = P(Z=k) = (1-)k-1 σ =fluctuatie v Y door toevalsfactoren of v bepaalde specifieke veronderstelling s 2 N −n
µz = 1/ j ~ taakafhankelijkheid
k ~ individu-afhankelijkheid
I. Algemene goodness-of-fit toetsstatistieken
Absolute goodness of fit
E [ X ] =m x s 2x= x
n N −1 ( )
z² = (1-) / ² *Als N zeer groot is tov n ⇒ σx² ≈ σx²/n
i ~ anders voor elke observatie/situatie Houdbaarheid v 1 model nagaan:
Assumptie : iid
Enkelvoudig lineair 1 predictor 1. parameterschatting (beste keuze v. pm) *N↑⇒
s x ↑ ; n↑ ⇒ s x ↓
opm: # beurten tem r-de succes:
Yi= β0 + β1xi + Ei met Ei ~ iid N (0, σ²) Normaalverdeling
μy=(rμy)=r/θ σy²=(rσy²)=r((1-θ)/θ2)
Als X ~ N(x, x²) dan X ~ N(x, x²/n)
# parameters: β0, β1 ,σ
X ~ Poisson (λ) (TB. Pg12-13) >0, k ≥0 (als Y= aX + b dan Y~N(aµx+b, a²²x))
Geg bep X is Y-score norm verd met =² en
X = totaal # successen in continu medium (Naar predictor toe (x) zijn er geen voorwaarde dus x moet Beperking SPV v X : SPV hangt mee af v σx,
=verwacht # succes per tijds-/ruimte-interval niet norm. verdeeld zijn) dus:
x(k) = P(X=k) = ( k/ k!)e-λ P(X=0)= e-λ Meervoudig: >1 predictor -Als x onbekend; Tx formule (TB pg 5)
µx= Yi= β0 + β1x1i + β2x2i + Ei met Ei ~ iid N (0, σ²) 2. waardegebied in stukken hakken -Als x bekend: ζx formule (TB pg 5)
x² = 3. Geobserv. freq bepalen (hele getallen en +) Als X~N(µx,x²) heeft T t- of student-verdeling
# parameters: β0 , β1, β2 ,σ ~met n-1 vrijheidsgraden (df)
Assumptie : iid, proportionaliteit 4. Kansmassafunctie v model ((x) berekenen met
Y hangt af v meer dan 1 X ~ Grafiek lijkt op normaalverd., belangrijkste verschil:
opm: ook gebruiken als benadering van Bin(n,θ) (als β2=0 wordt enkelv. regressiemodel)
formule v model dat men wil toetsen!)
dikkere staarten langs beide kanten
als n zeer groot (>30) en θ zeer klein is. 5. E kollom (π x spgrootte (n)) (geen heel getal) ~ Gelijkenis neemt toe naarmate # vrijheidsgraden
lim
n →¥
model met meervoudige individuen 6. Waarde v statistiek berekenen: stijgt (identiek als df = ∞)
-pearson-chi-kwadraat statistiek (X2)
q →0
Yik= β0 + β1xi + Eik met Eik ~ iid N (0, σ²)
nq→ λ
()
n
λk −λ
¿¿¿¿¿ q k (1 −q )n −k = e ¿ (Oi −Ei )2
¿
k k!
(alle indiv. zijn replicaties: geen indiv versch in β0, β1, xi) X 2 =∑ Benaderende beschrijving
----------------------------------------------------------- i Ei Gebruikt als X niet normaal verdeeld is
1 continue variabele Hiërarchisch: -X²↓ dan globale houdbaarheid model ↑ Voorbeeld 1: Centrale limietstelling (v. SPgem)
X ~ U(a,b) a<b Yik= 0 + 1kxi+Eik met 1k ~ N(µ,²) (²=σ2β1) X²↑ dan globale houdbaarheid model ↓ Als X1,….,Xn iid zijn (dus MTL of N=∞) met
genereer op toeval getal tss a en b en met Eik ~N (0, σ²) ⇒ Hoe kleiner X2, hoe dichter model bij de verwachte waarde μx en var σ²x.
gelijke kans op voorkomen exact 1 succes geobserveerde gegevens ligt (hoe beter fit) 1
binnen interval [a,b]
1k param. zijn hier individu specfiek β1k~ N(µ1,τ²1)
opm:
X n= ∑X
n i i
1k= helling v regressielijn (regressiecoeff.) (= Stel verder :
(x)= 1/(b-a) als a ≤ x ≤ b ~Bivariate gegevens X,Y onafh.: freq berekenen X n−mx
sterkte effect v X op Y =Y) VX =
=0 als anders dmv contingentietabel, dan θ schatten (analogie), n sx
Als er 2 types individuen zijn; deelpopulatie dan E(x,y) berekenen: bv. E(1,0) = n * θ1(1-θ2)
µx = (a+b)/ 2 En √n
mengselmodel voor gevoeligheden v X ~Wann ≠ categorieën samen: Ei= ∑ n*P(X=xi)
x² = (a-b)²/12 lim jV = j N ( 0,1)
vb. β1k ~ λN (μ1, τ²) + (1-λ) N (μ2, τ²) ~Continu→ intervallen → a<X<b = ϕx(b) – dan geldt: n→¥ xn
Als X~U(a,b) en [c,d] [a,b] dan:
ϕx(a) Dwz voor grote waarden van n (n>30 ) geldt:
P(c ≤ x ≤ d) = (d-c) / (b-a) Interactie-effect tss X-en: X n −μ x
Yi= 0+ 1X1i+2X2i+3X1iX2i + Ei (of) Goede toetsstatistiek om te bewijzen dat:
X ~ N(μ,σ²) σ>0 Yi= 0+ 1iX1i+2X2i+Ei met 1i = ’0 + ’1X2i ~ 2 (bern)variabelen statistisch onafhankelijk zijn
σ x/√n ~ N(0, 1) en Xn ~ N (µx ,
− ( )
2
1 x −m
1 2 s (geeft lineaire afhank. v 1i v. X2 weer) ~X~Bin beter dan op toeval (θ >.50). ²x/n)
e
x(x) = √2 p⋅s Geneste modellen = deelfamilies ( ) in pm (Als σx niet gekend: Tx formule)
µx = µ (bepaalt top)
Relatieve goodness-of-fit
=>
X n asymptotisch norm verdeeld is.
Wanneer welk model gebruiken? houdbaarheid v 2 (geneste!) modellen tov elkaar;
x²= ² (↑: breder, lagere top ↓: smaller, hogere top) 1) M0: meest beperkte model
Hoe groter n, hoe beter X-dichth. normale dichtheid ben.
Regr: bij voorsp: var niet onderling verwisselb. (centrale limietst. geldt voor alle verdelingen v X)
dus: (x) is symmetrisch en maximaal in μ Meng: bij groepen (=discrete var) * bereken max likelihoodsch. v pm (als nodig) Opm: als Xniid~Bern(θ) dan geldt er asymptotisch
KEUZE VAN STATISTIEKEN * bereken likelihood v/d gegevens onder M0 dat Xn~ N[θ, (θ(1-θ))/n] (prop. successen in reeks
Standaardnormaalmodel:Y ~ N(0,1) (TB.14-15) (geeft aan hoe goed model uit M0 bij gegevens past) onafh. bern trails is asympt. normaal verdeeld.)
Statistiek: vast recept dat toelaat om uit elke
y = (x-µ) / (z-transformatie) steekproef van gegevens 1 getal te bekomen.
2) M1: algemene model (groter model) Benadering is beter naarmate θ dichter bij ½ ligt
als Y= aX + b dan Y~N(aµx+b, a²²x) vragen beantw. ivm parametersch. en hypothesetoets. * bereken max likelihoodschatter
* bereken likelihood v/d gegevens onder M1 Voorbeeld 2: Absolute goodness of fit
(geeft aan hoe goed model uit M1 bij gegevens past) Als T de X2 statistiek, gebaseerd is op n onafhankelijke
T ~ Expon () Extra: autocorrelatie: T(ω1,…,ωn)= rXi Xi+1
(Correlatie tss waarnemingen en daaropvolgende waarn.) check: LM0 ≤ LM1 (M1 altijd even goed/beter doen) observaties v 1 of meer TV waarvan waardenbereik is
T = # tijdeenheden (tijd/afst) tot 1e succ
3) Bereken statistiek: LR= LM0 / LM1 (Altijd ≤1) opgedeeld in l categorieen en als ∀i : Ei > 0, dan is
= verwacht # succ per (tijd/ruimte)eenheid 1. Keuze van schatters (^) *LR dicht bij 1: beide mod. passen even goed lim j T = j
(µ = gem wachttijd tot 1ste succes) = statistiek die waarde v/d parameter schat *LR <<1: Algemeen model past beter n→¥ X 2 ( df =l−1−k )
-(t)= e-λt als t 0 (nooit om kans te berekenen) I. Analogiemethode *LR=1 best passende model uit M1 even goed past
(Schatter analoog def aan populatiepar. Door kans/dichtf.
k= # parameters geschat, l = # categorieen
=0 als t < 0 (tijd kan niet negatief zijn) als best model uit deel v M1 dat M0 heet
te vervangen door prop) (LR= liklihoodratio) Voorwaarde voor X2~X2df=l-1-k (TB.24)
-ФT (t) =P(X≤ t) =1 – e –λt (Om kans te berekenen) *n moet groot zijn
µt = 1/ x is analoge schatter voor μx 4) Bereken statistiek -2ln(LR)
*dicht bij 0: beide model. passen even goed *Ei’s moeten duidelijk verschill. v 0 (Ei>5)
²t = 1/ ² (t =µt) -μx=xi (xi) x =xi p(xi) =1/n xi *veel groter dan 0: algemene model past beter => X2 is asymptotisch chi-kwadraat verdeeld
Assumptie : iid, proportionaliteit Sx2 is analoge schatter voor σx2 (geen zuivere) *LR =1 :-2 ln (LR) ≈ 0 (Hoe meer vrijheidsgr, hoe beter X2 dichth norm verd. is)
----------------------------------------------------------- ⇒ uitbreiding naar M1 levert geen winst opm: Grote waarde X2 verdacht rechterstaart
-Sx² = 1/n (xi-x)² x² = (xj-µx)²(xj)
Meerdere variabelen * LR << 1 : -2 ln (LR) >> 0 Voorbeeld 3: Relatieve goodness-of-fit
x²=(xj-x)²p(xj)=1/n(xj-x)²freq(xj) ⇒ uitbreiding naar M1 levert wel winst
Statistische afhankelijkheid Relatieve goodness of fit v 2 geneste fam v mod. M0
rxy is analoge schatter voor xy bv. Model 1=M0: X~N(0,σ²) Model 2=M1: X~N(μ,σ²) M1, afwegen waarbij M1 als parameters (θ1 ... θk)
x,y(x,y)= XY=y(x)* Y(y)= YX=x(y)* X(x) -rxy = sxy /(sxsy) xy = xy/(xy) heeft en M0 neerkomt op hypothese θ1= c1, θ2=
x,y(x,y)= XY=y(x)* Y(y)= YX=x(y)* X(x) E[X2]= (xj)2(xj) = (xj)2p(xj) II. Specifieke toetsstatistieken c2, ...θr= cr, dan geldt (als M0 waar is):
bv. Afhankelijk bivar. normaalmodel ((x,y)= Specifieke modelveronderstellingen toetsen lim j−2 ln( LR ) =lim j = j X 2( df =r )
Y= f(x) E[Y]= f(xj) (xj) LM0
[( ) ( ) ]
2 2
1 x−μ1 y−μ2 2 ρ(x −μ 1 )( y−μ 2 ) *Nieuwe statistieken: bv. Autocorrelatie: = rxi xi+1 n→¥ n→¥ −2 ln( )
− + − LM1
1 2(1− ρ2 ) σ1 σ2 σ1 σ2 -Bv. Ook zelf maken: T= R(Sx)y
e II. Kleinste kwadratenmethode * Standaardstatistieken (zie TB. 1-4) r= # pm’s in M1 vastzetten om M0 te bekomen
2 πσ 1 σ 2 (1−ρ 2 ) Optimaal lineaire voorspelling uitvoeren: => 2ln(LR) is asympt Chi-kwadraat verdeeld
Statistisch onafhankelijk (correlatie=0) yiest = b0+b1xi met b1 = rxy(sy/sx) ZRM: a (Hoe meer vrijheidsgr, hoe beter χ²-dichth. norm verd. is)
BEPALEN V STEEKP.-VERDELING V STAT.
x,y(x,y)=X(x)*Y(y) b0 = y – b1x ZRM: b Opm: P(-2ln(LR)≥ a)= verdacht klein/grote kans,
1. Methoden om een SPV te bepalen dan M0 verwerpen. Grote waarde v -2ln(LR)
x,y(x,y)=X(x)*Y(y) Zodat gekwadrateerde standaardfout min. is:
SVP: kansmassa- of dichth-functie v/e statistiek wijst op evidentie tegen H0 rechterstaart
bv. Onafhankelijk bivar. normaalmodel ((x,y)=