Statistiek II met zoomgroepen en WC’s
Examen
Multiple choice met verhoogde cesuur, men moet tenminste 13/21 halen (dus altijd gokken indien men niet zeker is).
Theorie staat op 2/3 v/d punten. 7 theorievragen, 7 theorie interpretatie vragen, 7 toepassingsvragen (zoomgroepen).
Steeds 2 uitdiepingsvragen per onderdeel. SPSS/STATA examen 1/3 e v/d punten.
H1: Van probleem naar Analyse
Analyse technieken zijn verschillend in enkele domeinen: niet altijd een dependente of afhankelijk variabele i waar we
een effect op willen verklaren maar soms een groep van associaties waarmee men schalen kan opstellen in een
afhankelijke variabele (factor analyse & PCA: d.i. een niet dependente techniek. Zien we helemaal op het einde).
Afhankelijk van het meetniveau (continue, ordinaal, dummy) van de variabelen gebruiken we meestal een andere
meettechniek.
Keuze van multivariate analysetechniek is ook afhankelijk van al dan niet een probleemkenmerk (= de variabele) of
probleemrelatie (correlatie tussen afh en onafh variabele of magnitude van een coëfficiënt in een regressie.)
1. Types variabelen
Rechthoekje betekent manifest variabele (variabele waarvoor de waarnemingen meteen gemeten of waargenomen
kunnen worden). De manifeste variabele kan worden opgedeeld in een continue variabele (rechthoekje), dummy of
categorische variabele van nominale of ordinale meetniveau (rechthoekje met streepje(s) door). Een ordinale of
nominale variabele met 3 of meer categorieën wordt ook wel een polytome variabele geheten. Een cirkel duidt op
een latente variabele (eigen opgestelde schaalvariabele die opgesteld wordt uit manifeste variabelen a.d.h.v eigen
gekozen gewichten. Komt vaak voor in de psychologie bv een schaal om te meten of iemand als psychopathisch kan
worden beschouwd).
2. Types samenhang
Een dependente techniek (i.e. we hebben een afhankelijke variabele waar we een effect op willen meten) spreken we
van een assymetrische samenhang (een pijl van één variabele naar de ander). Indien we niet geïnteresseerd zijn in
een outcome variabele spreken we van een symmetrische samenhang.
Een lineair effect betekent een incrementele verandering (bv een jaar meer gestudeerd) heeft steeds dezelfde
verandering op de afhankelijke variabele (bv inkomen:) d.w.z. steeds een gemiddeld effect. Indien men een jaar langer
studeert heeft men gemiddeld €1000 meer inkomen per jaar.
Bij een niet-lineaire samenhang (bv een kwadratisch verband) krijgt men een pijl met een krul.
Een causale relatie hangt steeds af of het onderzoeksdesign observationele data gebruikt (bijna ongmogelijk om
causaliteit te bevestigen) of een experiment (beter mogelijk).
Een interactie-effect (interactieterm) noteert men met een “gevorkte pijl”.
Fasen in sociaal-wet onderzoek: probleemstelling => onderzoeksdesign (kiezen experiment of obs data) => data
verzameling (indien experiment vooral) => analyse => rapportage.
3. Types probleemstelling
Een causale structuur bewijzen is zeer moeilijk bij observationele data (bijna verplicht gebruik van instrumental
variabeles, niet voor dit vak) maar wel makkelijker met experiment. Zo bv het STAR-experiment dat het effect van
klasgrootte op leesvaardigheid van kleuters onderzocht. Dit was een echt experiment i.e. experimenteel design (geen
obs data) waar men 12.000 kleuters met random selectie toewees in 3 klassen van verschillen groottes. Er werd
afgesteld op leeftijd en SES: de kleuters hadden allemaal dezelfde leeftijd en de families nagenoeg dezelfde
economische middelen. Echter vielen wel data weg omdat sommige families van regio veranderden (wat causatie
vermoeilijkt). Ook werd bij de grote klastype afgesteld op mate van ondersteuning van de leerkracht (part-time vs
voltijds) en een heleboel andere dummy variabelen (ras, freelunch etc). De free lunch is dan nog een extra afstelling
op SES want als men geen lunch kan betalen ben je nog een pak armer dan de doorsnee familie in de studie.
i
De afhankelijk variabele is de variabele waar we het effect in willen zien (typisch bij regressieanalyse). Bv de groei van een plant als
afhankelijk variabele met volgende onafhankelijke variabelen: hoeveelheid licht, temperatuur van de lucht, vochtigheid van de lucht
etc. We willen een effect zien in de plantgroei. Niet: plantengroei op de hoeveelheid licht, dat houdt geen steek.
Bv indien men in een studie het effect van lichaamsoefening op de moed wil bestuderen kan een antecedente variabele het weer zijn
die zowel het de hoeveelheid lichaamsoefeningen als de moed kunnen beïnvloeden.
1
, Klasgrootte is verantwoordelijk voor een 0.5% hoger resultaat (Stanford SAT score) voor kleine klassen. Kleuters van
families die hun lunch niet konden betalen heeft echter een veel grotere impact dan klasgrootte. Bij een onafhankelijk
causaal effect van een onafh variabele op afhankelijke variabele spreekt men van exogene variatie.
Bij observationele data spreekt men dus bijna altijd van een associatie en geen causatie bv samenhang al dan niet
beroepsactief zijn en overgewicht (bv door enquête te nemen van mensen op straat of het gebruik van data van bv
StatBel). Gepensioneerden werken nl. niet en zijn minder gezond wat niet opgenomen wordt. Er is dus zeer vaak
sprake van schijnbare causaliteitii. Natuurlijk spreekt men bij observationele data (wat we altijd gaan gebruiken in
deze cursus) nooit van causaliteit, dus het is een beetje een slecht gekozen term. Schijnbare causaliteit kan men
detecteren door een gepaste onafhankelijke variabele toe te voegen. Indien de originele variabele meteen
insignificant wordt (bv door toevoeging van “seizoen” is er sprake van schijnbare causaliteit.
Er kan ook sprake zijn van indirecte causaliteit bv we observeren een kenmerk (afhankelijke variabele) objectieve
bestaansonzekerheid (gebaseerd op 40% mediaan inkomen). Deze lijkt lager te zijn in Wallonië dan in Vlaanderen.
Echter wanneer men afstelt op variabele beroepsactiviteit van het gezinshoofd (intermediaire of tussenliggende
variabele) zijn er twee effecten (twee pijlen) die spelen die het originele
effect mediëren. Dan is er sprake van “indirecte causaliteit” (geen echte
causaliteit natuurlijk).
Supressie van samenhang. Men heeft een relatie waarvan men een samenhang verwacht maar die er niet is. Door
een gepaste andere variabele toe te voegen duikt de originele relatie op (omdat we controleren voor deze variabele).
De originele relatie werd dus onderdrukt (supressie).
Interactieve structuur of interactie tussen variabelen. Er kan interactie zijn tussen
twee onafhankelijke variabelen op een afh var. Bv leeftijd en beroepsklasse op
subjectieve gezondheid. De interactie bestaat erin dat beroepsklasse leeftijd
beïnvloed. bv white collar beroepsklasse leven langer dan blue collar wegens de
aard van het werk (minder rap gezondheidsproblemen ondervinden). Er is dus een
interactieve structuur, men verbindt dus de 2 onafhankelijke variabele als een pijl
naar de afhankelijke variabele. In de analyse gebruiken we hiervoor een interactieterm die als nieuwe variabele een
betere relatie kan blootleggen (het model verbeteren).
Gecorreleerd = (samenhang tussen onafhankelijke variabelen).
Interactiemodel = het toevoegen van interactievariabelen.
De structuur van een dependente techniek (in deze cursus
voornamelijk regressie) is “convergent” omdat men de relatie van
elke onafhankelijke variabele op één afhankelijke variabele wil zien.
Volgende technieken zijn gegroeid uit de sociologische traditie
maar meten eigenlijk exact hetzelfde als voorgaande (regressie
technieken) Een t-test wordt gebruikt het effect op de afhankelijke
variabele te meten tussen 2 groepen bv het verschil in inkomen
(afh var) tussen voor mensen met een universitair diploma en
mensen zonder universitair diploma (een groep wordt dan als
referentie genomen).
ii
Een ander voorbeeld: ijsjesverkoop en het aantal verdrinkingen in Belgische zwembaden. Er is een associatie omdat mensen meer
gaan zwemmen en ijsjes eten in de zomer. Zonder te corrigeren voor het seizoen lijkt er een verband.
2
, Bij een categorische afhankelijke
variabele (meestal twee categorieën bv
zittenblijven op school maar kan ook
polytoom) zullen we “logit
regressiemodellen” gebruiken.
Niet-dependente technieken. Principale componentenanalyse heeft als hoofdfunctie het reduceren van het aantal
variabelen (of dimensies) in een dataset. Het is dus een niet-dependente techniek i.e. men probeert niet een effect op
een afhankelijke variabele te analyseren.
Zoomgroepen
1.1 Logistische regressie hoort bij een dummy afhankelijke variabele. Multinomial logit model bij een polytome
afhankelijke variabele.
1.2
3
,H2 meetniveaus
Equivalentieklasse (equivalence class): deelverzameling van de populatie voor wie we een bepaalde range van
waarden ‘equivalent’ gaan zien voor een kenmerk bv leeftijdscategorieën (vanaf 10 tot 18 is “tiener”).
Meetschaal of meetniveau (“level of measurement”): kwalitatief (nom & ord) kwantitatief (interval & ratio). Men kan
een meeschaal van hoger niveau bv interval & ratio steeds “schalen” naar een lager meetniveau (nom & ord), maar
nooit andersom (dit heet de hiërarchie v/d meetniveaus) bv leeftijd (ratio schaal) in categorieën zetten (ordinale
schaal).
o De categorieën van ordinale variabelen heten ook wel modaliteiten (bv de categorieën van een Likert schaal:
strongly disagree”, “disagree”, “neither”, “agree”, “strongly agree”).
o Het ordinale meetniveau heeft een intrinsieke rangorde die een nominale variabele niet heeft (bv Likert
schaal vs provincies, provincies kan men niet ordenen). Men moet dus opletten welk meetniveau men
gebruikt (Blalock: geen operaties uitvoeren die nergens op slaan).
Dummy variabele: speciale soort categorische variabele met twee categorieën. Steeds een 0/1 codering waarbij 0
staat voor de “afwezigheid van het kenmerk in kwestie”.
o Dummy variabelen kunnen als ratiovariabelen behandeld worden omdat ze een absoluut nulpunt en een
meeteenheid hebben (meeteenheid is een unit of measurement zoals °C of fahrenheit. Voor dummy is dit 0% vs
100%).
Frequentieverdeling:
Vlaanderen is referentiecategorie. Mensen die in brussel wonen geef je dan waarde 1. Dit zijn er 0.09 (gem):
o Brussel: 650/7163 = 0.09. Variantie: 0.09 * 0.91 = 0.082
o Wallonië: analoog
Bij effectcodering (EC) wordt dummy variabele omgezet in “designvariabele” (maar is nog steeds een dummy enkel
heeft het naast waarden 0 en 1 ook waarde -1). I.p.v. dat men vergelijkt met de referentiecategorie (=0, zoals bij
dummy variabele) vergelijkt men dan t.o.v. het gemiddelde van de categorieën. Men geeft dan 2 categorieën in de
dummy de waarde -1 en 1 zodat het gemiddelde 0 geeft (komen we later op terug).
H3: Frequentieverdelingen en grafische voorstellingen
Absolute frequentie F is het aantal waarnemingen in een bepaalde equivalentieklasse. Men sommeert door Fi.
De cumulatievefrequentiefunctie voor ordinale variabelen heet een trapfunctie.
Een frequentiepolygoon (polygoon = tweedimensionaal vlak verbonden met rechte lijnen)
verbindt de staarten van de absolute frequenties van een staafdiagram. Deze geeft weer waar
de massa in de verdeling zit.
Een histogram: variabele op x-as met frequentie op y-as.
Alle waarden in een (equivalentie-)klasse beschouwen we als equivalent voor een kenmerk.
Vuistregel is dat we maximaal 15 klassen gebruiken (tussen 5 en 15).
o Klassenlengte krijgt men door variatiebreedte (range) te delen door aantal klassen…
Een klassenmidden is letterlijk wat het woord zegt, de middenwaarde van een equivalentieklasse (bv leeftijd 10-18j
=> klassenmidden 14j), deze kan men dan soms als representatieve waarde van de klasse nemen.
4
,H4: univariate parameters
3 soorten parameters:
o parameters van ligging (ook wel centrummaten: modus, mediaan; gem)
o parameters van spreiding (bv variantie)
o parameters van vorm (scheefheid, kurtosis).
De centrummaten modus, gemiddelde en mediaan zijn de representatieve waarden van de verdeling.
o Bij nominale waarden gebruikt men voornamelijk de modus. De modus staat daarom bv bekend als een
“nominale schaal”.
o Bij ordinale waarden gebruikt men voornamelijk de mediaan (of gem).
o Bij interval waarden (bv *C) gebruikt men voornamelijk RK gem.
o Bij ratio gebruikt men voornamelijk MK gemiddelde maar RK en/of harmonisch gemiddelde zijn ook mogelijk.
o De klasse waar de meeste waarnemingen in zitten (bv leeftijdsklasse ) heet de modale klasse (modus in
naam).
Een rekenkundig (aritmetisch) gemiddelde is de meest gebruikte centrummaat maar heeft nadelen bv om groei te
meten is een gemiddelde procentuele stijging anders dan een procentuele daling (bv verandering in procent 33 eur => 34
eur is ander percentage dan 34 => 33). Alhoewel het niet altijd werkt voor ratioschaal is RK gemiddelde wel de meeste
geschikte maat voor de intervalschaal, kan men zelf nagaan bv het gemiddelde van 2 temperaturen: 10°C, 20°C en
30°C geeft met aritmetic mean 20°C. Met de geometric mean zou dit (10*20*30)^1/3 = 18.2°C geven, niet geschikt.
Opletten: eerst gemiddelden van randwaarden van elke equivalentieklasse berekenen. Bv cat1: (15+24) / 2 = 19.5
(19.5*146 + 29.5*104+42*91+57*29+72*15)/385) = 32.4.
Het meetkundig (geometric) gemiddelde G is de vermenigvuldiging van termen waar men de n-de machtswortel van
neemt. Dit gebruikt vaak bij het berekenen van investeringsportfolio’s.
Het harmonisch gemiddelde H is de inverse v/h RK gemiddelde. N staat in teller, sommatie in noemer. Niet gebruikt
in de statistiek, wel fysica om bv gem snelheid te berekenen.
Een kwantiel deelt waarnemingen op. Bv een kwintiel deelt de waarnemingen op in 5 groepen (elk 20%). Andere
vormen zijn percentielen, decielen kwartielen,… Let op: kwantiel ≠ kwartiel.
Momenten volgen simpelweg formaat van dat v/d variantie (staat in
formularium). Momenten kan men hebben rond de oorsprong (gewone
momenten: c = 0) en rond een rekenkundig gemiddelde (centrale momenten
c = xstreep, daarom centraal vanwege gem).
o Voor c = 0 en k=1 krijgt men het RKgem
o m2 = variantie, m3 = scheefheid (mate van symmetrie) en m4 =
kurtosis (mate van afplatting).
Spreiding refereert naar afstanden tussen de waarnemingen of afstanden t.o.v. het gemiddelde. Zo zijn er
spreidingsmaten zoals
o Range (variatiebreedte): verschil tussen kleinste en grootste waarde.
o Afstand tussen bepaalde kwantielen (kwantielafstand): interkwartielafstand (afstand tussen 1e en 3e
kwartiel)
o Interdecielafstand (afstand tussen eerste en 9e deciel). Deze zijn vooral geschikt voor nominale en ordinale
meetniveaus.
MAD (gem absolute afwijking): variantie maar ipv kwadraten te gebruiken gebruikt men de abs waarden functie.
5
, Variatie of SS (sum of squares). Variatie is niet hetzelfde als variantie ( de verwarring bestaat ook eig enkel in het NL). De
variatie delen door N geeft de variantie. Het gem van de gekwadrateerde afwijkingen. De standaardafwijking s is de
vierkantswortel van de variantie.
Vuistregel voor standaardafwijking in een normale verdeling:
o 68% van de waarnemingen liggen tussen 1s links en 1s rechts van het gemiddelde.
o 50% v/d data ligt onder 2/3s links en 2/3s rechts van het gemiddelde.
o 95% v/d waarnemingen liggen tussen 1.96s links en 1.96 rechts van het gemiddelde (belangrijk om
betrouwbaarheidsintervallen op te stellen, zien we later).
o 99% v/d waarnemingen liggen tussen 3s links en 3s rechts v/h gemiddelde.
Er zijn in de realiteit eigenlijk niet zo veel variabelen die normaal verdeeld zijn (wel bv lengte van mensen). Het gros
van normale verdelingen zijn artificieel opgesteld a.d.h.v. een transformatie (centrale limietstelling). Een normale
verdeling heeft een ingewikkelde formule, wat wel te onthouden is is dat het een gemiddelde heeft van 0 en
standaardafwijking van 1. Later meer in depth.
gem v/d leeftijdscategorieën (= Xj): 19.5, 29.5, 42, 57,
72. Deze worden de gewone waarnemingen x i in de
formule!
Gem leeftijd slachtoffer (van eerder) = 32.4
SS = (19.5-32.4)^2*146 + … = 74462
Variantie = SS / n = 193.4
Standaardafwijking = sqrt.var = 13.9
Een gestandaardiseerde score zi is geen spreidingsmaat of dergelijke. Het laat enkel toe om
van een gegeven observatie te berekenen hoeveel standaardafwijking (pos & neg) ze
verwijderd is van het RR gem.
Voor gestandaardiseerde scores hebben we gem en
stdev nodig. Een gestandaardiseerde score geeft de
stdev van elke waarneming.
RRgem: 74.8
Stdev: sqrt.variantie = sqrt.125.14 = 11.2
gestandardiseerde score: 0.46, -1.32, 0.64, -0.7, -0.7,
1.62.
De persoon die 60kg weegt zit dus onder 68% van de
data rond het gem, want de
standaardafwijking = -1.32.
De variatiecoëfficiënt is een spreidingsmaat, nuttig om verschillende datasets te vergelijken met
verschillende schalen.
Symmetrie vs asymmetrie (scheefheid): geeft ons de scheefheid van een
verdeling.
o Indien symmetrisch liggen de modus, mediaan en gemiddelde
samen.
o Men spreekt van positieve asymmetrie indien de staart zich rechts
bevindt (gem > mediaan & modus: zie tek).
o Bij negatieve asymmetrie vindt de staart zich links.
6
, De empirische coëfficiënt van Pearson S (van scheefheidiii) is een maat die ook de mate van scheefheid
meet. Deze doet gem – mediaan (= x met krul). Indien deze coëfficiënt gelijk is aan 0 heeft men
symmetrie (want gem = med) . Indien deze positief is, is gem > med (dus pos asymmetrie).
Ook de coëfficiënt van Yule en Kendall meet scheefheid m.n. a.d.h.v. kwartielen en de
mediaan. Moeilijker te zien maar indien Y > 0, heeft men een positieve asymmetrie.
Hetzelfde bij oneven centrale momenten, deze geven dan niet meer variantie maar de
scheefheid. Indien m2k+1 > 0 heeft men positieve asymmetrie.
De Coëfficiënt van Fisher g voor symmetrie is ook een variant die scheefheid meet a.d.h.v. centrale momenten
formule. Indien g1 > 0 heeft men positieve asymmetrie.
De coëfficiënt van Pearson voor symmetrie is een kwadraat van Fisher g met dezelfde interpretatie. Wel kan men
door het kwadraat niet meer negatieve (rechtse) symmetrie vaststellen dus geeft het geen informatie over negatieve
en positieve asymmetrie enkel of de verdeling symmetrisch is of niet (!!). => examenvraag
Deze symetriematen zijn belangrijk voor later wanneer we bv de chi-kwadraat verdeling zien. Deze is positief
asymmetrisch, de normaalverdeling is simpelweg symmetrisch.
Zoomgroep 4.4: Parameters van asymmetrie. Examenvraag!
De coëfficiënt van Pearson voor symmetrie m 3/s3 is het centrale
(i.e. t.o.v. gem) moment m met k=3 (i.e. scheefheid). Enkel gewone
momenten staan in formularium, geen centrale (uitkijken!).
Voor de berekening v/h moment hebben we het gem nodig.
Gem = 4
m3 = 1/8 * ∑ (i−x ¿)¿ ^3 = 12.75
s = sqrt(5.25) = 2.29
m3/s3 = 12..29^3 = 1.06 => rechts asymmetrisch
b1 = 1.12 => niet symmetrisch want niet gelijk aan 0.
Kurtosis wijst op piek of afplatting van een verdeling. Platykurtisch wijst op platter (zit in naam) i.e. dikkere staarten,
minder gepiekt dan normaalverdeling. Daartegen heeft men leptokurtisch (hoge piek) en in het midden mesokurtisch
(zoals normaalverdeling). Bij (niet normale) platykurtische verdelingen (de meeste verdelingen die nog zullen komen,
voornamelijk bij significantietoetsen!!) zal het betrouwbaarheidsinterval dus veel hoger zijn. Een t-distributie zal zo
platy tot mesokurtisch zijn afhankelijk van de hoeveelheid waarnemingen (en variabelen) (ook wel “vrijheidsgraden”:
degrees of freedom: combinatie van hoeveelheid waarnemingen en variabelen (zien we later)).
Voor kurtosis heeft men de coëfficiënt van Pearson voor kurtosis. Deze is dan een centraal moment van rang 4 / s^4.
o Een mesokurtische verdeling heeft een waarde van 3.
o Platykurtische verdeling heeft b2 < 3, lepto > 3.
Fisher vond dit niet leuk om mee te werken dus nam hij de coëfficiënt van Pearson en trok er 3 van af
om mooi gem 0 te hebben.
De student t-distributie is typisch platykurtisch. Indien oneindig vrijheidsgraden (combinatie van aantal
waarnemingen en variabelen) zal deze een normale verdeling benaderen.
o Hoe minder vrijheidsgraden hoe hoger de waarde van de standaardafwijking om hetzelfde percentage (bv
68% of 98%) waarnemingen onder de curve te krijgen. bv bij 3 standaardafwijkingen (95% v/d data) in een
normale verdeling valt samen met 1.96.
bv bij 6 vrijheidsgraden (7 waarnemingen & 1 variabele) heeft men een interval van 2.45
standaardafwijkingen rond het gemiddelde nodig om tussen deze grenzen 95% van de waarnemingen
te krijgen.
iii
In formularium wordt enkel coëfficiënt van Pearson (symmetrie) vermeld. Weten dat de eerste ook scheefheid of asymmetrie meet
dus.
7
,8
,H5: Inductieve statistiek
Inductief betekent dat men op basis van een assumptie gekoppeld aan data een uitspraak gaat doen over de
werkelijkheidiv. Dit moet wel gebeuren a.d.h.v. toevalsteekproeven (random samples).
Steekproefgrootheden (niet verwarren met sample size) kan eender welke statistiek zijn: gem, percentage, correlatie,
regressiecoëfficiënt etc.
Als men steekproeven herhaalt en hieruit een statistiek haalt zoals gemiddelde komt men tot een
steekproevenverdeling. Bv duizend steekproeven met grootte n = 10 neemt men telkens het gemiddelde. De
verdeling van de steekproefgemiddelden is de steekproevenverdeling v. Het gemiddelde van deze verdeling van
steekproefgemiddelden noteert men als x́ of xstreep streep. Dit kan artificieel gedaan worden a.d.h.v. een
computerprogramma (“bootstrapping”).
De standaardafwijking van de steekproevenverdeling heet de standaardfout σ x (meer later).
Steekproefgrootheden zijn typisch schatters (van gemiddelden meestal) van populatiewaarden. Ze kunnen zuiver
(“unbiased” / onvertekend) zijn indien het gemiddelde van de steekproevenverdeling overeenkomst met het
populatiegemiddelde mu. Anders is er vertekening. Zuiverheid hangt af van:
o De gebruikte schatter: bv n-1 in de noemer (populatieschatter) gebruiken i.p.v. simpelweg n om ze zuiver te
maken (zien we later).
o Steekproefdesign. Deze zal typisch zuiver zijn indien ze aselect (de selectie is willekeurig (niet “select”)) en
enkelvoudig (één steekproef) is, al is de laatste geen voorwaarde. Dit heet een “AES”.
Anderzijds is er ook de precisie of nauwkeurigheid van een schatter dat verwijst naar de variantie (/ standaardfout vi)
van de verdeling op de schatter. Een grote spreiding in de steekproevenverdeling wijst erop dat de gemiddelden over
de steekproeven heen sterk verschillen. Al is het goed mogelijk dat er een grote spreiding in de populatie zelf zit die
de steekproefgemiddeldes weerspiegelen (bv met leeftijd gaat men nooit een zeer kleine standaardfout krijgen denk
ik).
Een schatter kan zuiver zijn maar niet nauwkeurig of onzuiver zijn maar wel nauwkeurig => zie illustratie handboek.
Een kleine variatie / standaardfout wijst op het feit dat de verschillen tussen steekproeven beperkt zijn.
Nauwkeurigheid van een schatter hangt naast de populatieverdeling ook af van:
o De omvang van de steekproef (indien slechts 3 waarnemingen ipv 50 kan de range en dus spreiding veel groter zijn)
o Het steekproefdesign (bv geen aselecte steekproef).
Centrale Limietstelling
De centrale limietstelling stelt dat wanneer men een aantal steekproeven bv N = 1.000 (met dezelfde omvang n bv
10) uit een (niet normaal verdeelde) populatie trekt vii, de verdeling van steekproefgemiddelden
(=steekproevenverdeling) een normale verdeling benadert met gemiddelde x́ en variantie σ 2 x (“variantie van
steekproefgemiddelden).
o Het gemiddelde van de steekproefgemiddelden zou dan bij AES overeen
moeten komen met het populatiegemiddelde
o De variantie van de steekproevenverdeling moet dan gelijk zijn aan de
populatievariantie gedeeld door de √steekproefomvang (dit omdat de
spreiding v/d venverdeling anders is dan het populatiemodel, het
populatiemodel heeft een andere spreiding omdat het niet normaal verdeeld
is!).
σ
De standaardafwijking van de steekproevenverdeling heet de standaardfout (!) σ x en kan men schrijven als
√n
wegens dat opnieuw, we hebben een normaalverdeling gemaakt van de anders verdeelde populatieverdeling dus
nemen we de populatieparameter σ/√n.
iv
Deductief redeneren is van algemene waarheden vertrekken om zo conclusies te trekken, vooral gebruikt in de filosofie
& recht bv de kwestie abortus: algemene waarheid1: het is altijd fout om een onschuldige persoon te doden. AW2: een
foetus is een persoon. Conclusie: abortus is altijd immoreel (niet zo natuurlijk).
v
Een steekproevenverdeling is dus bijna altijd een verzameling van gemiddelden.
vi
The standard error of an estimator is a measure of how much its values vary around its expected value.
vii
Grote N wordt gebruikt om de populatiegrootte te duiden maar kan ook gebruikt worden om aantal steekproeven te duiden.
9
, Indien de steekproefomvang (dus niet het aantal steekproeven) gelijk is aan 30 of meer zal het voldoende zijn om uit
de data wetenschappelijke conclusies te kunnen trekken, al hangt dit ook af van de onderlinge populatiemodel (dan
heeft men mss zelfs minder nodig bv indien deze normaal verdeeld is).
Verderzetting hoofdstuk
Een nulhypothese is de hypothese waar men in eerste instantie van uitgaat dat deze waar is. Vaak gaat deze over een
hypothese van een gemiddelde (bv assumptie dat de gemiddelde leeftijd van de Belgische bevolking 45 jaar is). Deze
hypothese kunnen ontkrachten met een betrouwbaarheidsniveau van bv 95% of 99% (p-valueviii van 0.05 of 0.01%) is
wat we willen in onderzoek. Het heet nulhypothese omdat men zeer vaak gemiddeldes van 0 heeft of men centreert
de gemiddeldes tot 0.
Indien we slechts één steekproef trekken uit een populatie is een type 1 fout / error α de domme kans dat we een
atypische steekproef trekken waar het gemiddelde sterk afwijkt van andere steekproeven die we hadden kunnen
trekken. Een type 1 fout is dus de kans dat men a.d.h.v. een gegeven steekproef de nulhypothese verwerpt terwijl
deze juist is. Of anders: Men is een corrupte wetenschap omdat men de nulhypothese verwerpt terwijl deze juist is.
o Deze kans op type I fout schrijven we als α, ook wel het significantieniveau. Deze willen we onder 5% houden.
Courante waarden zijn 5%, 1% en 0.1%.
Een type 2 error ẞ is de kans dat men a.d.h.v. één steekproef de nulhypothese aanvaardt terwijl deze fout is. Men kan
dit zien als een domme wetenschapper. De kans wordt uitgedrukt met ẞ. Alpha en bèta kunnen natuurlijk elkaar
voorstellen. α = (1- ẞ) en ẞ = (1- α).
Oefening: stel H0 = 45 jaar en we hebben een steekproevenverdeling met x́ = 40 en σ x = 0.47 wat is onze
gestandardiseerde score (standaardafwijking) voor één steekproef met waarde 45 jaar die we als hypothese hebben.
Met de gestandaardiseerde score weten we de waarschijnlijkheid van hoe dicht de hypothese zat (bv stel een politicus
zegt 45 jaar op TV)? => 9.5 standaardfouten verwijdert van het gemiddelde, zeer onwaarschijnlijk.
Een betrouwbaarheidsinterval (1- α) is het interval / range rond een steekproefgemiddelde die de
populatieparameter moet bezitten bij een bepaald betrouwbaarheidsniveau bv 95%. Het interval berekent men
a.d.h.v. de steekproevengemiddeldes.
Men werkt echter steeds met één steekproef terwijl men een uitspraak doet over de
steekproevenverdeling met het CI (confidence interval). De venverdeling kunnen we namelijk
artificieel opstellen a.d.h.v. bootstrapping.
De grootte van het interval hangt ook af van de spreiding in de populatie (want de SE bestaat
uit populatieparameter σ en steekproefomvang n in de noemer). Het interval berekent men a.d.h.v.
steekproevenverdeling dus de gekozen 95% wijst erop dat één gemiddelde/ steekproef van de 20 buiten de range ligt.
Indien 0.1% mag er maar 1 op de duizend steekproeven buiten het interval liggen.
Elk steekproefgemiddelde krijgt een betrouwbaarheidsinterval.
Slechts één steekproef neemt het populatiegemiddelde niet op in haar CI.
Indien sigma in de populatie wonderbaarlijk gekend is kunnen wie de centrale limietstelling de SE vinden:
viii
P-valueof overschrijdingskans is de kans op het krijgen van een test resultaat die meer extreem is dan het geobserveerde
testresultaat (na het uitvoeren van een test).
10