‘
STATISTIEK 3
Univariate data-analyse
Axana Dyckmans
,Inhoudsopgave
HOOFDSTUK 1: INLEIDING ....................................................................................................................... 6
1.1 Inleiding ................................................................................................................................... 6
1.2 Meetschalen ............................................................................................................................ 6
Soorten meetschalen ...................................................................................................................... 6
Hoe bepaal ik mijn meetschalen? ................................................................................................... 7
1.3 Identificeren van testen ................................................................................................................ 7
Ongepaarde versus gepaarde steekproeven................................................................................... 8
1.4 Inductieve technieken ............................................................................................................. 9
Schatten (betrouwbaarheidsintervallen) ........................................................................................ 9
Toetsen (significantietoetsen) ....................................................................................................... 10
1.5 Statistisch schatten................................................................................................................ 11
Puntschatting................................................................................................................................. 11
Intervalschatting ............................................................................................................................ 11
1.6 Significantietoets in 4 stappen .............................................................................................. 12
De overschrijdingskans p ............................................................................................................... 12
De toetsingsgrootheid ................................................................................................................... 13
1.7 Betrouwbaarheidsintervallen ................................................................................................ 18
95 % Betrouwbaarheidsinterval .................................................................................................... 18
Betrouwbaarheidsniveau (Confidence Level) ............................................................................... 19
Gedrag van de betrouwbaarheid .................................................................................................. 20
Waarschuwingen in verband met schatters.................................................................................. 23
Cruciale vraag bij significantietoetsen........................................................................................... 24
Resampling (bootstrap) ................................................................................................................. 24
1.8 σ niet gekend ......................................................................................................................... 25
1.8 Betrouwbaarheidsintervallen versus significantietoetsen indien σ bekend ............................... 26
HOOFDSTUK 2: INLEIDING TOT INFERENTIE.......................................................................................... 28
2.1 Onderscheidingsvermogen (power) van de z-test ...................................................................... 28
Inleiding ......................................................................................................................................... 28
2 soorten fouten ............................................................................................................................ 28
Power............................................................................................................................................. 31
Kritische waarde ............................................................................................................................ 35
HOOFDSTUK 3: INFERENTIE VOOR VERDELINGEN: T-TESTS ................................................................. 36
3.1 Inferentie over verwachting van 1 populatie (1-steekproef t-toets) .......................................... 36
Inleiding ......................................................................................................................................... 36
1
, Algemeen probleem met t-toetsen ............................................................................................... 36
Voorwaarden t-toetsen ................................................................................................................. 37
Steekproevenverdeling van het gemiddelde indien σ onbekend ................................................. 37
1-steekproef t-test......................................................................................................................... 42
Rapporteren van toetsresultaten in APA stijl ................................................................................ 46
Robuustheid van t Procedures ...................................................................................................... 48
Onderscheidingsvermogen (Power) van de 1 steekproef t-test ................................................... 48
Onderscheidingsvermogen berekend met G*power .................................................................... 49
3.2 Vergelijken van 2 verwachtingen (2-steekproeven t-toets) ........................................................ 50
Inleiding ......................................................................................................................................... 50
Gekoppelde data ........................................................................................................................... 50
Onafhankelijke / ongepaarde steekproeven ................................................................................. 52
T-test uitgevoerd met SPSS ........................................................................................................... 60
Robuustheid van 2 steekproeven t procedures ............................................................................ 62
Gepoelde 2-steekproeven procedures (Pooled Two-Sample Procedures) ................................... 63
2-steekproeven t-toetsen voor gekoppelde paren ....................................................................... 64
Inferentie voor Populatie Spreiding .............................................................................................. 67
Onderscheidingsvermogen van de 2-steekproeven t-test ............................................................ 68
3.3 Inferentie voor Niet-Normaal verdeelde populaties ................................................................... 69
Data transformeren ....................................................................................................................... 71
Teken-Toets voor gekoppelde data ............................................................................................... 71
HOOFDSTUK 4: INFERENTIE VOOR FRACTIES (PROPORTIES EN PERCENTAGES)................................... 72
4.1 Inleiding ....................................................................................................................................... 73
4.2 Inferentie voor een enkele proportie (= fractie) ......................................................................... 73
Steekproevenverdeling van een steekproefproportie .................................................................. 74
Betrouwbaarheidsinterval voor de proportie ............................................................................... 77
Significantietoets voor een populatieproportie op basis van een grote steekproef .................... 79
Nodige steekproefgrootte bepalen ............................................................................................... 80
4.3 Twee fracties vergelijken ............................................................................................................. 81
Proporties in twee steekproeven vergelijken ............................................................................... 81
Steekproevenverdeling van een verschil tussen 2 proporties bij grote steekproeven ................. 82
Betrouwbaarheidsinterval ............................................................................................................. 83
Significantietoets voor het vergelijken van proporties ................................................................. 84
Relatief risico ................................................................................................................................. 86
HOOFDSTUK 5: NIET-PARAMETRISCHE TOETSEN ................................................................................. 87
2
, 5.1 Inleiding ....................................................................................................................................... 87
Mogelijkheden voor Niet-Normaal verdeelde data ...................................................................... 88
Niet-parametrische toetsen zijn nodig… ....................................................................................... 89
5.2 Procedures gebaseerd op ordenen van data .............................................................................. 89
Tekentest ....................................................................................................................................... 90
Wilcoxon Signed RankTest (Rangtekentoets)................................................................................ 91
Wilcoxon Rangsom Test (of Mann-Whitney U-test) ..................................................................... 95
HOOFDSTUK 6: KRUSKAL-WALLIS TEST ............................................................................................... 102
HOOFDSTUK 7: NIET-PARAMETRISCHE STATISTISCHE ANALYSE KRUISTABELLEN + KOLMOGOROV-
SMIRNOV ............................................................................................................................................. 104
7.1 Inleiding ..................................................................................................................................... 104
Kwadraat van een normaalverdeling .......................................................................................... 104
Som van 2 kwadraten van normaalverdelingen .......................................................................... 105
Som van 3 kwadraten van normaalverdelingen .......................................................................... 106
Som van 4 kwadraten van normaalverdelingen .......................................................................... 107
Grotere steekproeven… .............................................................................................................. 107
7.2 Chi2............................................................................................................................................. 108
Inleiding ....................................................................................................................................... 108
Chi-kwadraat verdelingen ........................................................................................................... 109
7.3 Chi2 Goodness of Fit (Aanpassingstoets of verdelingstoets) ..................................................... 109
Inleiding ....................................................................................................................................... 109
Chi-kwadraat toets ...................................................................................................................... 111
Soorten verdelingen .................................................................................................................... 112
Chi2-steekproevenverdeling ........................................................................................................ 112
Voorwaarden ............................................................................................................................... 112
Samenvatting Chi-kwadraat aanpassingstoets ........................................................................... 113
Stappenplan................................................................................................................................. 113
7.4 Chi2 Afhankelijkheidstoets......................................................................................................... 113
Inleiding ....................................................................................................................................... 113
Verwachte celfrequenties voor Chi2 berekenen .......................................................................... 114
Chi2 berekenen ............................................................................................................................ 114
Minimale celfrequenties vereist voor een Chi-kwadraat toets................................................... 115
Chi-kwadraat toets interpreteren ............................................................................................... 115
Stappenplan................................................................................................................................. 116
7.5 Kolmogorov-Smirnov test.......................................................................................................... 116
Inleiding ....................................................................................................................................... 116
3
, Werkwijze .................................................................................................................................... 117
Software ...................................................................................................................................... 118
Opmerking ................................................................................................................................... 118
HOOFDSTUK 8: RANGCORRELATIETESTEN .......................................................................................... 119
8.1 Inleiding ..................................................................................................................................... 119
8.2 Rangcorrelatiecoëfficiënten ...................................................................................................... 121
Spearman (rs) ............................................................................................................................... 121
Kendall ......................................................................................................................................... 121
8.3 Rangcorrelatietesten ................................................................................................................. 122
HOOFDSTUK 9: ENKELVOUDIGE LINEAIRE REGRESSIE ........................................................................ 123
9.1 Inleiding ..................................................................................................................................... 123
9.2 Van regressierechte naar regressie-analyse.............................................................................. 123
9.3 Overzicht lineaire regressie ....................................................................................................... 124
Inleiding ....................................................................................................................................... 124
Voorwaarden bij inferentie over regressie ................................................................................. 124
Veronderstellingen bij inferentie over regressie......................................................................... 126
Basisidee: “2 groepen vergelijken” veralgemenen naar “oneindig veel groepen vergelijken” .. 126
Enkelvoudige lineaire regressie ................................................................................................... 127
Veralgemening naar vele x-waarden........................................................................................... 128
Regressierechte van de populatie ............................................................................................... 129
Enkelvoudige regressiemodel ..................................................................................................... 129
Schatting van regressieparameters ............................................................................................. 130
σ schatten .................................................................................................................................... 131
Standaardfout op de geschatte regressieparameters................................................................. 132
Betrouwbaarheidsintervallen ...................................................................................................... 132
Variantie-analyse voor regressie ................................................................................................. 135
9.4 Regressie-analyse ...................................................................................................................... 143
Formules ...................................................................................................................................... 143
Stappenplan................................................................................................................................. 144
9.5 Opmerking over Niet-Lineaire regressie ................................................................................... 144
9.5 Inferentie voor Correlatie .......................................................................................................... 145
HOOFDSTUK 10: MEERVOUDIGE LINEAIRE REGRESSIE ....................................................................... 147
10.1 Inleiding ................................................................................................................................... 147
10.2 Statistisch Model voor Regressie ............................................................................................ 148
Populatie-regressievergelijking ................................................................................................... 148
4
, Model .......................................................................................................................................... 148
Regressieparameters schatten .................................................................................................... 149
Betrouwbaarheidsintervallen en significantietoetsen voor β1 ................................................... 151
10.3 F-toets voor variantie-analyse ................................................................................................. 152
10.4 ANOVA Tabel ........................................................................................................................... 153
10.5 Determinatiecoëfficiënt (R2).................................................................................................... 154
Formules ...................................................................................................................................... 154
Aangepaste (Adjusted) R2 ............................................................................................................ 155
10.6 Collineariteit ............................................................................................................................ 155
HOOFDSTUK 11: PEARSON’S CORRELATIETEST ................................................................................... 157
HOOFDSTUK 12: ANOVA ..................................................................................................................... 158
12.1 Inleiding ................................................................................................................................... 158
12.2 Paargewijze t-toetsen zijn geen alternatief ............................................................................ 159
12.3 ANOVA tabel ............................................................................................................................ 159
12.4 Intuïtie van ANOVA.................................................................................................................. 160
12.5 Voorwaarden ........................................................................................................................... 163
12.6 Het ANOVA model ................................................................................................................... 164
12.7 Schatters voor parameters ...................................................................................................... 165
12.8 2-steekproeven t-grootheid .................................................................................................... 166
12.9 De ANOVA F-statistiek ............................................................................................................. 167
Inleiding ....................................................................................................................................... 167
F-grootheid .................................................................................................................................. 168
12.10 F-verdelingen ......................................................................................................................... 172
Inleiding ....................................................................................................................................... 172
Verloop van ANOVA .................................................................................................................... 172
12.11 P-waarde bepaald, en dan… .................................................................................................. 173
Inleiding ....................................................................................................................................... 173
Hoe kiezen? ................................................................................................................................. 174
12.12 Stappenplan........................................................................................................................... 177
5
, HOOFDSTUK 1: INLEIDING
1.1 Inleiding
Dit jaar gaan we beginnen aan de inferentiële statistiek: in plaats van een steekproef te gaan
beschrijven gaan we nu bv. je hebt 2 steekproeven, je klas van vandaag en je klas van gisteren en je
wilt gaan kijken welke klas de slimste is, of dat er een verschil is, of dat ze even slim zijn,… Dan moet
je een techniek hebben om dat te gaan vergelijken. Je zou het gemiddeld IQ bij de klas van vandaag
kunnen berekenen en het gemiddeld IQ bij de klas van gisteren. Stel dat dat 100 en 100 is, dan kan ik
zeggen: “Er is geen verschil.” Maar dit gaat over de steekproef, betekent dit dan ook dat er in de
populatie geen verschil is? Dan moet je ook gaan rekening houden met je variantie enzo.
Altijd 4 beduidende cijfers na de komma, behalve bij z-score is het 2 cijfers na de komma!!
Op een schriftelijk examen moeten we zelf nooit nagaan of het al dan niet normaal verdeeld is!! Op
het examen software moeten we dit wel kunnen!!
1.2 Meetschalen
Soorten meetschalen
1) Identiteit (= en ≠ ) of categoriseerbaarheid: NOMINALE SCHAAL
→ als ik een observatie maak, kan ik deze perfect ergens gaan indelen
Bv. Als je de oogkleur bruin hebt, zet ik je in die klasse.
→ identiteit is er altijd!
2) Ordenbaarheid
Bv. Oogkleur is niet ordenbaar: je kan niet zeggen dat blauw beter is dan groen.
Bv. Wel ordenbaar: 2 seconden duurt langer dan 1 seconde.
Bv. Aantal goals dat Kevin de Bruyne heeft gescoord in zijn laatste match.
3) Bestaan van een meeteenheid
Bv. Meten hoe groot iemand is, hoe warm het is.
→ iedereen bekomt hetzelfde, kan dit perfect aflezen (iedereen gebruikt eenzelfde
meeteenheid)
Bv. Graden Celsius (temperatuur)
Bv. Verschil tussen 10 en 15 cm = verschil tussen 20 en25 cm. 1cm betekent hetzelfde voor
iedereen!
Een tas koffie is daarentegen geen vaste meeteenheid, want niet alle tassen zijn even
groot!!!
4) Bestaan van een absoluut nulpunt
→ je kan niet negatief gaan
Bv. Graden Celsius is geen ratioschaal, want dit kan wel negatief gaan
Bv. Wel ratioschaal: Aantal kinderen in een gezin, hoe lang de les heeft geduurd,…
Als iets identiteit en ordenbaarheid heeft: ORDINALE SCHAAL
Als iets identiteit, ordenbaarheid en een meeteenheid heeft: INTERVALSCHAAL
Als iets identiteit, ordenbaarheid, een meeteenheid en een absoluut nulpunt heeft: RATIOSCHAAL
6
,Hoe bepaal ik mijn meetschalen?
Stel een ja/neen-vraag bij elke eigenschap
→ daar waar je voor het eerst “neen” schrijft stopt het
Meetschalen zijn hiërarchisch!
→ alles wat je op nominaal mag doen, mag je ook op ordinaal, interval en ratio toepassen!
Ordinaal: bv. aankomst in een wedstrijd (diegene die eerst is heeft goud, tweede: zilver,…)
→ hier is geen vaste meeteenheid, want het kan zijn dat diegene die goud heeft na een uur is binnen
gelopen en diegene die brons heeft pas na 3 uur.
→ diegene die behoort tot de ordinale, behoort ook sowieso tot de nominale!
Als je meerdere variabelen hebt die verschillende meetschalen inhouden, is de laagste meetschaal
dat telt. Bv. Oogkleur en gewicht. Oogkleur is nominaal en gewicht is ratio. Je gaat de test dan
behandelen op nominaal niveau.
1.3 Identificeren van testen
7
,Vorig jaar: de meetschalen geleerd
→ dit jaar: een vraagstuk krijgen en de vraag die er gesteld wordt is: “Wat wordt er gemeten?” Bv.
bovenstaand voorbeeld is dat IQ. Dit is op rationiveau. Vervolgens gaat dit over 2 steekproeven (klas
van vandaag en klas van gisteren). Dan moet je kijken of dit gepaard of ongepaard is.
Ongepaarde versus gepaarde steekproeven
Between Within subjects design
= onafhankelijke steekproeven, = afhankelijke steekproeven,
de niet gepaarde steekproeven,
Gepaarde steekproeven,
de niet gekoppelde steekproeven,
Gekoppelde steekproeven,
Unpaired samples
Paired samples
Je hoort maar tot 1 groep. 2 keer bij dezelfde persoon een meting doen en
van diezelfde persoon ga je de 2 metingen gaan
vergelijken, kijken of daar een verschil is.
Bv. Bij de klassen: wat IQ van klas A is heeft op Bv. Jennifer gaat met ons een looptest doen,
zich niets te maken met wat IQ van klas B is. Zijn 100 meter lopen en ze timed onze snelheid.
onafhankelijk van elkaar, hebben geen invloed Volgende week doen we dat opnieuw, maar ze
op elkaar. geeft ons eerst een EPO-spuitje. Dit is gepaard,
→ je zet de 2 klassen in 1 grote ruimte. Er komt want je doet 2 keer bij dezelfde persoon een
een andere prof bij en die zegt: “Iedereen van meting en van diezelfde persoon de 2 metingen
klas A volgt mij.” Andere prof zegt: “Iedereen gaan vergelijken, kijken of daar een verschil is.
van klas B volgt mij.” Als op dat moment geen Je zou ook kunnen zeggen: “Diegenen die vorige
enkele persoon zo iets heeft van: “Wie moet ik week hebben gelopen komen met de andere
nu volgen?” Dan is dat onafhankelijk van elkaar. prof mee en diegenen die deze week met EPO
hebben gelopen komen met Jennifer mee.” Dan
gaat iedereen zo iets hebben van: “Ik heb op
beide momenten gelopen, ik kan me niet in 2
splitsen. Dan is het afhankelijk van elkaar.
8
, 1.4 Inductieve technieken
Schatten (betrouwbaarheidsintervallen)
→ weg van de beschrijvende statistiek; uit een populatie een steekproef trekken
→ op de steekproef beschrijvende statistiek toepassen en ons dan gaan afvragen wat die
beschrijvende statistiek vertelt over de populatie. Rode pijl = inductie
9