Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
STATISTIEK IV: Multivariate Data-Analyse
Table of Contents
HOC 1: verkennen van data .................................................................................... 6
Waarom data-analyse?..................................................................................................6
Inductieve statistiek .....................................................................................................6
Begrippen ......................................................................................................................................... 7
Notaties (statistiek = meestal cursief) .............................................................................................. 7
Grafisch verkennen .......................................................................................................7
Analyse missing data ....................................................................................................8
Rules of Thumb 2-2: Imputation of Missing Data Based On Extent of Missing Data.......................... 12
Samenvatting omgaan met missing data ..................................................................... 13
Outliers ...................................................................................................................... 13
Detectie van outliers (Hair et al., 2013, p.64): vuistregels................................................................ 14
Assumpties: voorwaarden om multivariate analyses te mogen uitvoeren ..................... 14
Normalitieit .................................................................................................................................... 14
Homescedasticiteit ........................................................................................................................ 16
Lineariteit ....................................................................................................................................... 17
Transformaties ............................................................................................................................... 17
Data transformatie ......................................................................................................................... 19
Dummy codering ............................................................................................................................ 20
Besluit ............................................................................................................................................ 20
HOC 2 & 3: meervoudige regressie ....................................................................... 21
Regressie-analyse....................................................................................................... 21
EL ................................................................................................................................................... 21
Enkelvoudige regressie ................................................................................................................... 21
Statistisch model voor regressie: populatie-regressievergelijking ................................................... 22
Model ............................................................................................................................................. 22
Voorbeeld: studiesucces voorspellen – data voor meervoudige regressie ....................................... 23
Regressie parameters schatten: .................................................................................................. 23
Regressie parameters schatten: (standaarddeviatie) ................................................................... 23
Betrouwbaarheidsintervallen en significantietoetsen voor i .......................................................... 24
ANOVA tabel .................................................................................................................................. 24
Variantie-analyse (ANOVA) voor regressie ....................................................................................... 25
Determinatiecoëfficiënt: R2 ............................................................................................................ 25
Variantie-analyse voor regressie ..................................................................................................... 26
Aangepaste (adjusted) R2 !!! ............................................................................................................ 26
Voorspellen van studiesucces ........................................................................................................ 27
Correlatiematrix ............................................................................................................................. 28
Correlatie versus regressie ............................................................................................................. 30
Verfijning van het model: 1ste model ................................................................................................ 31
GPA voorspellen adhv SAT .............................................................................................................. 32
1
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
Regressie met alle verklarende variabelen ...................................................................................... 33
Multicolineariteit ............................................................................................................................ 34
Meervoudige regressie rapporteren (APA) !!! ................................................................................... 35
Logistische regressie .................................................................................................. 36
Statistisch model !!! ....................................................................................................................... 36
ODDS-RATIO (OR) .......................................................................................................................... 39
Statistisch model: binaire onafhankelijke variabele ........................................................................ 39
BI en toetsen voor 1 ....................................................................................................................... 40
Meervoudige logistische regressie .................................................................................................. 41
• Niet vergeten dat je hier met een dichotome variabele bezig bent (1.126) .................................. 42
• Bij een continue variabele is de schaal anders! (interpretatie is wel ± zelfde) ............................... 42
➔ Soms heeft het dichotomiseren van een variabele een effect op de gevoeligheid ervan (beetje verlies
aan informatie) ................................................................................................................................ 42
°mogelijke examenvraag: ‘schrijf mij de regressievergelijking a.d.h.v. de gegeven tabel’ OF ‘wat kan je
hieruit besluiten?’ OF tijdens SPSS vragen om het te produceren ........................................................ 42
Logistisch regressive rapporteren (APA) !!! ...................................................................................... 43
Voor- en nadelen ............................................................................................................................ 43
Log ODDS-ratio .............................................................................................................................. 43
HOC 4: One Way ANOVA ...................................................................................... 44
Variantie-Analyse 1 ..................................................................................................... 44
ANOVA ........................................................................................................................................... 44
Analyse van de variantie ................................................................................................................. 45
One-way ANOVA ............................................................................................................................ 45
Elementen van ANOVA ................................................................................................................... 47
Variantie ........................................................................................................................................ 47
Het ontbinden van de variantie ....................................................................................................... 47
De F-test ........................................................................................................................................ 48
ANOVA model (i.f.v. t-toets) ............................................................................................................ 48
Parameters schatten: MI ................................................................................................................. 49
Parameters schatten: Δ .................................................................................................................. 49
ANOVA tabel .................................................................................................................................. 50
(A-priori) Contrasten....................................................................................................................... 55
Contrasten in SPSS ........................................................................................................................ 56
Gebruik van contrasten .................................................................................................................. 58
Veel voorkomende soorten contrasten ........................................................................................... 58
Meervoudige vergelijkingen ............................................................................................................ 59
ANOVA rapporteren ........................................................................................................................ 62
Effectgrootte .................................................................................................................................. 63
Resampling .................................................................................................................................... 64
Stabiliteit van gebootstrapte grootheden ........................................................................................ 64
Niet-parametrische benaderingen .................................................................................................. 65
HOC 5: 2-factor ANOVA ........................................................................................ 66
Variantie-analyse 2 ..................................................................................................... 66
2-factor ANOVA .............................................................................................................................. 66
ANOVA model ................................................................................................................................ 66
Statistisch model (ONE-WAY vs TWO-WAY) .................................................................................... 67
2
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
Voordelen ....................................................................................................................................... 68
Factorieel design ............................................................................................................................ 68
ONE-WAY effecten ......................................................................................................................... 69
Enkelvoudige effecten (2-WAY) ....................................................................................................... 69
Hoofdeffecten (2-WAY) ................................................................................................................... 69
Interactie-effecten (2-WAY) ............................................................................................................ 70
Voordelen ....................................................................................................................................... 70
Interpretatie van interacties............................................................................................................ 71
Paramteres schatten ...................................................................................................................... 73
Gewogen gemiddelde (herhaling) ................................................................................................... 73
TWO-WAY ANOVA .......................................................................................................................... 73
Ontbinden van de 2-wegse variantie ............................................................................................... 73
ANOVA tabel .................................................................................................................................. 74
Uitwerking voorbeeld: datafile 2wayANOVA.sav ............................................................................. 77
Uitwerking voorbeeld 2: datafile vb2factorbis ................................................................................. 79
Rapport .......................................................................................................................................... 80
Ontbinden van de variantie ............................................................................................................. 81
Repeated measures ....................................................................................................................... 81
Mixed design .................................................................................................................................. 85
Rapport .......................................................................................................................................... 88
Transformaties ............................................................................................................................... 89
Samenvatting ................................................................................................................................. 91
HOC 6: Factoranalyse .......................................................................................... 92
Factoranalyse (niet inferentieel techniek) .................................................................... 92
Voorbeeld: onderzoek naar functioneren overdag ........................................................................... 92
Voorbeeld: hoeveel zeemonsters zie je? ......................................................................................... 93
Factoranalyse................................................................................................................................. 93
Statistisch assumptie ..................................................................................................................... 97
Opsplitsen van variantie ................................................................................................................. 97
Methoden voor FA .......................................................................................................................... 98
Principale componenten ................................................................................................................ 98
Principale factoren ......................................................................................................................... 99
Hoe beslissen? ............................................................................................................................... 99
Hoeveel componenten/factoren? ................................................................................................. 100
Factorstructuur interpreteren ....................................................................................................... 102
Factormatrix (1) ............................................................................................................................ 103
Factor rotatie (2) ........................................................................................................................... 103
Factor interpretatie (3) .................................................................................................................. 105
Functionele data analyse – FPCA (functionele principale componenten analyse) ......................... 108
Functionele PCA........................................................................................................................... 108
LIVEMAN model ........................................................................................................................... 113
HOC 7: Clusteranalyse ....................................................................................... 114
Clusteranalyse ......................................................................................................... 114
Voorstelling dmv datamatrix ......................................................................................................... 114
Kenmerken van het model ............................................................................................................ 115
Similariteitsmaten ........................................................................................................................ 117
Welke similariteitsmaat kiezen? ................................................................................................... 120
3
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
Cluster procedure ........................................................................................................................ 120
Hiërarchische clustering .............................................................................................................. 120
Partitioneringsmethoden (nl. k-means clustering) ........................................................................ 126
Interpreteren, profileren en valideren van clusters ........................................................................ 129
Functionele clusteranalyse .......................................................................................................... 129
Clusteranalyse: besluit ................................................................................................................. 132
HOC 8: Mediatie en Moderatie............................................................................ 133
Causale relaties ........................................................................................................ 133
Wat is causaliteit? ........................................................................................................................ 133
Waarom causale relaties bestuderen?.......................................................................................... 133
Voorwaarden van causaliteit ........................................................................................................ 134
Hoe causaliteit onderzoeken? ...................................................................................................... 134
Soorten relaties ............................................................................................................................ 136
Feedback loops (1/6) .................................................................................................................... 136
Confouding (2/6) .......................................................................................................................... 136
Common cause (3/6) .................................................................................................................... 137
Common effect (4/6) .................................................................................................................... 137
Moderatie (5/6) ............................................................................................................................. 137
Mediatie (6/6) ............................................................................................................................... 137
Mediatie analyse ....................................................................................................... 138
Het mediatiemodel ...................................................................................................................... 138
Testen van mediatie .................................................................................................. 139
Baron en Kenny Methode (1/3) ...................................................................................................... 139
Mediatie in het kader van lineaire regressie................................................................................... 139
Een mediatieanalyse stapsgewijsuitvoeren .................................................................................. 140
Interpretatie van de resultaten ...................................................................................................... 141
Sobel test (2/3) ............................................................................................................................. 142
Bootstrapping (3/3) ....................................................................................................................... 142
Voorbeeld..................................................................................................................................... 143
Mediatie-analyse in JASP (SEM) .................................................................................................... 144
Model plot .................................................................................................................................... 144
Totale effecten ............................................................................................................................. 145
Directe effecten ........................................................................................................................... 145
Indirecte effecten ......................................................................................................................... 146
Conclusie ..................................................................................................................................... 146
Moderatie analyse .................................................................................................... 147
Het moderatiemodel .................................................................................................................... 147
Procedure .................................................................................................................................... 148
Voorbeeld..................................................................................................................................... 148
Data visualiseren .......................................................................................................................... 149
Moderatie-analyse in JASP (analoog voor SPSS!)........................................................................... 150
Conclusie ..................................................................................................................................... 151
Integratie van moderatie met mediatie ......................................................................................... 152
Gemodereerde mediatie .............................................................................................................. 152
Alternatieven ................................................................................................................................ 152
HOC 9: Structural Equation Modeling (SEM Vantilborgh gastles) ......................... 153
4
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
Praktisch voorbeeld .................................................................................................. 153
Waarom zijn sommige mensen gelukkiger dan anderen? .............................................................. 153
Dataset ........................................................................................................................................ 154
Wat is SEM? .............................................................................................................. 154
Omschrijving ................................................................................................................................ 154
Software....................................................................................................................................... 154
Confirmatorische Factor Analyse (CFA) ..................................................................... 155
Basis concepten........................................................................................................................... 155
Meerdere indicatoren ................................................................................................................... 155
Model fit ....................................................................................................................................... 157
Voorbeeld..................................................................................................................................... 158
Modification indices ..................................................................................................................... 162
Structural model ....................................................................................................... 162
Verschil met CFA .......................................................................................................................... 162
Voorbeeld Lauriola & Iani (2015) ................................................................................................... 162
Pad-analyse .............................................................................................................. 165
Enkel geobserveerde variabelen… ................................................................................................ 165
SEM .......................................................................................................................... 165
Assumpties (“voorwaarden/vereisten”) ........................................................................................ 165
Sample size .................................................................................................................................. 166
Item parcels ................................................................................................................................. 166
Model comparisons...................................................................................................................... 166
Causaliteit.................................................................................................................................... 166
HOC 10: Psychologische netwerkanalyse .......................................................... 167
Psychologische netwerkbenadering (PNB) ................................................................. 167
Netwerkstructuren ................................................................................................... 168
Voorwaardelijke afhankelijkheid ............................................................................... 172
Centraliteit ............................................................................................................... 173
Factoranalyse VS netwerkanalyse ............................................................................. 175
Pairwise Markov Random Fields (PMRF) ....................................................................................... 176
Modelselectie .............................................................................................................................. 177
Netwerkstabiliteit ......................................................................................................................... 179
Netwerkvergelijken ....................................................................................................................... 180
Directed netwerken .................................................................................................. 181
Bayesian Directed Acyclic Graphs en causaliteit .......................................................................... 182
PRMF/DAG ................................................................................................................................... 182
Longitudinale onderzoek ........................................................................................... 183
Group Iterative Multiple Estimation .............................................................................................. 183
Demonstratie ............................................................................................................................... 184
5
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
HOC 1: verkennen van data
Waarom data-analyse?
1. Data organiseren (grafieken, …)
→ Tijdrovend: goed ‘afkuisen’ voor het gebruik ervan
→ Kijk altijd naar je data, kijk niet enkel naar een tabel en zeg “yay ik heb iets gevonden!”
→ Gebruik grafieken (dat goede informatie heeft, goede grafiek vertelt veel)
2. Data beschrijven (beschrijvende/deductieve statistiek, samenvatten)
3. Interpreteren & uitspraken doen (inferentiële/inductieve statistiek, verklaren)
→ Je data is nooit fout, je interpretatie van je data is vaak fout
4. Theorieën te verifiëren en aan te passen
Inductieve statistiek
Het zou tof zijn als we onze gehele populatie zouden kunnen gebruiken voor onze data, maar
onmogelijk dus we gaan een steekproef eruit trekken.
→ SOMS kan je in bepaalde omstandigheden wel een hele
populatie testen
- Bv. “Alle astronauten die bij NASA hebben gewerkt”,
als je die data hebt van alle 30 NASA-astronauten,
dan is dat je gehele populatie
• Als je dan nog uitspraken gaat maken over de
gehele mensheid, is dat dan iets anders (pas op)
→ In het algemeen gaan we steekproef halen en dan inductie doen (= algemene uitspraken) naar het
gehele populatie
- Vervolgens gaan we testen/toetsen: bv. “Verschilt de steekproef dat we getrokken hebben
significant van onze populatie?”
→ Het dient dus voornamelijk om uitspraken te kunnen maken over grote groepen, waarbij we de
gehele groep niet kunnen testen en dus gaan we een stukje eruit halen en dat dan testen. Dan gaan
we dus zien of het redelijkerwijs afwijkt van onze voorspellingen.
6
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
Begrippen
→ Theorie < Hypothese < Steekproef < Steekproefgrootheden
→ Steekproefgrootheid (statistiek) = maat gebaseerd op de gegevens v/d steekproef =
toevalsvariabele met een bepaalde verdeling ➔ steekproevenverdeling!
- Vb. Rekenkundig gemiddelde, proportie, …
→ Steekproefverdeling >< Steekproevenverdeling
- Steekproefverdeling (sample distribution) = frequentieverdeling v/d uitkomsten v/d
steekproef
• Empirisch, gekend (dat observeren we)
- Steekproevenverdeling (Sampling distribution) = kansverdeling van alle mogelijke waarden
die een steekproefgrootheid (voor alle mogelijke verschillende steekproeven) kan aannemen
• Theoretisch, benaderen
• Centrale limietstelling: hoe meer we data hebben (hoe groter N), hoe meer ons grafiek
op een normale verdeling zal lijken
→ Stel: random steekproef 1 & we berekenen steekproef 2 (zelfde n) en we berekenen S2, etc. tot Sn
- S1 , S2 , S3 , …, Sn
• De verdeling van deze steekproefgrootheden = steekproevenverdeling
• Bv. Bootstrapping = een methode om stabiliteit van gegevens achter te halen
°examen: mogelijk dat hij gewoon een grafiek geeft en stelt vragen omtrent zoals “wat ontbreekt er”,
“wat gebeurt er als de standaardafwijking vergroot is” etc. https://demonstrations.wolfram.com
Notaties (statistiek = meestal cursief)
Grafisch verkennen
Onderzoek van verdelingen (zie 1BA + zelfstudie)
1. Histogram
2. Stam/blad diagram (werkelijke waarden
waarnemingen)
3. Boxplot (info over positie, spreiding, symmetrie)
→ Soorten van grafieken dat je kan gebruiken (zie afbeelding op volgende pagina)
7
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
Analyse missing data
Ontbrekende waarden voor 1 (of meer) variabelen: wat is de oorzaak van deze gaatjes in je dataset?
→ Onafhankelijk van respondent
1. Door een procedure dat je opgebouwd hebt in je survey dat je gaat doen
- bv. indien “nee”, ga naar vraag xxx = “branching” (= je gaat een deel van je survey gewoon
niet presenteren aan je deelnemers)
2. Door codeerfouten
→ Afhankelijk van respondent
1. Omvang? Heb je af en toe respondenten die niet antwoordden of heb je er veel?
2. Analyse v/h profiel van missing data: is dat puur toeval (random) of is er iets systematisch
- We willen eerder de systematische (diegenen dat geen toeval zijn) vermijden (mogelijk dat je
design slecht is)
Welke impact heeft het ontbreken van data?
→ Praktische impact
1. Reductie van je steekproefgrootte: listwise deletion (bv. Antartica data)
- Als je een epidemiologisch studie doet van 600 man, dan is dit minder belangrijk, maar bij
kleine steekproefgrootte is het omgekeerde
8
,Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
• Vb. Onderzoek van de Prof. m.b.t. slaapritme van wetenschappers in Antarctica waarbij
het over ± 30 man ging (dag & nacht is daar anders, ze gaan weinig buiten en zitten
allemaal samen in een ruimte voor maandenlang wat tot conflicten of andere situaties
kan lijden). Toen Prof. data terugkreeg zag hij dat 1 van de participanten niet meer wou
deelnemen en dus was er missing data. Dan zag hij nog een ander gegeven waarbij EEG
toestel misliep, dus nog een missing data etc. etc. Uiteindelijk had hij maar N = 2 in SPSS
staan door ‘listwise deletion’. 14 maanden lang participanten vermoeien met het
onderzoek + zoveel tijd en geld insteken om uiteindelijk maar N=2 te hebben waarbij je
geen deftige data analyse kan doen, is wel vermoeiend. Je moet dus manieren vinden om
met missing data te kunnen omgaan, om ten minste een analyse te kunnen doen.
• Listwise deletion is een beetje standaard proces dat gebeurt, maar betekent NIET dat
het meest juiste methode is, omdat daar ook een soort van bias gebeurt.
- Indien te veel missing data: N vergroten (meer testen) of remediëren (zie verder)
• Lipstick on a pig: als je design niet goed was, data niet goed verzameld is etc. dan heeft
het transformeren van je data via statistisch methodes ook geen zin
→ Nonrandom missingness (systematisch missings)
- Bias!: heeft impact op je interpretatie
- Dit is wanneer bv. bepaalde/specifieke groepen uitgesloten worden uit je analyse
• Vb. hoge inkomens zoals Jeff Bezos zijn niet altijd geneigd om open te zijn over hun
inkomen etc. dus die gaan op een systematisch manier weigeren om bepaalde informatie
tegen over een variabele
- Merk je pas op als je missing data hebt bestudeerd
- Data kan missing zijn bij participant in het algemeen OF bij een bepaalde variabele (heeft het
te maken met je variabele of heeft het te maken met je respondenten?)
STAP 1: bepaal het soort missing data (MD):
→ Dit bepaalt de juiste remedie!
→ Zie stappenplan Hair et al. (2013), Figure 4, p. 43
1. Verwaarloosbare MD (= random missingness)
= je verwacht dit deels wel, omdat het een deel van de procedure is
(onvermijdelijk), en daarom is het toegelaten
→ Hoe is MD hier te verklaren? Bijvoorbeeld:
- Data van individuen (observatie-eenheden) die niet in de steekproef
zitten
• Oplossing: meer mensen gaan testen (niet zelf proefpersonen
gaan uitvinden)
- Data van skip-patronen (≈ branching) in design (e.g., “Rookt u? Zo neen, ga naar item x”)
- Censored data = niet beschikbare data
• Vb. onderzoek dat doorheen de tijd gebeurt. Het kan zijn dat proefpersoon gestorven is.
➔ Bij verwaarloosbare missing data (de 3 mogelijke verklaringen) ga je NIET remediëren!
2. GEKENDE NIET-verwaarloosbare MD
= te wijten aan procedurele factoren. Je hebt hier relatief weinig controle over
→ Hoe is MD hier te verklaren? Bijvoorbeeld:
9
, Olivier Mairesse 2023 – 2024
Damla Akgöl 3BA
- Codeerfouten, fouten bij ingeven data
- Vragenlijst niet volledig ingevuld (vb tijdsgebrek)
- Sterfte respondent
- Weigering “gevoelige” items, “geen mening”
3. ONBEKENDE niet-verwaarloosbare MD
= moeilijker op te sporen/remediëren
= gerelateerd aan respondent
STAP 2: hoeveel data is missing?
→ Indien omvang zeer klein is:
- Dit is eigenlijk wanneer < 10% van de data per case ontbreekt
- Als je voldoende cases hebt zonder missing
- Geen non-randomness (m.a.w. geen systematiek) < geen effect op resultaten + elke remedie
(nl. Data inputatie, transformatie, …) = OK
→ Indien groot: randomness (toeval-factor) gaan onderzoeken
STAP 3: toeval in MD onderzoeken! De 3 grote klassen van MD
1. Missing Completely At Random (MCAR)
→ Zeer weinig voorkomend
→ Tussen de subgroepen zijn missing data random gelijk
→ Impliceert dat de kans op data missing gelijk is voor iedereen in de sample
→ De oorzaak van missing data is onafhankelijk van de data (helemaal random)
→ Elke remedie is hier oké (je hebt er meerdere keuzes zoals opvullen met ‘fake’ data/andere
waarden)
2. Missing At Random (MAR) = onderzoeken!
→ Binnen subgroepen zijn missing data random, maar verschillen tussen groepen
→ Missing data zijn afhankelijke van andere variabelen
- Vb. studie naar het voorspellen van inkomen op basis van opleiding:
• Inkomensgegevens missen bij de groep laagst opgeleiden = MAR
• Inkomensgegevens missen bij de hoogste inkomens/een bepaalde “range” van
data ontbreekt = MNAR! (missing NOT at random = Jeff Bezos die inkomens bewust niet
zegt)
Missing at random (MAR) volgens Chatgpt:
"MAR betekent dat de ontbrekende waarden afhankelijk zijn van andere waarden in de gegevens, maar dat de
ontbrekende waarden zelf onafhankelijk zijn van de ontbrekende waarden. Dit betekent dat de reden waarom sommige
waarden ontbreken in de gegevens, verband houdt met de waarden die aanwezig zijn in de gegevens, maar niet met de
waarden die ontbreken.
Stel bijvoorbeeld dat je gegevens hebt over de leeftijd, het inkomen en het opleidingsniveau van een groep mensen. Als
je leeftijd en inkomen bekend zijn, maar het opleidingsniveau ontbreekt voor sommige mensen, dan is dit een
voorbeeld van "missing at random". Dit is omdat de ontbrekende waarden voor opleidingsniveau afhankelijk zijn van
leeftijd en inkomen, maar zelf onafhankelijk zijn van het ontbrekende opleidingsniveau
10