Samenvatting Kwantitatieve onderzoeksmethoden: Data-analyse 2
Jochem van Noord (coördinator van professor Bart Meuleman)
Korte recap van enkele belangrijke zaken binnen de statistiek/data-analyse:
Variantie: Spreiding rond de centrummaat (gemiddelde) = Spreidingskenmerk
Standaard normale verdeling via z-scores: Gemiddelde = 0 en Standaardafwijking = 1
Verbanden tss 2 variabelen
o Aard en richting van het verband Rij- en kolompercentages
o Veralgemeenbaarheid Significantietoets (via chi2-verdeling, scatterplot)
Kan de samenhang die w vastgesteld in de steekproef, veralgemeend w naar de populatie
o Sterkte van het verband Associatiematen (Cramer’s V)
Samenhang tss 2 ratio-/intervalvariabelen: Covariantie of correlatie
Betrouwbaarheidsinterval (95% Confidence Interval for Mean): Te vinden in SPSS via beschrijvende
statistieken (Descriptives < Explore)
Eenvoudigere manier om beslissing v/e hypothesetoets te onthouden, is: ‘When p is low, the 0 has to
go’
o Nulhypothese: Statistische onafhankelijkheid of gn samenhang; Gn significant verschil
o Alternatieve hypothese: Statistische afh of wel samenhang; Significant verschil
Les 1: Inleiding
Praktische informatie
Nt alle informatie uit teksten moeten gekend zijn, enkel stof die ook behandeld is in lessen!
Data-analyse 2 = Verdieping van data-analyse 1
o Nadruk op: Analyseren, interpreteren & rapporteren
o Naast SPSS, ook kennis van SPSS Process Macro en Mplus
Voorkennis (zie dia 6) is vereist
Mediatie: Proces waarbij een 3de variabele (mediator) verklaart hoe of waarom 2 andere variabelen
met elkaar verbonden zijn
Moderatie: Idee dat de sterkte of richting vd relatie tss 2 variabelen afhankelijk is v/e 3 de variabele
(moderator)
Mediatie + Moderatie (Conditional process model): Het Conditional Process Model combineert
mediatie en moderatie om te onderzoeken of de relatie tss 2 variabelen w beïnvloed door een 3 de
variabele (moderator), en of een mediator de relatie verklaart onder verschillende omstandigheden.
Het kijkt nr de samenwerking vn mediator en moderator om het effect vd onafhankelijke variabele
op de afhankelijke variabele te begrijpen.
Panel data: Datasets die informatie bevatten over dezelfde eenheden (zoals individuen of bedrijven)
verzameld over meerdere tijdsperioden. Itt cross-sectionele gegevens, biedt panel data inzicht in
veranderingen in variabelen over de tijd, waardoor onderzoekers dynamische patronen en trends
kunnen analyseren. Het w veel gebruikt in disciplines zoals economie en sociologie om evolutie vn
variabelen in de tijd te bestuderen
Factor analyse: Statistische methode die de onderliggende structuur v/e set variabelen identificeert
door deze te reduceren tot een kleiner aantal latente factoren
Confirmatorische factor analyse: Specifieke vorm waarbij vooraf bepaalde hypothesen over relatie
tss observabele variabelen en latente factoren w getest, om te beoordelen hoe goed het model
overeenkomt met de werkelijke gegevens
CFA (Confirmatory Factor Analysis): Bevestigt of weerlegt hypothesen over de structuur vn latente
factoren die waargenomen variabelen beïnvloeden
1
,SEM (Structural Equation Modeling): Bredere statistische techniek, inclusief CFA, waarmee complexe
relaties tss variabelen kunnen w gemodelleerd, getest en geanalyseerd
Herhaling: Basisconcepten (zie dia’s 17-37)
- Beschrijvende statistiek: Meetniveau (zie dia’s 18-19)
o Nominaal/Categorisch, Ordinaal, Metrisch/Continu
- Univariate statistieken (zie dia’s 20-21)
- Bivariate statistieken: Samenhang (zie dia’s 22-26)
o (Partiële) Correlatie: 2 metrische variabelen – Scatterplot
Correlatie is GEEN causaliteit!
Correlatie is lastig te interpreteren (wat betekent een correlatie vn 0.2?), mr is
hetzelfde als een gestandaardiseerde regressie! (zie dia 42)
o Chi-kwadraat: 2 categorische variabelen – Kruistabel
o Factor-analyse: Meer dan 2 metrische variabelen
- Analyse van de afhankelijkheid (zie dia’s 27-37)
o Regressie: 2 metrische variabelen
o Regressie met dummies: Metrisch (afhankelijk) x Categorisch (onafhankelijk)
o Logistische regressie: Metrisch (onafhankelijk) x Categorisch (afhankelijk)
o Logistische regressie met dummies: 2 categorische variabelen
Herhaling: Regressie (zie dia’s 38-45)
- Doelstelling regressie
o Bivariate regressie:
o Meervoudige regressie:
o Doelstelling?
1. Zoeken vd regressierechte die beter dan elke andere rechte de aard vh verband tss Y
en X weergeeft
2. Nagaan wat de sterkte en de richting is vh verband tss de afhankelijke variabele Y en
de onafhankelijke variabele X
3. Nagaan in welke mate het verband dat werd vastgesteld in de steekproef kan w
veralgemeend tot de populatie (= Significantie vh verband)
4. Inhoudelijke interpretatie vh verband
o Model van bivariate regressie
a = intercept: De waarde van y als x gelijk is aan 0
Het snijpunt vd rechte met de y-as
b = richtingscoëfficiënt (slope): De verwachte toename (b > 0) of afname (b < 0)
in de verwachte waarde vn Y voor een eenheidsverandering in X
Vb: Toepassing
en
interpretatie
(zie dia’s 42-
43)
Elke SD
stijging in X
zorgt voor β
SD stijging in
Y!
2
,Les 2: Regressie & Mediatie
Overzicht
- Meervoudige regressie (herhaling): ‘Doelstellingen regressie’ en ‘Schatting & interpretatie’
- Mediatie: ‘Doelstelling mediatie’ en ‘Enkelvoudig mediatie-model’
Voorbeeld: Politiek vertrouwen (zie dia’s 3-4)
Meervoudige regressie model (zie dia’s 5-6)
Doelstelling?
1) Zoeken vd regressierechte die beter dan elke andere rechte de aard vh verband tss X en Y
weergeeft, onder controle van andere relevante onafhankelijke variabelen (controle
variabelen)
2) Nagaan wat de sterkte en de richting is vh verband tss de afhankelijke variabele Y en de
onafhankelijke variabele X, onder controle van...
3) Nagaan in welke mate het verband dat werd vastgesteld in de steekproef kan w
veralgemeend tot de populatie (significantie vh verband), onder controle van...
4) Inhoudelijke interpretatie vh verband
Gestandaardiseerde regressie parameter
Ongestandaardiseerde regressie coëfficiënten zijn afh vd meeteenheid vn (on)afhankelijke
variabelen (Bv: 10- punt schaal vs 50-punt schaal vs inkomen in euro)
Gestandaardiseerde regressie coëfficiënten zijn onafh vd meeteenheid ( Herschaling via z-
scores) zodat effecten vn onafh variabelen onderling vergeleken kunnen w
Wnr de regressie-analyse w uitgevoerd met gestandaardiseerde variabelen is het intercept
steeds 0
Gestandaardiseerde richtingscoëfficiënt ligt altijd tss -1 (perfect negatief verband) en 1
(perfect positief verband) (0 = geen verband)
Significantietesten
Wat? < Nagaan veralgemeenbaarheid vn regressiemodel nr de populatie
Hoe?
o T-test: Significantietest voor individuele regressieparameters
o Betrouwbaarheidsintervallen voor regressieparameters
o Modelvergelijkingsprocedure & F-Test
T-Test voor intercept (zie dia 9) en T-Test voor slope (zie dia 10)
Betrouwbaarheidsinterval
Een 95%-betrouwbaarheidsinterval voor xxx of xxx wordt berekend door de kritische
waarden te bepalen in een t-verdeling met (N-2) vrijheidsgraden waartussen 95 % vd
oppervlakte is begrepen
Noteren we het gewenste betrouwbaarheidsniveau aan als (1-xxx), dan w het
betrouwbaarheidsinterval als volgt berekend:
Interpretatie: De kans dat het betrouwbaarheidsinterval de reële waarde van xxxxxxxx in de
populatie omvat, bedraagt (1-xxx) %
Modelvergelijking & F-test (zie dia’s 12-15)
Modelvergelijkingsprocedure vergelijkt uitgebreid model met onafh variabelen (uitgebreid
model) met beperkt model zonder deze onafhankelijke variabelen (beperkt model)
3
, De nulhypothese is dat uitgebreide model (met p bijkomende parameters) geen significante
meerwaarde levert tov het beperkte model zonder deze onafh variabelen
De nulhypothese vd modelvergelijkingsprocedure in meervoudige regressie is dat de partiële
regressiecoëfficiënten voor álle onafh variabelen in de populatie gelijk zijn aan 0
De alternatieve hypothese is dat minstens 1 vn onafh variabelen een effect heeft in de populatie
Teststatistiek: F-Test
De nulhypothese w getest adhv de F-test die nagaat of de toename in verklaarde varia(n)tie in het
volledige model tov het beperkte model voldoende groot is om de nulhypothese te verwerpen
Toepassing (zie dia 13):
o Intercept: 4,005 < Score als die persoon 0 scoort op de andere onafh variabelen
o 0,141 < Politiek vertrouwen vd moeder neemt met 1 toe, dan neemt dat vh kind 0,141 toe, als het
politiek vertrouwen vd vader constant blijft
o 0,134 < Politiek vertrouwen vd vader neemt met 1 toe, dan neemt dat vh kind 0,134 toe, als het
politiek vertrouwen vd moeder constant blijft
o 0,067 < Sterkte vh verband: 6,7% vd variantie in politiek vertrouwen vh kind w verklaard door het
politiek vertrouwen vd moeder en de vader
o 3,742 < 95% betrouwbaarheidsinterval
o Significantie: P-waarde < Hoe wss dat je het model kan veralgemenen vd steekproef nr populatie
o F-waarde: 58,277 Gereduceerde model: Enkel het intercept, zonder voorspellers/predictoren,
dus zonder de invloed vd moeder en de vader
Interpretatie (zie dia 14) en oefening (zie dia 15)
Dummy-regressie (zie dia’s 16-15)
Wanneer?
o ‘X is een nominale/categorische variabele’ OF ‘X is een ordinale variabele’
o K categorieën K – 1 dummy variabelen, + 1 referentiegroep
o Kies een referentiecategorie die inhoudelijk zinvolle vergelijkingen oplevert, bv: Modale
categorie bij nominale variabelen of laagste categorie bij ordinale variabelen
Interpretatie? (zie dia’s 17-18): Constante 3,603 verwijst nr een jongen; Meisjes scoren 0,036
hoger
Mediatie
1. Doelstelling mediatie model
Mediatie: Hoe?
Vb 1: ‘No child is born prejudiced... the context of his learning is always
the social structure in which his personality develops’ (zie dia’s 23-24)
Mediatie versus causaliteit
Mediatie ≠ causaliteit, mr causaliteit w wel verondersteld
3 voorwaarden om over ‘causale relatie’ te kunnen spreken:
1) Covariatie
2) Tijdsordening tss variabelen ( Cross-sectionele data)
3) Uitsluiten van alternatieve verklaringen
Alternatieven?
o Experimenteel onderzoek (met random toekennen respondenten aan experimentele
condities)
o Longitudinaal onderzoek (bv: Panel data), mr gn uitsluitsel vn alternatieve verklaringen
Voorzichtig met causale conclusies!
o 'X is gerelateerd aan Y’ vaak te verkiezen boven ‘X heeft een effect op Y’
o Voorbeeld v/e correlatie, en slechts een imaginaire causaliteit
4