Enkelvoudige – en meervoudige lineaire regressie
Voorwaarden enkelvoudige lineaire regressie
- Afhankelijke/ endogene/ verklaarde variabele wordt voorspelt door één onafhankelijke/
exogene/ verklarende variabele.
- AV: interval
- OV: interval/ categorisch/ dummy
Voorwaarden meervoudige lineaire regressie
- Afhankelijke/ endogene/ verklaarde variabele wordt voorspelt door meerdere
onafhankelijke/ exogene/ verklarende variabele.
- AV: interval
- OV: interval/ categorisch/ dummy
STAP 1: INVOEREN SPSS
- COMMANDO: analyze regression lineair
- DEPENDENT: afhankelijke variabele
- INDEPENDENT: onafhankelijke variabele(n)
- STATISTICS: estimates, confidence intervals, model fit, descriptives, part en partial
correlations, collinearity diagnostics
- PLOTS: ZRESD (Y) en ZPRED (X), histogram, normal probability plot, produce all partial plots
- SAVE: unstandardized en standardized predicted values, unstandardized en standardized
residuals
- OPTIONS: include constant in equation aanvinken (= rechte niet door oorsprong)
STAP 2: OUTPUT
1. Descriptive statistics
2. Correlations
- WERKHYPOTHESE LINEARITEIT (NUMERIEK): Lineair verband tussen AV en elke OV apart?
Pearson correlatie: hoe sterk is lineair verband? Significant lineair verband (1-tailed 2-
tailed x2)?
- WERKHYPOTHESE MULTICOLLINEARITEIT (NUMERIEK): Significant verband tussen OV
onderling?
3. Variables entered/ removed
4. Model summery
- R: de (multipele) correlatiecoëfficiënt tussen de werkelijke (geobserveerde) y-
waarden en de geschatte y-waarden. Hoe hoger deze waarde, hoe beter het model
de werkelijkheid benadert.
- R SQUARE: percentage variantie in de AV dat verklaard wordt door het percentage variantie
in alle OV’s. Hoe meer OV’s, hoe hoger R SQUARE (adjusted R square bestraft hierop).
- ADJUSTED R SQUARE: idem interpretatie R SQUARE, houdt rekening met aantal OV’s in
verhouding met aantal waarnemingen, typisch lager dan R SQUARE, gebruikt om modellen te
vergelijken met verschillend aantal OV’s en waarnemingen.
- STD. ERROR OF THE ESTIMATE: schatting van regressiestandaardafwijking in populatie (= 𝜎)
, 5. ANOVA
- F-TOETS: verklaart het model een significant deel in de AV? F(p, n-p-1) = MSM/MSE
- MEERVOUDIG: is er minstens 1 regressiecoëfficiënt die significant verschilt van 0?
- ENKELVOUDIG: verschilt de regressiecoëfficiënt significant van 0?
6. Coefficients
- UNSTANDERDIZED B: wanneer OV met 1 eenheid stijgt, gaat de AV gemiddeld … eenheden
stijgen of dalen (eigen eenheid).
- COEFFICIENTS STD. ERROR: standaardfout van de regressiecoëfficiënten.
- STANDERDIZED COEFFICIENTS BETA: wanneer OV met 1 eenheid stijgt, gaat de AV gemiddeld
… eenheden stijgen of dalen (relatieve impact, alle OV’s uitgedrukt in eenzelfde eenheid).
- T-TOETS: verklaart de regressiecoëfficiënt een significante bijdrage in de AV rekening
houdend met de verklaringskracht van de andere OV’s? t(n-p-1) = b1/SE1
- 95,0% CONFIDENCE INTERVAL FOR B: betrouwbaarheidsinteval voor regressiecoëfficiënt,
geen significantie indien 0 in BI zit.
- PARTIAL CORRELATIONS: percentage unieke verklarende variantie van die OV in de AV
- COLLINEARITY DIAGNOSTICS: WERKHYPOTHESE MULTICOLLINEARITEIT (NUMERIEK)
TOLERANTIE (TOL): min. 0.5, percentage variantie van de OV die NIET verklaard wordt
door de andere OV’s. TOL = 1-𝑅2∗
VARIANCE INFLATION FACTOR (VIF): max 2. VIF = 1/TOL
7. WERKHYPOTHESE NORMALITEIT (GRAFISCH en NUMERIEK)
- HISTOGRAM: data volgt curve van normaalverdeling.
- NORMAL P-P PLOT: residuals liggen op de hoofddiagonaal (= gestandaardiseerde N-
verdeling), geen slinger.
- K-S TOETS: standardized residuals moeten N-verdeeld zijn. (D = …, p = …)
8. WERKHYPOTHESE HOMOSCEDASTICITEIT (GRAFISCH)
- SCATTERPLOT: elke standardized predicted value ligt even ver van het punt op de
regressierechte (standardized residuals), je kan er een tunnel doortrekken en alle bolletjes
moeten in de tunnel zitten.
9. WERKHYPOTHESE LINEARITEIT (GRAFISCH)
- SCATTERPLOT: residuen liggen dicht bij 0 (waarnemingen liggen dicht bij voorspellingen).
- PARTIAL REGRESSION PLOT: lineair verband tussen AV en elke OV apart, bolletjes liggen op
een rechte lijn.
STAP 3: RAPPORTERING APA
- Een meervoudige/ enkelvoudige lineaire regressie werd uitgevoerd met … als verklaarde
variabele en … als verklarende variabele(n).
- Het model geeft aan dat … (F(p, n-p-1) = …, p = …, 𝑅2 adj = …).
- Specifiek blijkt er een significant positief/ negatief lineair verband te bestaan tussen … en …
(𝛽 = …, t(n-p-1) = …, p = …)
- De andere onafhankelijke variabelen dragen niet significant bij aan de verklaring van de
afhankelijke variabele.
, Logistische regressie
Voorwaarden enkelvoudige logistische regressie
- Afhankelijke/ endogene/ verklaarde variabele wordt voorspelt aan de hand van één
onafhankelijke/ exogene/ verklarende variabele.
- AV: categoriaal (ordinaal/nominaal) – kwalitatieve dummy variabele (code 0/1)
- OV: interval/ categorisch/ dummy
Voorwaarden meervoudige logistische regressie
- Afhankelijke/ endogene/ verklaarde variabele wordt voorspelt aan de hand van meerdere
onafhankelijke/ exogene/ verklarende variabele.
- AV: categoriaal (ordinaal/nominaal) – kwalitatieve dummy variabele (code 0/1)
- OV: interval/ categorisch/ dummy
Binaire/dichotome/dummy logistische regressie: AV bestaat uit 2 categorieën
Multinominale logistische regressie: AV bestaat uit meer dan 2 categorieën
STAP 1: INVOEREN SPSS
- COMMANDO: analyze regression binary logistic
- DEPENDENT: afhankelijke variabele
- COVARIATES: onafhankelijke variabele(n) (indien dummy categorical)
- SAVE: probabilities predicted values (= voorspellingen/ geschatte kansen = kans om in een
bepaalde groep te komen + welke groep (< 0.5, groep 0 en > 0.5, groep 1))
- OPTIONS: Hosmer-Lemeshow goodness of fit (= kwaliteit model, past het model bij data?)
STAP 2: OUTPUT
1. Case processing summery en dependent variable encoding
= aantal geldige waarnemingen en codering AV
2. Block 0: beginning block
= gegevens over waarnemingen (observed) en voorspellingen (predicted) in geval dat er geen
exogene variabelen zijn
Classification table
Variables in the equation (enkel constante)
Variables NOT in the equation (exogene variabelen die we gaan toevoegen aan nulmodel)
3. Block 1: method = enter
= model waarin exogene variabelen worden toegevoegd
Omnibus tests of model coefficients: vergelijkt geschatte model (met exogene variabelen)
met het nulmodel (zonder exogene variabelen). Indien significant dan verschilt minstens
1 beta significant van 0. De data past dan goed bij het model, model is kwaliteitsvol en
past beter dan het nulmodel. ( 𝜒2 (𝑘)= …, p = …)
Model summery: pseudo R2-maten (Cox en Snell, Nagelkerke), maar bij dummy-
variabelen kan je geen variantie interpreteren dus worden niet gebruikt, nemen lagere
waarden aan dan normaal