Onderzoeksmethoden 2
Regressie Analyse samenvatting 2024
Inhoudstafel
Onderzoeksmethoden 2........................................................................................................................1
Regressie Analyse samenvatting 2024...................................................................................................1
Inhoudstafel.......................................................................................................................................1
1. Constructie Model.............................................................................................................................2
1.1 Algemeen meervoudig lineair regressiemodel:............................................................................2
1.2 opnemen van variabelen.............................................................................................................3
1.3 dummy variabelen.......................................................................................................................4
2. Toetsen van de bruikbaarheid van het model....................................................................................5
2.1 Globale F-toets.............................................................................................................................5
2.2 Hoe goed past ons model bij de gegevens?.................................................................................5
3. Eenvoudig voorbeeld – interpretaties................................................................................................7
3.1 Constructie model........................................................................................................................7
3.2 Toetsen bruikbaarheid model (F-Toets).......................................................................................7
3.3 Hoe goed past ons model bij de gegevens?.................................................................................8
3.4 interpretatie model......................................................................................................................8
3.5 Voorspellingen adhv model........................................................................................................11
4. Analyse van de werkhypothesen.....................................................................................................13
4.1 Multicollineariteit......................................................................................................................13
4.2 Outliers detecteren....................................................................................................................14
4.3 Normaliteit van de afwijkingen..................................................................................................15
5. Hoe rapporteren?............................................................................................................................16
6. Uitbreidingen...................................................................................................................................18
6.1 Interactie-model........................................................................................................................18
6.2 Kwadratisch model.....................................................................................................................20
,Regressie analyse
Welkom bij de samenvatting over regressie analyse van Onderzoeksmethoden 2. Deze samenvatting
zal je grondig leren hoe regressie analyse uit te voeren en te interpreteren. Vanuitgaand dat je het
vorige deel van deze samenvatting hebt geleerd, over bivariate analyse, zal je zien dat dit een stuk
makkelijker zal gaan. Regressie analyse hergebruikt meeste concepten van bivariate analyse maar
bouwt er eigenlijk op voort. Een goede kennis van bivariate analyse zal dus belangrijk zijn in deze
samenvatting. Maar geen zorgen, er zal genoeg uitgelegd worden waar nodig.
1. Constructie Model
Bij het uitvoeren van een bivariate analyse hebben we verbanden onderzocht tussen bijvoorbeeld
het gemiddelde vertrouwen in de OH enerzijds en het regionale verschil in dat vertrouwen
anderzijds. Nu, in de regressieanalyse, zullen we dezelfde analyse uitvoeren, maar met toevoeging
van enkele factoren, ook wel 'controlevariabelen' genoemd.
Toegepast op de prijs van een huis: we kijken niet alleen meer naar oppervlakte van het huis, maar
we voegen er nu ook locatie, ligging, etc aan toe. Dit vormt de basis van het regressie model;
meerdere factoren onderzoeken op je hoofdvariabele (y) (in dit geval op de verkoopprijs van het
huis). Vandaar ook de naam meervoudige lineaire regressie.
1.1 Algemeen meervoudig lineair
regressiemodel:
Y: de te verklaren (afhankelijke) veranderlijke: dit is de hoofdvariabele
Merk op: veranderlijke is een
Let op: dit moet een schaal-variabele zijn!
synoniem voor variabele (moest
x1, x2,x3,.. : de verklarende (onafhankelijke) veranderlijken dit verwarrend zijn)
Dit is het basismodel van de regressie analyse, we maken echter nog een klein onderscheid bij de x-
variabelen.
Y: de te verklaren veranderlijke
x: meerdere onafhankelijke variabelen, bestaande uit 2 soorten:
1) Je kernvariabele (determinant die centraal staat in je onderzoek)
2) Controlevariabelen (andere x variabelen)
Het verband van de kernvariabele en y is wat je bij je onderzoek op focust, de controlevariabelen
voeg je er aan toe om te weten als die ook een effect hebben op y.
Bv. gewerkte uren (y) afhankelijk van geslacht (kernvariabele), maar we nemen ook leeftijd op
(controlevariabele) om het effect te krijgen van geslacht op loon gecontroleerd voor leeftijd.
,(bivariaat zou men hier enkel naar kijken als: wat is het effect van het geslacht op gewerkte uren)
Het gevolg hier van kan zijn dat we bij een bivariate analyse uitkomen dat mannen meer verdienen
dan vrouwen. Maar na een regressie analyse waarbij we factoren hebben toegevoegd zoals uren
gewerkt of tevredenheid met job, kan het zijn dat het effect van geslacht niet meer bestaat, dat dit
eigenlijk te wijten was aan andere factoren zoals bv uren gewerkt (mannen werken eigenlijk meer,
vandaar het hogere loon (dit is een voorbeeld)).
Onthoud dus goed voor het examen; het kan zijn dat je een bivariaat significant effect hebt, maar
voor multivariaat misschien geen significant effect.
Even wat extra intuïtieve uitleg die te kennen is voor het examen. De multilineaire regressie wordt
ook wel de kleinste-kwadraten-voorspellingsvergelijking genoemd.
Dit is omdat we de formule (rechts) zo klein mogelijk willen maken
bij het uitvoeren van onze regressie. De formule kennen we van
statistiek en geeft weer wat de afwijking is tussen de
waarnemingen en de voorspellingen. De formule is dan ook
de gekwadrateerde som van waarneming (yi) – voorspelling ( ).
Het doel van lineaire regressie is dus eigenlijk een regressielijn opstellen die zo dicht mogelijk
aansluit bij de waarnemingen. (de regressielijn die de SSE minimaliseert)
Nog wat extra uitleg alvorens we beginnen met het effectieve model:
2 vooronderstellingen voor de toevallige afwijking (ε) zijn:
1) Voor elke reeks waarden van xk, x2, ..., xk heeft de toevallige afwijking een normale kansverdeling
met een verwachting gelijk aan 0 en een variantie gelijk aan σ 2.
2) De toevallige afwijkingen zijn onderling
onafhankelijk.
Dit is hetzelfde als lineaire regressie en is te kennen. Geen zorgen als je niet begrijpt wat dit is of
waarom we dit zien, we komen hier later op terug (in puntje 4.3).
1.2 opnemen van variabelen
Nu hebben we even een wat theorie gezien en gezien wat ons model is, maar hoe neem je nu de
verschillende variabelen op in je regressie model?
Heel simpel antwoord; elke variabele in het model is ofwel een schaal variabele of een dummy
variabele
1) Hebben we een schaal variabele rechtstreeks opnemen in model
2) Hebben we een ordinale variabele
2.1 Transformeren in een schaal variabele (zoals bij bivariate analyse)
2.2 Één of meerdere dummy-variabelen aanmaken
3) Hebben we een nominale variabele één of meerdere dummy-variabelen aanmaken
,Bij 2) zullen we zo goed als altijd 2.2 gebruiken. (2.1 gebruiken we als de ordinale variabele bv in
klassen is ingedeeld (bv een klasse bij de bevraging naar inkomen is 500-1000. Om deze te
transformeren nemen we het gemiddelde van die klasse, namelijk 750 doe dit voor elke klasse en
je hebt een schaalvariabale) dit zal eerder uitzonderlijk zijn.)
Onthoud dus goed; schaalvariabelen zijn letterlijk opneembaar in het model, heb je te maken met
iets anders? (ordinaal, nominaal) = één of meerdere dummy-variabelen aanmaken
Je hebt dus ofwel schaal ofwel dummy-variabele(n).
1.3 dummy variabelen
Wat zijn dummy variabelen nu?
Dummy variabelen zijn variabelen die slechts 2 waarden kunnen aannemen: 0 of 1
Ze weerspiegelen dus de aanwezigheid (1) of afwezigheid (0) van een bepaalde eigenschap of
kenmerk(1).
(Belangrijk!) De interpretatie: Een dummy variabele geeft het effect van categorie met waarde 1 tov
categorie 0
Als ik een dummy heb waarbij vrouw 0 is en man 1; is dat het effect van man tov vrouw!
0= je referentiecategorie in je dummy
Je mag altijd zelf kiezen wat je referentiecategorie (0) is maar onthoud heel goed welke 0 is en welke
1 is, dit zal heel erg belangrijk zijn voor een juiste interpretatie later!
(1): extra uitleg, visueel weergegeven:
Als we het effect onderzoeken voor gewerkte uren van een vrouw, vullen we x=0 in en zal
wegvallen (x=0). Vullen we dit in voor een man, zal dus het extra effect zijn van een man tov
vrouw.
Dat was voor 1 dummy, wat als we dus meerdere dummies moeten aanmaken?
Aantal dummies= aantal categorieën -1
We doen -1 want één categorie moet je referentie zijn (0)
Hieronder kun je zien hoe je meerdere dummies aanmaakt. Je referentie is altijd 0 in elke dummy en
elke dummy heeft maar 1 categorie die 1 als waarde heeft.
, Dummy Vlaanderen toont ons het effect
van Vlaanderen tov referentie Brussel
Dummy Wallonië toont ons het effect van
Wallonië tov referentie Brussel
Hieruit kunnen we dan ook het effect van
Brussel interpreteren
(we komen hier later op terug)
2. Toetsen van de bruikbaarheid van
het model
We begrijpen nu hoe het model in elkaar zit. We gaan nu over tot het interpreteren van het model.
Dit is zeer gelijkaardig aan bivariate analyse (je hebt dus al een groot deel gedaan van het werk). In
de lessen gaat men eerst het model interpreteren en dan pas de bruikbaarheid toetsen. Ik zal het in
deze samenvatting omwisselen omdat je bij de oefeningen ook altijd eerst je bruikbaarheid zal
toetsen, net zoals bij bivariate analyse.
2.1 Globale F-toets
Om te kijken naar de bruikbaarheid van ons model kijken we altijd naar de Globale F-toets.
(Dit is dus een minimale voorwaarde)
We pakken dit aan op dezelfde manier als bij bivariate. We stellen alweer een H 0 op en verwerpen
die als de p-waarde kleiner is dan significantieniveau (α) = 0,05
H0= alle Beta’s (β0, β1, …) zijn gelijk aan 0
Ha= minstens één β is verschillend van 0
We voeren onze regressie uit en kijken naar deze tabel
om onze F-toets af te lezen. (Merk op: de tabel
noemt ANOVA maar heeft niets te maken met ANOVA
van Bivariate analyse) We lezen onze p-waarde af in het
rode kader. P-waarde = 0,000 H0 verwerpen
H0 verworpen = minstens 1 β is verschillend = model is bruikbaar
Dit is de eerste stap in interpreteren van ons regressie model. Na het bepalen dat ons model
bruikbaar is, gaan we over naar de 2de stap: Hoe goed is ons model? Hoe goed past ons model bij de
gegevens?
2.2 Hoe goed past ons model bij de gegevens?
Na het verklaren dat ons model bruikbaar is in 2.1 gaan we over tot de analyse hoe goed ons model
nu is. Bij dit stukje hebben we onze vriend R, we hebben hem in 2 vormen:
Meervoudige determinatiecoeëfficiënt: R2
Gecorrigeerde meervoudige determinatie-coëfficiënt: R2a