Verdieping in Onderzoeksmethoden en Statistiek (201900054)
Établissement
Universiteit Utrecht (UU)
Dit is een uitgebreide overzichtelijke samenvatting van de hoorcolleges 1 t/m 6 (dus alle kwantitatieve onderwerpen komen aan bod) van het vak VOS. Er zijn veel afbeeldingen (van bijvoorbeeld SPSS output) toegevoegd ter verduidelijking.
Interdisciplinaire Sociale Wetenschappen. Jaar 2, blok 2.
We...
Verdieping in Onderzoeksmethoden en Statistiek (201900054)
Tous les documents sur ce sujet (11)
1
vérifier
Par: anaitkassi • 2 année de cela
Vendeur
S'abonner
lisannekuiper44
Avis reçus
Aperçu du contenu
VOS
Kwantitatief
HC 1 – Multipele regressie
1. Inleiding
Vaak gebruikt bij onderzoek met een afhankelijke variabele
(bv schoolprestaties) een veel mogelijke factoren (school,
opvoeding, gezin) die deze beïnvloeden. Zie het voorbeeld
hiernaast.
Met multipele regressie krijg je direct een antwoord op de
vraag: hoe goed kunnen we onderwijsachterstand verklaren
en welke mogelijke invloeden zijn de belangrijkste??
Enkelvoudige regressie = Kijken of één onafhankelijke
variabele de afhankelijke variabele kan
voorspellen.
Meervoudige (multipele) regressie = Kijken of twee of meer onafhankelijke variabelen de
afhankelijke variabele voorspellen.
2. Doelen van multipele regressie analyse
Het doel van regressie is uiteindelijk relaties te ontdekken waarmee je voorspellingen kunt
doen in de populatie (dus ook over mensen die niet in je steekproef zaten).
• Beschrijven van lineaire relaties tussen variabelen (regressie / lineair model)
• Toetsen van hypothesen over relaties (significantie)
• Kwantificeren van relaties (effectgrootte)
• Kwalificeren van relaties (klein, middel, groot)
• Beoordelen van de relevantie van relatie (subjectief)
• Voorspellen van iemands waarde met regressiemodel (punt- & intervalschatting)
! Je kan op basis van statistische samenhang géén uitspraken over causaliteit doen.
3. Meetniveau van de variabelen
Afhankelijke variabele Y → Minimaal gemeten op interval niveau (dus nominaal
en ordinaal mogen niet).
Onafhankelijke variabele X → Minimaal gemeten op interval niveau.
• Categorisch kenmerk met 2 categorieën (bv sekse) → Normaal noemen we
dit nominaal, maar omdat het er precies twee zijn ‘dichotoom’.
• Categorisch kenmerk met meer dan 2 categorieën (bv etniciteit) → Kan
niet zomaar worden meegenomen in analyse, omzetten naar dummyvariabele.
, 4. Regressiemodel
In het algemene Padmodel hiernaast:
➔ Het horizontale streepje bij X2 is om aan te geven dat het een
dichotome variabele is: een variabele waarbinnen je 2
categorieën kunt onderscheiden, bv bachelor en pre-master
studenten. Padmodel
Vergelijking voor geobserveerde Y:
• Model = een lineaire regressiemodel (X = alle predictoren die je hebt meegenomen)
• Voorspellingsfout wordt ook wel residu of residual genoemd. Je probeert zo dicht
mogelijk bij Y te komen, maar je houdt altijd nog een foutje over.
Vergelijking voor voorspellen van waarde op Y (= Ŷ):
Deze voorspelling kun je doen als je iemand waarden voor X weet. Als je opzoek bent naar de
kennis van literatuur (Y), en je weet het aantal boeken in huis (X1), literaire kennis van de
vader (X2) enzovoorts, kun je voorspellen wat Y is. Deze waarde is anders dan wat je
daadwerkelijk zal vinden in je steekproef.
➔ Het verschil tussen Y en Ŷ is de voorspellingsfout!
Uiteindelijk volgt hier een vergelijking uit waarmee je Y kunt voorspellen:
• Y = afhankelijke variabele (dependent)
• X = onafhankelijke variabelen (predictors)
➔ X is een variabele: mensen verschillen op de X, maar de B is hetzelfde.
• B0 = intercept (constante), ook wel a (soort startwaarde)
• B1 = regressiecoëfficiënt (slope)
➔ De B’s zijn het ‘effect’: ze geven aan hoe Y verandert als X ook verandert.
• E = voorspellingsfout (error / residual)
5. Kleinste kwadraten criterium
Met een regressieanalyse wil je de relatie beschrijven
met een rechte lijn. Hier hoort een wiskundige
vergelijking bij met 2 kenmerken:
• Een constante, b0, is het beginpunt (intercept)
• Het regressiecoëfficiënt (b1) geeft aan hoeveel
de lijn per eenheid van X omhooggaat Spreidingsdiagram
(richting).
In dit spreidingsdiagram kies je dus de best passende lijn, waarbij de voorspellingsfout zo
klein mogelijk is. Deze verkrijg je met het kleinste kwadraten criterium: de hoogste en
laagste punten kwadrateer je en trek je van elkaar af. Zo kom je uit op de beste lijn.
,De voorspellingsfout is dus de afstand tussen de geobserveerde
waardes (de punten) en wat we volgens de lijn voorspellen.
De blauwe streepjes geven de residuen weer: de afstand tussen de
geobserveerde score en de geschatte score.
• Positief residu = wanneer de geobserveerde waarde boven
de zwarte lijn ligt (onderschatting door model).
• Negatief residu = wanneer de geobserveerde waarde onder
de zwarte lijn ligt (overschatting door model).
6. Goodness-of-fit
De beste regressielijn is dus de lijn met de kleinste residuele kwadratensom. Maar: hoe goed
is deze regressielijn nu eigenlijk?
Dit bepaal je met Goodness-of-fit (R2) → De lineaire regressielijn ga je vergelijken met een
basislijn. Als je afhankelijke variabele ‘kennis van literatuur is’, kun je als basislijn met de
kleinste voorspellingsfout het gemiddelde nemen voor kennis van literatuur! Daarnaast weet
je dat andere variabelen (opleiding bv) hier invloed op hebben, dit moet je meenemen.
SS = Sum of Squares (kwadratensom), de optelling van alle voorspellingsfouten.
• SST = Totale kwadratensom: alle residuen gekwadrateerd en opgeteld
• SSM = kwadratensom van het Model (van de rechte lijn dus)
• SSR = kwadratensom van het Residu (de voorspellingsfout)
Uiteindelijk heb je een maat nodig voor hoe goed het model in staat is om die totale fout - die
je maakt bij het gebruik van het gemiddelde als voorspelling – te verkleinen met de kennis
over bijvoorbeeld opleiding als variabele.
De blauwe rechte lijn hiernaast is het
gemiddelde (dus zonder rekening te houden
met predictoren).
• De afstand van individu Yi tot de rechte
gemiddelde lijn – het basismodel - heet
de deviatie (t).
• Afstand van Yi het lineaire model heet
residu, de fout die je nog overhoudt.
• De afstand die je ‘wint’ met het lineaire
model, heet het verklaarde deel.
Uiteindelijk kijk je niet meer naar één individu, maar ga je voor elk individu t, m en r
kwadrateren en optellen. Dan kom je bij de Sum of Squares. Dan krijg je de Goodness-of-fit.
De kwadratensom van het lineaire model deel je door de totale kwadratensom.
Dan weet je de proportie door het model (X) verklaarde variatie in Y.
R2 ligt tussen de 0 en de 1:
➔ 1 betekent perfecte verklaring door het model: alle punten op de lijn.
➔ 0 betekent dat de lineaire lijn precies gelijk loopt met de basislijn.
, R (multipele correlatiecoëfficiënt) = R en R2 kun je beschouwen als de correlatie tussen
geobserveerde Y en voorspelde Ŷ.
2
R (determinatiecoëfficiënt) = de proportie in Y verklaarde variantie door het model. Dit
zegt dus iets over hoe goed het model in staat is om variatie te verklaren.
7. Toetsen van R2 en B’s
Herhaling: hypothesen gaan over de populatie. Met behulp van steekproeven uit de populatie
proberen we iets te kunnen zeggen over de hele populatie. Wat je wilt beschrijven:
• De verklaring van Y door alle X’en (R2) → Het hele model
• De invloed van alle afzonderlijke X’en op Y (B’s) → De afzonderlijke factoren
Bij de toetsing (van bv de goodness-of-fit, R2 of verklaarde variantie) heb je een aantal
alternatieve hypothesen:
• R2 > 0 → Het regressiemodel verklaart variatie in Y
o Nulhypothese is dat het regressiemodel niks verklaart
• B > 0 of B < 0 → Er is effect van X op Y
o Nulhypothese is dat er geen effect is van X op Y
➔ Voorbeeld en uitleg toetsen R2
Kan literatuurkennis verklaard worden met het aantal boeken in het ouderlijk huis (1) én
literatuurkennis van de vader (2) én literatuurkennis van de moeder (3)?
• In je model krijg je dan 3 B’s: Y = B0 + B1X1 + B2X2 + B3X3 + E
• Hypothesen: H0 → R2 = 0
Ha → R2 > 0
• Toetsen met de F-Toets → Om de statistische significantie te beoordelen (α = .05).
Hiermee bepaal je of je de nulhypothese verwerpt of behoudt.
o Gegeven de nulhypothese (geen effect), wat is dan de kans dat we deze
bevinding in de steekproef hebben gevonden? Dat kan komen doordat de
nulhypothese niet juist is!
o Toetsingsgrootheid F (of F-ratio) → MS = Mean sum of
squares (ook wel variantie!). Deze verkrijg je door de SS te
delen door vrijheidsgraden (degrees of freedom).
• Beoordelen van R2 → Het is misschien dan wel statistisch significant, maar stelt dit
ook wat voor? Hiermee kwantificeer je de relatie: groot, middelmatig of klein
effect?
Voorbeeld SPSS uitvoer:
R2 is 13.7%, dus 14% van de
variantie in Y-scores wordt verklaard
door X. Om te kijken of dit
significant is, gebruik je de F-toets.
Het significantieniveau is .000, dus
lager dan .05. Het effect is dus
significant.
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur lisannekuiper44. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €4,39. Vous n'êtes lié à rien après votre achat.