Samenvatting Stappenplan SPSS Multivariate data analyse + notaties tentamen
89 vues 5 fois vendu
Cours
Multivariate Data Analyse
Établissement
Universiteit Leiden (UL)
Dit stappenplan bevat de vragen die in de werkgroepen worden behandeld + welke stappen erbij horen. Daarnaast zijn er plaatsjes toegevoegd waar nodig. Dit stappenplan is dus ideaal om te gebruiken tijdens de werkgroepen of tijdens het tentamen. Het tentamen bevat vaak dezelfde vragen als in dit doc...
Pearson correlatie:
Analyze → Correlate → Bivariate → variabelen verplaatsen naar grote vak → Klik pearson
aan bij correlation coefficients → OK
Wat is de sample size N?
Kijk in de correlations tabel bij N of kijk in de data view hoeveel participanten er staan of kijk
in de ANOVA tabel bij df total en doe dit getal +1
Does it make sense to perform a linear regression?
Theoretische vraag: is het logisch om aan de hand van de predictoren de afhankelijke
variabele te gaan voorspellen of hebben ze niks met elkaar te maken?
Which variable is likely to be a good predictor of GPA (afhankelijke variabele)?
Hoge correlatie tussen GPA en IQ (predictor)? → dan is IQ een goede voorspeller voor GPA
Notatie tentamen: Intelligentie quotiënt, r = .597, p < .001
Lineaire regressie van GPA (Y, afhankelijk) op IQ, age, gender and self-concept (X,
onafhankelijk):
Analyze → regression → Lineair → GPA naar dependent, de rest naar independent
verplaatsen → klik bij statistics op part en partial correlations, en collinearity diagnostics →
klik bij Save op Cook’s distance en Leverage values → OK
Hypothese verwerpen / afwijzen: (voer eerst de stappen uit die bij lineaire regressie staan
om de juiste tabel te krijgen)
Kijk in ANOVA tabel → kijk naar de F toets en de p-waarde bij sig. (df = dfregression,
dfresidual) * Notatie Tentamen: Ja, F(..,,..) = …, p = …
Hoeveel variantie van Y (GPA) wordt door het hele model verklaard? (voer eerst de stappen
uit die bij lineaire regressie staan om de juiste tabel te krijgen)
Kijk bij Rsquare in de model summary tabel
*Notatie tentamen: 55,9%, R2 = 0,559
Hoeveel van de variantie wordt uniek verklaard door de variabelen? (voer eerst de stappen
uit die bij lineaire regressie staan om de juiste tabel te krijgen)
Kijk in de coeffiecients tabel naar ‘part’ en kwadrateer dit getal (doe dit per variabele), en
maak er procenten van *Notatie tentamen: Intelligentie Quotient, r2y(1.234) = (.487)2 = .237
Is er bewijs voor multicollineariteit? (voer eerst de stappen uit die bij lineaire regressie staan
om de juiste tabel te krijgen)
Kijk in de coefficients tabel bij collinearity statistics → geen bewijs voor multicollineariteit
wanneer Tolerance > .10 en VIF < 10
1g) VIF < 10 en Tolerance > .10 → geen sprake van multicollineariteit
,Is er sprake van uitbijters? (voer eerst de stappen uit die bij lineaire regressie staan om de
juiste tabel te krijgen)
Kijk in de residual statistics tabel bij Cook’s Distance en Leverage → kijk naar het getal bij
max. → Leverage value max. moet kleiner zijn dan 3 * (p+1) / N (p = aantal predictoren) →
zit het daar boven? Dan is het een uitbijter → Cook’s Distance max. moet kleiner zijn dan 1
→ groter dan 1? Dan is het een uitbijter
*Notatie tentamen: No. All Cook’s distances below 1. All leverage values below 3(4 + 1)/77 = .195
Sorteer je data bij de data view door de kolom Cook’s D te selecteren en klik op op ‘sort
ascending’ → hoogste Cook’s D komt bovenaan → uitbijter sneller te vinden
Uitbijter verwijderen – use selection to get rid of outliers (in dit geval leeftijd < 13, want 31 is
de enige uitbijter)
Data → select cases → if condition is satisfied → age < 31 → continue → OK
Hierna kun je de analyse opnieuw uitvoeren zonder de uitbijter door de bovenstaande
stappen te herhalen
Remove non-significant predictors, perform a linear regression of GPA on the remaining
predictors, in plots make a scatter plot of the standardized predicted values versus the
standardized residuals, and ask for the normal probability plot:
Kijk bij de coefficients tabel welke predictoren significant zijn → kijk bij de p-waarde (sig.)
van de t-toetsen
Analyze → regression → lineair → GPA bij dependent, alleen significante predictoren bij
independent (< .001) → klik op Plots → standardized predicted values (*ZPRED) bij X as →
standardized residuals (*ZRESID) bij Y as → klik ‘normal probability plot’ aan → continue →
OK
- Als er wordt gevraagd naar de uniek verklaarde variantie moet je bij de stappen
hierboven nog bij statitics ‘part and partial correlations’ aanklikken
Lineariteit
- Kijk naar scatter plot → horizontale rechte lijn door het midden het beste? → dan
sprake van lineariteit (bij een curve is het niet lineair)
Homoscedasticiteit
- Is de spreiding van de punten ongeveer gelijk verdeeld? → dan is er sprake van
homoscedasticiteit
Normaliteit
- Kijk bij de normal P-P plot → als de punten redelijk rondom de lijn verdeeld zijn is er
sprake van normaliteit
What is the estimated regression equation? Interpret the regression coefficients
Kijk in de coefficients tabel bij de unstandardized coefficients, het bovenste getal onder ‘B’ (=
constante). Doe deze constante + X1 * ‘getal bij B van de predictor’, etc. Voorbeeld
regressievergelijking:
Y^ = -33.728 + X1*.731 + X2*-7.749 + *X3.458 →
*Notatie tentamen: GPA^= -33.236 + .735(IQ) – 7.479(Gender) etc
Interpretatie:
- Positieve score bij een predictor (X1) betekent dat de afhankelijke variabele (GPA)
hoger wordt wanneer de proefpersoon hoger scoort op die predictor X1
, - Negatieve score bij een predictor (X2) betekents dat de afhankelijke variabele (GPA)
lager wordt wanneer de proefpersoon hoger scoort op die predictor X2
- Let op bij geslacht: dit staat gecodeerd als 0 en 1 dus een lagere score (in dit geval 0)
zorgt voor een hogere GPA (in dit geval is de predictor geslacht dus negatief)
Hoeveel variantie van GPA wordt verklaard door alle predictoren?
Kijk bij Rsquare in de Model Summary tabel → bv. Rsquare = .307 = 30,7% *Notatie
tentamen: R^2 = .307
Welke predictor verklaart de meeste unieke variantie?
Kijk bij part en kwadrateer dit getal
- Bij deze opdracht: nu leeftijd uit het model is gehaald is de verklaarde variantie van
IQ groter omdat er een deel overlap weg is tussen leeftijd en IQ
Perform a linear regression of self-efficacy on locus of control. In Plots, make a
scatterplot of the standardized predicted values versus the standardized residuals, and
ask for the normal probability plot.
Analyze → regression → lineair → self-efficacy bij dependent, locus of control bij
independent (< .001) → klik op Plots → standardized predicted values (*ZPRED) bij X as →
standardized residuals (*ZRESID) bij Y as → klik ‘normal probability plot’ aan → continue
→ OK
Add neuroticism as a predictor in a second block to the linear model. In Statistics, ask for
R squared change.
Analyze → regression → lineair → klik op next → voeg neuroticisme toe in dit nieuwe blok
bij independent(s) → statistics → R squared change aanklikken → klik ook part and partial
correlations aan → continue → OK
Does adding neuroticism significantly improve the linear model?
kijk in de table Model Summary bij Rsquare change model 2, dit is de hoeveelheid die
extra wordt verklaard door het toevoegen van de predictor (kijk of het significant is bij
sig. F change) → *Notatie tentamen: Ja, F(1,197) = 154.549, p < 0.001
What is the estimated regression equation? Interpret the regression coefficients
Kijk in de coefficients tabel bij de unstandardized coefficients, het bovenste getal onder ‘B’ (=
constante). Doe deze constante + X1 * ‘getal bij B van de predictor’, etc.
- Let op dat je de constante B van model 2 pakt omdat er nu locus of control en
neuroticisme in het model staan
- Voorbeeld: Y^ = 1.667 + X1*.214 + X2*.612
,Interpretatie:
Als alle variabelen hetzelfde blijven en de locus of control met 1 punt omhoog gaat, gaat de
voorspelde waarde van de Y variabele (self-efficacy) met .214 omhoog
Als de score op locus of control gelijk blijft, en neuroticisme met 1 omhoog gaat, gaat de
voorspelde waarde van de Y variabele (self-efficacy) met .612 omhoog
How much variance of self-efficacy is explained by locus of control and neuro- ticism
together?
Kijk in de Model Summery table bij Rsquare model 2 (→ zet dit getal om in procenten)
How much variance is uniquely explained by neuroticism?
- Kijk bij Rquare change model 2 → dit geeft aan hoeveel variantie is verklaard door
neuroticisme omdat je bij model 2 alleen neuroticisme hebt toegevoegd → zet dit getal
om in procenten (- Let op: als je dus meerdere variabelen tegelijk hebt toegevoegd bij
model 2 kun je deze Rsquare change niet gebruiken om te kijken hoeveel variantie uniek
is verklaard door 1 variabele.)
OF
- Je kan ook de semipartiële correlatie gebruiken van neuroticisme. Deze staat bij part in
de coefficients tabel → kwadrateer dit getal
Finally, add age and extraversion as predictors in a third block to the linear model.
Analyze → regression → lineair → klik op next → voeg age en extraversie toe in dit derde
blok bij independent(s) → statistics → R squared change aanklikken → klik ook part and
partial correlations aan → continue → OK
- Do age and extraversion significantly improve the linear model?
Kijk bij Rsquare Change model 3 in de Model Summary tabel en kijk of dit significant is.
*Notatie tentamen: Yes/No. F(2,195) = 1.463, p = .234
, Week 2 – ANOVA
Make a cross tabulation of strategy and gender.
Analyze → descriptives statistics → Crosstabs → zet gender onder rows en strategy use
bij columns → OK
- Sample size staat bij N
Check the robustness of the ANOVA F-tests to possible violations of group normality or
homogeneity of the group variances?
- Gebalanceerd wanneer elke groep evenveel participanten heeft, anders niet
gebalanceerd
- Normaliteit: elke groep min. 15 participanten - n < 15: F not robust to non-
normality
- Homogeniteit: (groep met) grootst aantal participanten / (groep met) kleinste
aantal participanten < 1.5 - nmax/nmin = 12/6 = 2 > 1.5: F not robust to heterogeneous
group variances
- → niet robuust? Dan niet bestand tegen geschonden assumpties anova
- Assumpties anova: errorvarianties moeten normaal verdeeld zijn,
groepsvariantie is homogeen verdeeld is over de groepen
Perform an ANOVA to assess the effects of strategy and gender on the test score. In Plots
request a profile plot of strategy and gender. In EM Means ask for the estimated
marginal means of the main effects and the interaction effect. In Options ask for the
descriptives, and homogeneity tests. In Save ask for the standardized residuals.
Analyze → general linear model → univariate → testscore naar dependent variable →
gender en strategy bij fixed factors → plots → gender naar horizontal axis, strategy naar
separate lines → klik op add → continue → options → descriptive statistics en
homogenity tests aanklikken → continue → EM means → voeg main effecten en
interactie effect toe (gender, strategy en gender * strategy) → continue → save → klik
bij residuals ‘standardized’ aan → continue → OK
Check the assumption of normality by inspecting graphically the distribution of the
standardized residuals.
Graphs → legancy dialogs → histogram → zet ‘standardized residuals’ bij variable →
vink display normal curve aan → OK
- Kijk of er een normaalverdeling te zien is
Can the null hypothesis of equal group variances be rejected? – Homogeniteit
Kijk bij tabel levene’s test of equality of error variances → kijk bij de significantie van de
mean → is deze niet significant? Dan kan je de nulhypothese niet verwerpen → positief → er
is dan gelijke groepsvariantie en dat is goed
*rule of thumb = Sdmax / Sdmin < 2
Notatie tentamen: Ja/Nee, F(dfcorrected model,dferror) = ‘getal bij levene statistic’.; p = ….
Can the null hypothesis of no relationship between test score and method and/or gender
be rejected?
Kijk bij tabel tests of between-subjects effects → kijk bij corrected model of deze
, significant is → significant? → er is een relatie/effect tussen de test score en strategie
en/of gender *Notatie tentamen: Ja/Nee, F(dfcorrected model,dferrpr) = …; p =….
Is the effect of strategy significant? (h)
Kijk bij tabel tests of between-subjects effects → kijk bij strategy of deze significant is →
significant? → kijk bij de tabel estimated marginal means om te kijken hoe dit effect in
elkaar zit → kijk bij mean, hoogste mean heeft het meeste effect
- Niet significant? → bij gender bv. Geen verschil gevonden tussen jongens en meisjes
If the answer to h) (= vraag hierboven) is positive, repeat the ANOVA and in Post hoc ask
for Tukey post-hoc tests for Phone. Which groups have significantly different estimated
marginal means?
Analyze → general linear model → univariate → klik op post hoc → verplaats variabele
naar het vak ‘post hoc test for’ → klik Tukey aan → continue → OK
- kijk bij tabel multiple comparisons → kijk bij significantie of het verschil tussen
groepen significant is
Is there a significant interaction effect? Use the estimated marginal means and the
profile plot to interpret the interaction effect.
Kijk bij tabel tests of between-subjects effects → kijk bij strategy * gender of deze
significant is → zo ja, kijk dan bij de estimated marginal means tabel en de profile plots
om het effect te zien
- bv. Effect van strategiegebruik hangt af van gender
Calculate the eta squared measure for each significant effect
Kijk bij de test of between subjects effects tabel → kijk bij de sum of squares → Neffect =
SSeffect / SScorrected total
- 17,,746 = 0,12 = 12,1%
- 22,,746 = 0,158 = 15,8%
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur kyramonteny. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €8,99. Vous n'êtes lié à rien après votre achat.