Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Korte samenvatting PC-labs Data-Analyse 1 (KUL) €4,96   Ajouter au panier

Resume

Korte samenvatting PC-labs Data-Analyse 1 (KUL)

 55 vues  7 fois vendu

Een beknopte samenvatting die ik heb gemaakt bij de PC-labs 0 tem 5 voor het vak Data-Analyse 1 aan de KUL. Het zijn beknopte puntjes uitleg en soort van "stappen" die je moet volgen bij het maken van je oefeningen. De formules die je nodig hebt staan in het formularium online.

Aperçu 10 sur 24  pages

  • 31 mai 2024
  • 24
  • 2023/2024
  • Resume
Tous les documents sur ce sujet (2)
avatar-seller
inakeuppens
MINI SAMENVATTING DATA-ANALYSE 1
PC-LABS




PC0

Samenhang twee categorische variabelen (nominaal of ordinaal)

 Kruistabellen
o Uitspraken over aard en richting van het verband
 Chi2-test
o H0: geen samenhang tussen de twee variabelen
o Ha: wel samenhang tussen de twee variabelen



Sterkte van het verband:

Of




Of

Correlatie

r = 1 Perfect positieve lineaire samenhang

0.5 < r < 1 Sterke positieve lineaire samenhang

0.3 < r < 0.5 Matige positieve lineaire samenhang

0 < r < 0.3 Zwakke positieve lineaire samenhang

r = 0 Lineaire onafhankelijkheid

-0.3 < r < 0 Zwakke negatieve lineaire samenhang

-0.5 < r < -0.3 Matige negatieve lineaire samenhang

-1 > r > -0.5 Sterke negatieve lineaire samenhang

r = -1 Perfect negatieve lineaire samenhang

 Correlatietest
o H0: geen lineair verband
o Ha: wel een lineair verband

, o Kijken naar p-waarde




PC1

BIVARIATE REGRESSIE

Afhankelijke en onafhankelijke variabele

Scatterplot

Afh var  Y-as

Onafh var  X-as

Lineair verband of niet?



naam_model <- lm(Y ~ X1 + X2 + X3 + ... + Xn , data="naam_dataset",
weights="naam_dataset$gewicht")

Y = afhankelijke var

X = onafhankelijke var

Nulmodel = Y ~ 1 (alleen intercept)



Doelstellingen :

Aard van de samenhang: estimates

Intercept: iemand die 0 scoort op onafh var, scoort intercept op afh
variabele

Regressiecoëficiënt: verandering in verwachte waarde van Y zorgt voor een
eenheidsstijging van X

Sterkte van de samenhang:

Multiple R-squared: hoeveel de regressie van de variantie verklaard van de
totale variantie

Veralgemenen naar populatie:

F-test

H0: full model verklaart niet meer dan reduced model

Ha: full model verklaart wel meer dan reduced model

Kijken naar p-waarde

T-test

, Gaat na of paramaters niet gelijk zijn aan 0

Indien significant  niet gelijk aan 0

Kijken naar sterren naast p-waarde




MULTIVARIATE REGRESSIE

Toevoegen van een bijkomende onafh var  zuiverdere schatting

model2 <- lm(Y ~ X1 + X2, …., Xn, data=, weights =)

Y = afh var

X = onafh var

Doelstellingen:

Aard van de samenhang

Intercept: wanneer iemand 0 scoort op alle onafh variabelen

Partiële regressiecoëfficiënten: effect op intercept, gecontroleerd voor
andere variabelen

Wanneer X1 met een eenheid toeneemt, neemt Y met output X1 toe

Veralgemenen naar populatie

T-test: kijken naar significatie p-waarde  verschillend van 0?

F-test  volledige model  p-waarde  verschillend van 0?

Één van de regressiecoëfficiënten, want bekijkt volledig model

Is het full model significant beter dan het reduced model?

Sterkte van de samenhang

Hoe goed kan de variantie van Y verklaard worden door de onafh
variabelen?

Determinatiecoëfficiënten  R-squared

R-squared van reduced model - R-squared van full model

= extra verklaarde variantie

Bekijken welk effect het grootste is  gestandaardiseerde partiële
regressiecoëfficiënten

Lm.beta()

Interpreteren in standaardafwijkingen! Als X1 met een
standaardafwijking toeneemt terwijl X2 gelijk blijft, dan zal intercept
met output X1 toenemen

, Is effect X1 of X2 het grootste?

MODELLEN VERGELIJKEN

Anova ()

Heeft het toevoegen van een onafh var X mijn model verbeterd in vgln met een model
zonder X?

Kijken naar F-change en p-waarde

Sign  wel verbeterd

Niet sign  niet verbeterd

GECENTREERDE VARIABELEN

Probleem: Intercept vaak niet interpreteren want verwijst naar situatie waarin de
respondent op alle onafh var 0 scoort

Oplossing: gecentreerde variabelen

Gem van oorspronkelijke var aftrekken

Gecentreerde var aanmaken

Hoe ver iemand van het gem ligt

Bv. -10 op age = 10 jaar jonger dan gemiddeld

PC2

REGRESSIEDIAGNOSTIEK


LINEAIRITEIT

Lineaire relatie afh en onafh variabele

Scatterplot

Indien schending lineariteitsassumptie  modelvergelijkingsprocedure

Past een niet-lineaire modelspecificatie beter dan een lineair model?

Voor onafh var een kwadratische term toevoegen  vergelijken met model zonder
kwadr term

Anova ()


ADDITIVITEIT

Twee stappen:

Productterm * van interactie toevoegen aan model

, Modellen vergelijken met anova ()

!! beide variabelen die in de interactie gebruikt worden ook toevoegen als
hoofdeffect

Bv. Model <- lm(Y ~ X1 + X2 + X1*X2 , data=, weights =)


MULTICOLINEARITEIT

Package car  vif ()

VIF > 10 = problematisch

Tolerace  1/VIF

Tolerance < 0.10 = problematisch


OUTLIERS

Observaties met residu van 3 of meer sd’s van gemiddelde = outlier

Naar gestandaardiseerde residuen kijken

Rstandard()

Summary ()  kijken naar min en max  meer dan -3 en 3?

Sum()  hoeveel outliers?

Which()  welke rijen?

Predict()  voorspelde waarden bekijken

Kijken of antwoorden van resp effectief kunnen kloppen  formule

Scatterplot met gestandaardiseerde residuen ifv gestandaardiseerde voorspelde

Gestandaardiseerde voorspelde  z-transformatie van model

Gestand residuen op Y-as

Gestand residuen op X-as


HEFBOOMPUNTEN

Manier 1

Regressie x aantal keer uitvoeren en telkens een observatie uit de analyse laten;
invloed van weglaten op de regressieparameters bekijken

Invloed op regressieparameters opslaan als aparte variabelen

Gestandaardiseerde DFBETA’s van een model

Gestand DFBETA > 1 en gestand DFBETA < -1 = problematisch

, Kijken naar beschrijvende statistieken  veranderingen van meer dan 1
sd?

DUS: als weglaten van een observatie een verandering van > 1 sd-
afwijking van een regressieparameter veroorzaakt = hefboompunt

Gestandaardiseerde DFBETA’s voor de twee onafh var plotten  dfbetasPlots()

Manier 2

Cook’s distance

Algehele invloed observatie op het model

>1 = problematisch

Cooks.distance()  summary()  min en max bekijken

REGRESSIE MET CATEGORISCHE PREDICTOREN

Onafh var  nominaar of ordinaal meetniveau  dummy-variabelen

# dummy-var = afh van aantal categorieën

k categorieën  k – 1 dummy-var


DICHOTOME ONAFHANKELIJKE VARIABELE

Één dummy-var nodig (k-1 = 1)

Altijd nodig!:

Dummy-var coderen als factor

Antwoordcategorieën coderen als 0-1

!! R ziet in regressiemodellen var die gecod zijn als 1-2 of “man”-“vrouw”
gecod als 0-1

Eerste categorie is dan referentiecategorie

Referentiecategorie wijzigen

Contrasts()  base is nummer van referentiecat

Alfanumerieke variabelen gebruiken als dummy’s

!! R ziet karakterelementen automatisch als 0-1

Eerste categorie is dan referentiecategorie en dus 0

Doelstellingen:

Aard van de samenhang

Sterkte van de samenhang

Veralgemeenbaarheid

,POLYTOME ONAFHANKELIJKE VARIABELE

!! Meerdere antwoordcategorieën  R maakt automatisch verborgen dummy’s

Factor maken

Levels ()  categorieën maken

Niet gelijste categorie = referentiecategorie

Doelstellingen:

Aard van de samenhang  estimates

Sterkte van de samenhang  R-squared (verklaarde variantie)

Veralgemeenbaarheid  t-waarde en p-waarde

Model met en zonder categorische predictoren vgl

Anova()

Modellen met veel onafh var  coëfficiënten plotten

Modelplot () van package modelsummary

Kijken of effect verschilt van 0

Als het betrouwbaarheidsinterval 0 omvat = effect variabele niet
significant

INTERACTIES

X1*X2

!! altijd ook de hoofdeffecten van de variabelen in de interactie opnemen in het
model

Bv. lm(Y ~ X1 + X2 + X1*X2, data="naam_dataset",
weights="naam_dataset$gewicht")

Effect = basiseffect + interactie-effect

Interactie-effecten plotten

Plot_model() uit package sjPlot

Indien BI 0 omvat  niet signif


TWEE METRISCHE VARIABELEN

Indien niet significant  geen significant gezamenlijk effect

Indien wel significant  effect van de ene variabele is afhankelijk van de andere
variabele

,TWEE CATEGORISCHE VARIABELEN

Bij categorische var vaak meerdere categorieën  meerdere interactietermen in output

!! in model wel gewoon één interactieterm ingeven  in output autom opgedeeld
in cat

Indien significant: rekening houden met verschillen in effecten tussen groepen

Invloed van één afh var kan variëren afh van de niveaus van de andere var
waarmee het interacteert


METRISCHE EN CATEGORISCHE VARIABELEN

Bv. Het effect van een metrische variabele op verschillende leeftijdscategorieën

PC3: GLM

Wanneer welke toets:


t-test Vergelijken van 2 (on)afhankelijke groepen

ANOVA Vergelijken van > 2 (on)afhankelijke groepen

ANCOVA Vergelijken van > 2 onafhankelijke groepen, met uitsluiting van de
invloed van 1 of meerdere (continue) predictoren.

Dus controleren voor de invloed van andere predictoren.

Factorial Vergelijken van > 2 onafhankelijke groepen met minstens 2
AN(C)OVA categorische predictoren, eventueel met uitsluiting van de invloed
van 1 of meerdere (continue predictoren)

Effectgroottes

Een gestandaardiseerde maat voor een waargenomen effect

++ vergelijkbaarheid en interpretatie van resultaten

Soorten effectgroottes

r (pearson correlatie)

r = 0.10  klein effect

r = 0.30  medium effect

r = 0.50  groot effect

η2/ η2p

η2 = 0.01  klein effect

η2 = 0.06  medium effect

η2 = 0.14  groot effect

, Cohen’s d

d = 0.20  klein effect

d = 0.50  medium effect

d = 0.80  groot effect

!! voor AN(C)OVA  standaardsetting aanpassen

Resultaten SPSS

options(contrasts = c("contr.helmert", "contr.poly"))

T-TESTS

Vergelijken of gemiddelde van een bepaalde var tussen 2 (on)afh groepen
verschilt

H0: geen significant verschil tss gem in twee groepen

Ha: wel significant verschil tss gem in twee groepen

Nodig:

Continue afh var (AV)

Categorische onafh var (OV)


DEPENDENT T-TEST

Individuen in de twee categorieën zijn dezelfde

Bv. Twee keer een experiment op dezelfde kindjes

Rekening houden met individuele verschillen

Gemiddelde van twee variabelen vergelijken

Analyse + gemiddelde + sd

P-waarde  sign verschil?

Nagaan effectgrootte!

r (pearson correlatie)  formule

Interpreteren


INDEPENDENT T-TEST

Individuen in de twee categorieën zijn verschillend

Bv. Verschillend # uren bij jongens en meisjes

Levene’s test

, Varianties gelijk in twee groepen? Voor OV

Y = AV en group = factorvar met 2 cat

H0: var niet significant verschillend  var.equal = TRUE

Ha: wel significant verschillend  var.equal = FALSE

Analyse

AV in zelfde kolom

 aparte resultaten voor twee groepen opvragen: tapply-functie

Sd en mean

Effectgrootte

r (pearson correltatie)  formule

ONE-WAY INDEPENDENT ANOVA

Nagaan of gemiddelde score op de AV significant verschilt tussen 3 of meer
onafh groepen van de categorische OV

Bv. Invloed van placebo, lage dosis viagra of hoge dosis viagra op libido

Speciale toepassing van lineaire regressie  lm()  AV ~ OV

Voor ANOVA  .sav bestand  anders importeren

Levene’s test

Assumptie van gelijke varianties nagaan voor OV

H0: var niet significant verschillend

Eerst lineair model met lm()

Dan Anova() (!! Hoofdletter)

Omnibus test: we weten niet welke groepen van elkaar verschillen

Oplossing = contrasts en post-hoc tests

Ha: wel significant verschillend

oneway.test ()

Contrasten of post-hoc test

Effectgrootte + eindrapportering

Gem en sd’s per cat van OV vermelden


CONTRASTEN (ALGEMEEN)

Wanneer er specifieke verwachtingen/hypothesen zijn

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur inakeuppens. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €4,96. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

80364 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€4,96  7x  vendu
  • (0)
  Ajouter