TDAT Les 7 "Padanalyse" en leren werken met R. Volledig uitgetypte les (adhv de slidecast), geordend per slide. Printscreens van alle stappen in R. Ik behaalde voor dit vak 18/20
Bv.
stel
dat
je
een
7-‐tal
variabelen
gemeten
hebt
(
x1
tot
x7)
dan
kan
je
tussen
die
variabelen
bepaalde
effecten
onderstellen.
Bv.
x1
is
een
oorzaak
van
x5,
x2
is
ook
een
oorzaak
van
x5
en
x5
heeft
op
zijn
beurt
een
effect
op
x6.
Bv.
heb
je
al
vaak
een
les
bijgewoond
of
niet
?
is
dat
voorspellend
voor
het
feit
of
je
veel
TDAT
leert
of
niet?
en
is
dat
voorspellend
voor
je
eindresultaat?
(
in
les
zitten
kan
dus
zelf
effect
hebben
op
eindresultaat
maar
ook
op
het
al
dan
niet
geleerd
hebben
ervan,
en
dit
kan
op
zich
ook
effect
hebben
op
uitkomst)
• Witte
vierkantjes
:
x1
tot
x4
komen
nooit
pijlen
toe
(
vertrekken
)
• Grijze
vierkantjes
:
x5
tot
x7
komen
wel
pijlen
toe
Slide
4
We
meten
manifeste
variabelen
:
De
variabelen
die
we
beschouwen
zijn
allemaal
manifest
gemeten
(
bv.
je
kan
zeggen
of
je
al
of
niet
aanwezig
was
in
de
lessen,
al
of
niet
gestudeerd
hebt
,
kijken
naar
het
exact
eindresultaat
…)
Dit
zijn
allemaal
manifeste
variabelen
=
zijn
heel
precies
te
meten.
><
latente
variabelen
:
iets
dat
je
niet
rechtstreeks
kan
meten
Leggen
structuur
op
aan
die
variabelen
:
Maken
veronderstellingen
over
de
effecten
die
die
variabelen
op
elkaar
hebben.
=
structureel
vergelijkingsmodel
(
SEM
)
!
indien
voor
manifeste
variabelen
=
padanalyse
• Hier
enkel
het
structureel
deel
(
de
structurele
vergelijking
)
• PAD
=
theoretische
modellen
modelleren
• Volgende
week
:
technieken
voor
latente
variabelen
• Dan
kijken
we
ook
naar
het
meetmodel
(
hoe
meet
je
latente
variabelen?)
Slide
5
AV
:
ilness
,
OV
:
al
de
andere
variabelen
(
de
predictoren
)
Merk
op
:
exercise
kan
op
zich
ook
stress
en
fitness
bepalen
enz
Slide
6
• Rechtstreekse
effecten
op
illness
=
kleurtjes
• Onrechtstreekse
effecten
op
illness
=
alle
andere
pijlen
Onderzoeksvraag
:
Wat
is
het
direct/indirect
effect
van
exercise
en
hardiness
op
illness?
=
in
hoeverre
hebben
ex
en
hardiness
een
(in)direct
effect
op
illness?
"
Doet
denken
aan
lineair
regressiemodel
om
die
relatie
te
onderzoeken
• Je
zou
illness
(
=
Y
)
kunnen
regresseren
(
=
regressievergelijking
)
op
elk
van
die
predictoren.
• Met
zo’n
regressiemodel
ga
je
kijken
naar
de
directe
effecten
op
illness
(
kleurtjes)
, • Probleem
:
regressiemodel
kan
niet
alle
effecten
weergeven
zoals
in
ons
theoretisch
model
• Bv.
effect
van
exercise
!
fitness,
exercise
!
stress
,
…
"
Kan
wel
met
PAD
Slide
7
OPMERKING
:
Op
examen
moeten
we
geen
figuren
kunnen
maken
Figuur
:
Geeft
inzicht
tussen
alle
paarsgewijze
associaties
tussen
alle
variabelen.
• Op
diagonaal
=
de
5
variabelen
(
AV
en
de
4
OV
)
-‐ Staan
als
histogrammen
(
in
klokvorm
)
door
de
data
-‐ Geeft
aan
dat
die
5
variabelen
(
die
data)
vrij
normaal
verdeeld
zijn
• Van
de
diagonaal
=
alle
paarsgewijze
puntenwolken
-‐ Bv.
FITNESS
!
ILLNESS
(oranje)
:
effect
van
fitness
(x-‐as)
op
illness
(
y-‐as)
:
vrij
lineaire
trend
Hoe
meer
fysieke
activiteit,
hoe
minder
vaak
ziek
(
sterke
daling
=
sterke
associatie
)
-‐ Bv.
STRESS
!
ILLNESS
(
paars
)
:
effect
van
stress
op
illness
:
stijgend
verband
-‐ Bv.
effecten
van
exercise
en
hardiness
op
illness
zijn
iets
zwakker
Slide
8
Hier
zie
je
het
actor-‐partner
independence
model
zoals
in
les
6.
!
Hierin
herken
je
een
padanalyse
model
!
Toont
de
actor-‐en
partnereffecten
zoals
we
die
ook
in
een
padanalyse
willen
onderzoeken
We
laten
ook
correlaties
toe
:
-‐ Tussen
schuldgevoelens
M
en
V
-‐ Tussen
de
errortermen
(alles
wat
niet
verklaard
wordt
in
de
uitkomst
door
de
predictoren
is
bij
mane
en
vrouw
gecorreleerd
–
want
het
forcerend
gedrag
tussen
M
en
V
is
gecorreleerd
zelfs
als
je
rekening
houdt
met
de
schuldgevoelens
)
Slide
9
(
exogene
)
• DOEL
IN
PAD
:
Deze
variabelen
dienen
om
verklaring
te
geven
aan
andere
variabelen
in
het
model.
• Geen
interesse
in
oorzaken
van
deze
variabelen
(
er
komen
geen
pijlen
toe
)
Slide
10
(endogene
)
• DOEL
IN
PAD
:
Willen
verklaring
voor
deze
variabelen
hebben
• Variabelen
waar
pijlen
toekomen
Slide
11
(disturbance
)
Disturbance
term
(
error
term
)
• Bij
elke
endogene
variabele
staat
een
soort
errorterm
(
zeta
)
• =
mogelijke
ongemeten
oorzaken
voor
de
endogene
termen
, • Bv.
je
probeert
de
hoeveelheid
fitheid
te
verklaren
door
ex
en
hard
(
maar
er
kunnen
nog
andere
ongemeten
oorzaken
zijn
die
we
niet
waarnemen
)
• Die
variabele
is
zelf
exogeen
(
want
er
komt
ook
geen
pijl
toe)
• Vierkant
=
geobserveerde
variabelen
• Rond
=
niet-‐geobserveerde
variabelen
(
ongemeten
)
Variantie
van
disturbance
term
• R2
=
alle
variabiliteit
in
de
uitkomst
die
verklaard
wordt
door
de
predictoren
• 1-‐R2
=
hoeveelheid
(%)
variantie
dat
niet
verklaard
wordt
door
de
predictoren
in
het
model
• In
het
lineair
regressie
model
is
“Var
(
εi
)”
hoeveelheid
variantie
die
niet
verklaard
wd
de
predictoren
en
“Var
(yi)”
de
totale
variantie
van
de
uitkomst.
Dus
dan
is
het
percentage
variantie
dat
niet
verklaard
wordt
door
de
predictoren
=
verhouding
van
“Var
(
εi
)”
op
de
totale
variantie
“Var
(
yi)”
Slide
12
(
directe
effecten
)
• Enkele
pijlen
(
ene
variabele
!
andere
variabele
)
• Veronderstellen
dat
deze
effecten
lineair
zijn
(
net
zoals
bij
lineair
regressiemodel
)
• Coëfficiënten
bij
die
pijlen
zijn
padcoëfficiënten
(
cfr.
regressiecoëfficiënten
bij
lineaire
regressie)
• Geeft
aan
wat
de
gemiddelde
stijging/daling
is
in
de
uitkomst
als
de
predictor
met
1
eenheid
stijgt
Slide
13
(indirecte
effecten
)
Bv.
exercise
heeft
ook
via
fitness
een
effect
op
illness
Bv.
exercise
heeft
ook
via
stress
een
effect
op
illness
Hoe
kunnen
we
deze
indirecte
effecten
bepalen
:
• a,
b,
c
,
d,
e
zijn
de
5
padcoëfficiënten
• e
=
direct
effect
van
x1
op
y3
• Maar
x1
heeft
ook
indirect
effect
op
y3
=
som
van
alle
mogelijke
paden
naar
je
variabele
Slide
14
Modellen
dat
we
tot
nu
toe
zagen
laten
geen
feedback(lussen)
toe.
Andere
modellen
(later)
wel
!
Feedback
:
Bv.
hoe
geconcentreerd
prof
staat
uit
te
leggen
,
kan
afhangen
van
hoe
geconcentreerd
studenten
luisteren
en
omgekeerd
(
wederzijdse
feedback
in
twee
richtingen
)
(
feedback
=
terug
komen
van
waar
je
begonnen
bent
)
Slide
15
Varianties
van
exogene
variabelen
:
niet
aangeduid
in
pad
(
maar
ze
hebben
natuurlijk
wel
altijd
een
bepaalde
variantie/variabiliteit
)
Covarianties
van
exogene
variabelen
:
dubbele
pijl
,Slide
16
,
17,
18
:
SLIDES
Slide
20
Onze
focus
=
recursieve
modellen
• Zonder
feedbackloop
• Zonder
correlaties
tussen
disturbance
termen
Dit
kan
je
zien
als
een
opeenvolging
van
een
reeks
multipele
lineaire
regressies
(
zie
cursusblad
horend
bij
slide
13).
Ons
padmodel
daar
konden
we
zien
als
3
lineaire
regressies
(
een
voor
elke
endogene
variabele).
Recursief
model
=
opeenvolging
van
aantal
lineaire
regressies
(
een
voor
elke
endogene
variabele
)
(
bevat
zowel
de
directe
als
indirecte
effecten
–
maar
wel
telkens
effecten
in
1
richting
)
Slide
21
WERKEN
MET
R
Vooraleer
we
padanalyses
gaan
uitvoeren
met
structurele
vergelijkingsmodellen
(
in
R)
gaan
we
eerst
die
data
gaan
analyseren
met
lineaire
regressiemodellen
om
zo
ook
wat
te
leren
werken
met
R.
Als
je
bestanden
wil
openen
(
bv.
een
databestand
inlezen
)
!
waar
gaat
R
dat
bestand
zoeken
?
• Commando
om
dit
te
achterhalen
:
>getwd()
• En
dan
krijg
je
het
antwoord
:
de
H-‐schijf
• Maar
als
je
data-‐set
ergens
anders
hebt
opgeslagen
!
dan
moet
je
dit
gaan
aanpassen
• bv.
>setwd(“H:\\TDA\\datasets\\”)
Een
analyse
in
R
• Open
het
bestand
op
Minerva
• Dit
bestand
dat
we
willen
gaan
inlezen
is
eigenlijk
een
SPSS
bestand
maar
R
is
opgebouwd
uit
libraries
(
paketten
)
waarmee
we
bepaalde
handelingen
kunnen
uitvoeren
• Het
pakket
“foreign”
laat
toe
om
bestanden
(bv.
SPSS
bestanden
)
te
importeren
in
R
• Dus
als
je
een
SPSS
bestand
moet
inlezen
moet
je
altijd
als
eerste
lijn
geven
:
library(foreign)
• Dan
kijken
we
op
de
lijn
van
data
:
binnen
het
foreign
pakket
heb
je
de
functie
“read.SPSS”
:
dat
is
het
commando
dat
dan
effectief
aangeeft
dat
je
het
SPSS
bestand
wil
gaan
inlezen
in
R
(
moet
je
• Dan
zet
je
tussen
dubbele
aanhalingstekens
de
naam
van
het
bestand
(inclusief
de
extensie
)
bv.
“tda07Roth.sav”
• Daarna
:
,to.data.frame=TRUE
(
hetgeen
je
wil
inlezen
moet
in
een
data-‐frame
zitten
)
• Daarna
:
,use.value.labels=FALSE
(
willen
de
value
labels
niet
gebruiken
–
soms
gaan
we
dingen
coderen
in
SPSS
als
0
en
1
(bv.
Man
en
Vrouw)
,
en
dan
willen
we
dat
ook
zo
lezen
en
niet
als
“man
en
vrouw”.
• Klikken
nu
die
hele
lijn
(vanaf
data)
aan
en
klikken
bovenaan
op
het
3e
vierkantje
• Nu
zal
er
altijd
een
warning
message
op
het
scherm
komen
(
niet
op
letten
)
• Hoe
werkt
R
nu
:
we
gaan
bepaalde
commando’s
invoeren
en
de
output
daarvan
toewijzen
• Dat
betekent
dat
we
dus
aan
data1
de
waarde
geven
van
dat
databestand
dat
we
ingevuld
hebben
• Dus
nu
zal
binnen
data1
het
databestand
zitten
dat
we
ingegeven
hebben.
, • Waar
gaat
R
dat
bestand
gaan
zoeken
:
in
de
plaats
waar
wij
gespecifieerd
hebben
waar
hij
de
bestanden
moet
gaan
zoeken
Als
we
nu
willen
weten
wat
er
in
data1
zit,
dan
kunnen
we
gaan
opvragen
dat
hij
de
eerste
lijnen
van
dat
databestand
gaat
weergeven
:
>head(data1)
~
• Dan
zie
je
de
eerste
6
lijnen
van
het
databestand
verschijnen
• Je
ziet
onze
5
variabelen
(onze
5
kolommen
)
en
de
eerste
6
observaties
daarbij
• Dus
zo
kan
je
direct
zien
als
je
een
bestand
hebt
ingelezen,
welke
variabelen
in
dat
bestand
zitten
,
Merk
op
:
programma
R
is
hoofdlettergevoelig.
Hier
zie
je
dat
de
variabelen
met
kleine
letters
geschreven
zijn,
dus
dan
moet
je
dat
straks
ook
zo
doen.
Je
hebt
ook
altijd
2
windows
:
• Het
script
:
Je
hebt
eerst
het
R-‐script
waar
je
je
code
kan
typen
(
waar
je
dan
die
library
(foreign)
bv
moest
typen
)
En
als
je
iets
wilt
gaan
runnen
dan
selecteer
je
je
commando/script
en
klik
je
op
“Run
line
or
selection”
(
=
dat
derde
vierkantje
).
• Console
:
Dat
is
dan
het
venster
waar
je
alle
output
krijgt
van
de
gevraagde
commando’s.
Nu
willen
we
eerst
eens
het
regressiemodel
fitten
We
willen
gaan
kijken
wat
het
effect
is
van
exercise
en
hardiness
op
fitness
adhv
een
lineair
regressiemodel
(
we
hadden
pijlen
van
exercise
en
hardiness
op
fitness)
en
we
willen
die
effecten
schatten.
We
gaan
dus
werken
op
de
lijn
voor
het
eerste
lineaire
model
:
linmodel1
(
dit
is
het
object
waarin
we
onze
lineaire
regressie
gaan
steken
–
dit
is
een
vrij
te
kiezen
,
je
kan
dat
noemen
zoals
je
wil
)
maar
die
toewijzingspijl
daarnaast
betekent
dat
het
resultaat
van
de
lineaire
regressie
die
we
gaan
invoeren,
linmodel1
zal
zijn.
Als
we
lineaire
regressie
willen
toepassen
in
R
gebruiken
we
de
functie
lm
(
komt
van
linear
model).
Dan
openen
we
de
haakjes
en
gaan
we
onze
regressievergelijking
gaan
schrijven.
• fitness
!
onze
uitkomst
• ~
!
we
willen
onze
uitkomst
regresseren
op
enkele
predictoren
• exercise+hardiness
!
de
predictoren
• ,data=data1
!
de
data
die
we
hiervoor
gebruiken
is
data1
dat
we
ingelezen
hebben
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur tikoude. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €2,99. Vous n'êtes lié à rien après votre achat.