WPO’S MDA
Verkennen van data
Een kijk op variabelen
Analyze → Descriptive Statistics → Descriptives
® Selecteer alle variabelen!
® Bij ‘options’: snel zicht krijgen op variabelen: aantal geldige waarnemingen, het min. en max., karakteristieke
maten van positie (o.a. het gem.), spreiding (o.a. de standaardafwijking) en vorm (scheefheid en gepiektheid).
® Ook z-waarden (standaardmeetwaarden) kunnen berekend worden.
Analyze → Descriptive Statistics → Explore
® Uitgebreider overzicht van de variabelen: statistics (descriptives, outliers, percentielen), plots (histogram,
stam-loofdiagram, boxplot).
® Bij ‘Factor List’ kan een variabele (zoals bv. geslacht) ingevoerd worden die cases opdeelt in groepen.
• Std. Error = standaardfout = standaardafwijking gedeeld door de wortel van N.
• Betrouwbaarheidsinterval = bv. gem. +/- 1.96 x standaardfout.
• Mediaan < gemiddelde: wijst meestal op rechtse asymmetrie.
• Skewness = parameter van Fisher voor symmetrie.
vb. Positieve skewness (+): wijst op rechtste of positieve assymetrie. De staart aan de rechterzijde van de
verdeling is langer dan die aan de linkerzijde.
• Kurtosis = parameter van Fisher voor Kurtosis (- platykurtisch, 0 mesokurtisch, + leptokurtisch).
vb. Negatieve Kurtosis: wijst op een platykurtische verdeling. In vergelijking tot de normaalverdeling met
hetzelfde gemiddelde en standaardafwijking heeft deze verdeling een lagere top en hogere staarten.
• Interquartile Range = interkwartiel = maat voor spreiding van de 50% meest centrale waarnemingen.
Graphs → Legacy Dialogs → Boxplot
® ‘Summaries for groups of cases’: om de frequentieverdeling van verschillende groepen cases voor 1 variabele
te vergelijken.
® ‘Summaries of separate variables’: om positie, spreiding en symmetrie van verschillende variabelen te
vergelijken.
® Gewoon: Q1–1,5xIKA en Q3+1,5xIKA. Extreem: Q1–3xIKA en Q3+3xIKA.
• vb. Rechtse asymmetrie (positieve skewness) in een boxplot: afstand tussen de kleinste waarnemingen en het
eerste kwartiel is kleiner dan de afstand tussen het derde kwartiel en de grootste waarnemingen.
Interne consistentie van een vragenlijst
Transform → Compute variable
® Nieuwe variabele aanmaken.
Transform → Recode into different variables
® Values veranderen.
® Ook ‘system- or user-missing’ aanduiden en ‘system-missing’ als new value.
Analyze → Correlate → Bivariate
® Correlatiematrix opvragen.
Analyze → Scale → Reliability analysis
® Chronbach’s alfa als maat voor interne consistentie (moet groter zijn dan .80).
® Bij ‘statistics’ vink je onder descriptives ‘Item’, ‘Scale’ en ‘Scale if item deleted’ aan.
® Indien ‘corrected items total correlations’ negatief zijn: kijk of items gehercodeerd moeten worden.
1
, Richtlijnen van COTAN
Onvoldoende Voldoende Goed
Test voor belangrijke beslissingen op
individueel niveau r < .80 .80 ≤ r < .70 r ≥ .90
(bv. verwijzing naar speciaal onderwijs).
Test voor minder belangrijke beslissingen
op individueel niveau r < .70 .70 ≤ r < .80 r ≥ .80
(bv. beroepskeuzebegeleiding, therapie-
indicatie).
Tests voor onderzoek op groepsniveau. r < .60 .60 ≤ r < .70 r ≥ .70
Correlaties
Graphs → Legacy Dialogs → Scatter
® Spreidingsdiagram (scatterplot): om een eerste indruk te krijgen van de correlaties die bestaan tussen de
verschillende variabelen.
® Kan ook meteen aangemaakt worden voor meerdere variabelen tegelijkertijd via de ‘matrix’.
Hiermee maak je een eerste indruk. Berekening van correlatiecoëfficiënten met significanties (H0: r = 0) geeft een
nauwkeuriger beeld:
Analyze → Correlate → Bivariate
Voor de interpretatie van de correlaties kunnen we de volgende leidraad gebruiken:
|r| r2 (afgerond) Verklaarde variantie Interpretatie van kracht van het
verband
< 0,3 < 0,1 < 10% Zeer zwak
0,3 – 0,5 0,1 – 0,25 10 – 25% Zwak
0,5 – 0,7 0,25 – 0,5 25 – 50% Matig
0,7 – 0,85 0,5 – 0,75 50 – 75% Sterk
0,85 – 0,95 0,75 – 0,9 75 – 90% Zeer sterk
> 0,95 > 0,9 > 90% Uitzonderlijk sterk (verdacht!)
Buitenbeentjes en uitschieters (outliers en extremes)
Kan je nagaan door een boxplot op te vragen of via ‘Descriptives’ (outliers + z-waarden opvragen).
Ontbrekende data (missing values)
• De ‘complete case’ benadering = de optie ‘listwise’.
• Het is nuttig om na te gaan of data toevallig ontbreken of dat er een systematiek in zit.
à Respondenten met geldige waarnemingen kunnen vergeleken worden met respondenten met
ontbrekende waarnemingen voor bepaalde andere variabelen om na te gaan of er significante verschillen zijn
tussen de twee groepen (bv. door een t-toets).
• Pairwise deletion = per analyse worden alle deelnemers beschouwd waarvoor alle beschouwde variabelen
beschikbaar zijn.
o Voordeel: de maximale hoeveelheid beschikbare data wordt telkens verwerkt.
o Nadeel: de verschillende analyses geven telkens de resultaten weer van een wisselende groep
deelnemers waarvoor (min of meer) toevallig die bepaalde data beschikbaar zijn.
2