Oefeningen statistiek
4 Herhalingsoefeningen - dit mogen jullie thuis al proberen
Vul de juiste woorden in. Let op sommige woorden komen meerdere keren voor
en enkele helemaal niet.
Kies uit: binair, chi-kwadraat test, categorisch, continu, dichotoom,
dichotomisatie, discreet, ex- ponentieel, Fisher’s exact test, gemiddelde,
gepaard, gepaarde t-test, groter, histogram, kleiner, Kolmogorov-Smirnov test,
lineaire regressie, logistische regressie, McNemar test, mediaan, modus, niet-
parametrische testen, normal probability plot, nominaal, normale
verdeling/normaal verdeeld, ongepaard, ongepaarde t-toets, ordinaal, Pearson
correlatie, populatie, rangorde, respons/uitkomst, Shapiro-Wilk test,
significantieniveau, Spearman correlatie, steekproef, symmetrische verdeling,
variantieanalyse (ANOVA)
Er zijn verschillende soorten variabelen. discrete variabelen kunnen maar een
beperkt aantal waarden hebben en continue variabelen hebben oneindig veel
mogelijke waarden. Variabelen zoals woonplaats, bloedgroep en geslacht zijn
nominale of categorische variabelen omdat
de waarden van de variabele geen specifeke volgorde hebben. Enkele variabelen
maar twee mogelijke waarde (bv. roker/niet-roker), deze heten binaire of
dichotome variabelen. Bij variabelen zoals het hoogst behaalde diploma hebben
de mogelijke waarden een vaste volgorde. Zo’n variabele is gemeten op
ordinaal meetniveau.
Afhankelijk van de type variabele mogen we sommige centrummaten niet
gebruiken. De meest voorkomende waarde (modus) mogen we altijd gebruiken.
De middelste van alle waarnemingen (mediaan) is voor ordinale en continue
variabelen. Het gemiddelde gebruiken we enkel voor continue vari- abelen die
normaal verdeeld zijn. Een continue variabele kunnen we discreet (om
precies te zijn: ordinaal) maken. Dit heet discretiseren Als de nieuwe variabele
binair is heet dit dichotomisatie .
Het doel van een hypothesetoets is om een bepaalde uitspraak over de
populatie te kunnen ondersteunen met behulp van een steekproef. We
verwerpen de nulhypothese als de p waarde kleiner is dan alpha
(significatieniveau). Om een verband te onderzoeken tussen twee binaire
variabelen gebruiken we bij ongepaarde gegevens een chi-kwadraat test (grote
steekproef) of een fisher exact (kleine steekproef). Bij gepaarde gegevens
gebruiken we een McNemar test. Gegeven een continue variabele X willen we
weten of het gemiddelde van deze variabele bij de populatie van een groep gelijk
is aan het gemiddelde van dezelfde variabele bij de populatie van een andere
groep. Dit is een ongepaarde T-test of ANOVA of gepaarde T-test . ANOVA
is een uitbreiding op de ongepaarde t-toets voor de vergelijking met meer dan
twee groepen. De test procedure zal de variabiliteit tussen groepen vergelijken
met de variabiliteit in groepen.
De assumpties van de variantianalyse (ANOVA) zijn: nor- maliteit van alle
groepen, gelijkaardige spreiding in alle groepen. Normaliteit kunnen we nagaan
met behulp van een histogram, een normal probability plot of een hypothese
test zoals de Kolmogorov-Smirnov of de Shapiro-Wilk. Is een of meer van de
groepen niet normaal verdeeld dan kunnen we niet-parametrisch testen
toepassen (bv. de Mann-Whitney U-test om twee onafhankelijke groepen te
vergelijken).
, Oefeningen statistiek
Correlatieco ̈effcienten geven aan hoe sterk het verband is tussen twee continue
(ordinale, in geval v NP testen) variabelen. De Pearson correlatie meet een
lineair verband en de Spearman correlatie een monotoon verband. De
Pearson correlatie veronderstelt dat de variabelen continu zijn terwijl de
Spearman correlatie kan ook berekend worden voor ordinale variabelen en
wordt berekend op basis van Rangorde. Lineaire regressie kunnen we
gebruiken om het verband tussen twee continue variabelen te beschrijven. Bij
een continue respons en een dichotome predictor kunnen we de logitische
regressie ook toepassen.
5.1 Weer een beetje theorie - Invuloefening
Kies uit: continu, een, geen, hypothesetoets, lineair, monotoon, negatief,
normaliteit, nul, positief, signifcant, sterk verband, wel, zwak verband
De Pearson correlatieco ̈effici e ̈ nt meet een lineair verband tussen twee
continue variabelen. Met een hypothesetoets kunnen we nagaan of het
gemeten verband significant is. De nulhypothese veronderstelt dat er geen
verband is, de alternatieve hypothese dat er een ver- band is. Met formules: H0 :
ρ = 0 vs HA : ρ ̸= 0. De assumptie van de test is normaliteit. Een correlatieco
e
̈ ffici ̈ent dicht bij nul betekent een zwak verband, een correlatieco ̈effici ̈ent ρ
> 0 betekent dat het verband positief is terwijl ρ < 0 wijst op een negatief
verband. Hoe dichter de absolute waarde van rho bij nul hoe zwakker het
verband tussen de variabelen.
5.6 Vragen
1. Normaal gezien is uw output lichtjes verschillend van Figuur 3 & 4. Weet je
waarom?
Eigen output: cases pairwase missing geselecteerd. Terwijl bij fig 3 & 4 de
volledige cases werden bekeken (ook missende data gebruikt).
2. In Figuur 5 zien we de Spearman correlaties. Vergelijk deze met Figuur 3 & 4
Wanneer gebruiken we Spearman correlaties? (Een beetje hulp: ze worden
berekend op basis van de rangorde van de observaties.)
Spearman is de niet-parametrische tegenhanger van Pearson correlatie. We
gebruiken ze dus als de assumpties van Pearson correlatie (lineaire verbanden &
normale verdeling) niet voldaan zijn. Aangezien het berekend wordt obv
rangord, kunnen we het ook toepassen op ordinale variabelen. Spearman
correlatie is ook minder gevoelig voor grote ‘outliers’ dan Pearson correlatie.
Zijn de correlaties in de twee tabellen verschillend? Waarom wel/niet?
Wanneer verwacht je grote verschillen tussen de Pearson en de Spearman
correlaties?
Spearmen correlatie kijkt naar een monotoom verband, de Pearson correlatie
kijkt naar een lineair verband (dat altijd monotoom is). Indien er een monotoom