,Hoofdstuk 7 vergelijking van twee groepen
7.3 kwantitatieve data: vergelijken van twee gemiddeldes
We vergelijken twee populatie gemiddeldes bij het maken van gevolgtrekkingen over hun verschillen.
Voor grote of kleine willekeurige steekproeven die normale populatieverdelingen vormen, heeft de
steekproevenverdeling van (ȳ2 - ȳ1) een normale vorm. Je moet wel letten op uitbijters die het
gemiddelde kunnen beïnvloeden.
Het betrouwbaarheidsinterval is voor het bovengenoemde (ȳ2 -ȳ1) ± t(se) waarbij SE=
De t-score wordt gekozen waarmee het gewenste betrouwbaarheidsinterval wordt
bereikt, bijvoorbeeld bij 95% een t-score van 1.96.
Wanneer je dan het betrouwbaarheidsinterval berekend heb kun je dat als volgt interpreteren:
bijvoorbeeld je hebt een 95% bhi met de waardes (2.4 – 4.8) dan verwacht je dat 95% van de tijd de
waarden die je vindt tussen de waardes van 2.4 en 4.8 liggen.
Ook kun je een significante test gebruiken om populatie gemiddeldes te vergelijken. Dit kan met de
volgende formule:
T= (schatting parameter – waarde nulhypothese van de parameter) / standaard error van de
schatting.
waarbij SE =
7.4 vergelijken van gemiddeldes met afhankelijke steekproef
Matched pairs: participanten in de steekproef worden gematcht aan de hand van een variabele,
bijvoorbeeld IQ. Hiervan komt dan één persoon in de steekproef en de andere in de controlegroep.
Voor gepaarde metingen is het verschil tussen de gemiddeldes van de twee groepen is gelijk aan het
gemiddelde van de verschillende scores.
T-statistic voor gepaarde metingen: met
Gepaarde metingen maken gebruik van de gebruikelijke aannames voor t-procedures:
- Waarnemingen worden willekeurig verkregen uit een populatieverdeling die normaal is.
- Betrouwbaarheidsintervallen en tweezijdige testen zijn geldig, ook als de
normaliteitsaanname geschonden wordt (behalve als de steekproef heel klein of heel scheef
is of uitbuiters bevat).
Het gebruiken van afhankelijke steekproeven kan voordelen hebben:
- Variabelen worden onder controle gehouden, bijvoorbeeld als je onderzoek doet waarbij in
beide groepen mensen met dezelfde leeftijd zitten dan kan het verschil tussen die twee
groepen niet ontstaan door leeftijd.
- De standaarderror tussen de twee gemiddeldes van beide groepen is kleiner.
Bij een onafhankelijke steekproef heb je de variabelen minder onder controle waardoor de
standaarderror ook groter zal zijn.
,Hoofdstuk 9 lineaire regressie en correlatie
9.1 lineaire relaties
Variabele x = onafhankelijke variabele
Variabele y = afhankelijke variabele
In onderzoek analyseer je hoe waardes van y invloed hebben op verandering van variabele x.
De onafhankelijke variabele beïnvloedt de afhankelijke variabele.
Categorische variabelen kun je x en y met elkaar vergelijken in een tabel.
Kwantitatieve variabelen worden beschreven met een formule waarin beschreven wordt hoe y zich
verhoudt tot x.
Lineaire functie: y=ax+b model voor relatie tussen twee kwantitatieve variabelen.
- b= intercept: het snijpunt met de y-as (waarde van y als x 0 is).
- a= helling: geeft steilheid van de lijn aan.
a en b worden ook wel regressie coëfficiënten genoemd.
Positieve relatie: y neemt af als x toeneemt.
Constante relatie: variabele y is constant en verandert niet als x verandert.
Negatieve relatie: y neemt toe als x afneemt.
Positief constant negatief
9.2 voorspellen met de kleinste kwadratensom
Allereerst maak je een spreidingsdiagram van je gevonden data. Hierin kun je zien of lineaire
regressie gebruikt kan worden (is er een rechte lijn te trekken?).
Als je in het diagram een outlier hebt (punt dat ver afwijkt van de andere punten), dan wordt dat een
regressie outlier genoemd. Vaak kan dat veel invloed hebben op de lijn die je erdoor trekt. De outlier
laat je dan ook vaak achterwege.
Residuen: het verschil tussen een geobserveerde waarde en verwachte waarde op basis van de
formule voor lineaire regressie. Hoe kleiner het residu, hoe beter de schatting is.
- Positieve residu: de geobserveerde waarde van y is groter dan de geschatte.
- Negatieve residu: de geobserveerde waarde van y is kleiner dan de geschatte.
de lijn ligt op de plek waar alle afstanden (punten) tot de lijn het
kleinste zijn. Alleen de lijn y=ax+b maakt dit mogelijk.
De lijn ontstaat met de kleinste kwadratensom. Eerst reken je alle
residuen uit, dan kwadrateer je ze en telt ze bij elkaar op.
, 9.3 lineair regressiemodel
De formule y=a+bx geeft een deterministisch model weer: bij elke x-waarde hoort eenzelfde y-
waarde. Dat is in de praktijk niet zo. Stel je voor x is het aantal jaren onderwijs en y het inkomen. Niet
iedereen met 12 jaar onderwijs (x) heeft een inkomen van 30.000 euro.
Daarom wordt de formule veranderd naar E(y)=a+b(x) conditionele distributie waarmee het
gemiddelde van y voorspelt wordt.
Het lineaire regressiemodel heeft een parameter, namelijk σ. Deze beschrijft de standaard afwijking
van elke conditionele distributie. Het meet de variabiliteit van de y-waarden voor alle personen met
die bepaalde x-waarde. We noemen σ de conditionele standaarddeviatie. Omdat je de echte
standaardafwijking niet weet, gebruik je die uit de steekproef: mean square error.
9.4 de correlatie
Met alleen de helling kan je niet de sterkte vertellen tussen de twee variabelen. Wel is de helling te
gebruiken om aan te geven of er een lineaire relatie is tussen de variabelen.
Hoe sterk een verband tussen x en y is kun je aantonen met de Pearson correlatie (r). Kenmerken
zijn:
- Maat voor sterkte lineaire relaties. Dus in hoeverre de twee variabelen elkaar beïnvloeden.
- Je kunt het alleen gebruiken wanneer een lineair verband zinvol is.
- De waarde valt altijd tussen 1 en -1.
- ‘r’ is positief/negatief gelijk aan ‘b’. Als ‘b’ positief is (en er een positief verband is) is ‘r’ ook
positief en als ‘b’ negatief is (en er een negatief verband is) is ‘r’ ook negatief.
- Hoe groter de correlatie, hoe dichterbij alle punten op de lijn liggen hoe sterker het
lineaire verband.
Kwadraat van de correlatie: gemeenschappelijke variantie tussen variabelen. Het geeft aan hoe goed
y voorspeld kan worden door x. Je meet met het kwadraat van de correlatie de sterkte van het
lineaire verband. De waarden vallen tussen 0 en 1. Hoe dichter de waarde bij 1, hoe sterker het
verband tussen x en y is.
- Hoge R2:
o Veel kleine residuen (alle punten liggen dichtbij de lijn)
o Hoge correlatie
o Veel verklaarde variantie (correlatie tussen x en y).
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur vkroeze. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,77. Vous n'êtes lié à rien après votre achat.