Dit is een uitgebreide samenvatting van alle hoorcolleges van Statistiek 3 uit jaar 3 Pedagogische Wetenschappen/Psychologie aan de Vrije Universiteit Amsterdam. Er is veel extra uitleg en voorbeelden zodat alles duidelijk is.
Hoorcollege 1a– Herhaling statistiek 1 en 2
Kenniscollege
03-04-23
Tentamen 31/05
10 vragen over Statistiek 1 & 2
20 vragen over de statistische analyses uit Statistiek 3
‘’Statistics is the science of collecting, organizing and interpreting numerical facts, which we call data.’’
Stappen in de toegepaste statistiek:
1. Steekproef trekken uit de populatie
2. Controleren of de steekproef representatief is
3. Kiezen tussen beschrijvende (=datagegevens zoals gemiddelde en sd) of inferentiële (=testen van
hypothesen) statistiek
4. Meetniveaus (NOIR) en typen variabelen (categorisch/kwantitatief)
5. Het kiezen van de juiste statistische analyse (!)
6. Experimenteel vs. niet-experimentele onderzoeksdesigns
Methodes (design) (methodologie) & Statistiek (gereedschap)
Voor verschillende onderzoeksvragen gebruik je verschillende statistische methoden; hier draait het om bij
Statistiek 3
Stappenplan volgen om uit te komen bij de juiste statistische analyse:
Doelstellingen Statistiek 3:
Herhaling Statistiek 1 & 2 (met name de methoden en assumpties) + nieuwe toevoegingen en het
toepassen van deze methoden in de praktijk (SPSS)
Ontdek de samenhang tussen de verschillende methoden in het raamwerk van het Generalized Linear
Model (GLM)
Statistiek is noodzakelijk voor het uitvoeren van goed empirisch onderzoek
1
, Anne Fleur Duvekot - 2648775
Samenhang tussen ANOVA en regressie: in beide methoden analyseer je variantie je hebt variantie in
verschillende variabelen, variantie tussen en binnen groepen; dat ga je toewijzen aan de verschillende
groepen/effecten
Focus op empirische analyses:
De 3 hoofdmethoden om 2 groepen te vergelijken met 1 kwantitatieve uitkomst
T-test: vergelijking van 2 groepen op 1 kwantitatieve uitkomstvariabele
ANOVA: vergelijking van 2 of meer groepen op 1 kwantitatieve uitkomstvariabele (1 factor met 2 niveaus)
Regressieanalyse: relatie tussen 2 kwantitatieve variabelen bepalen (m.b.v. dummy-variabele)
3 verschillende methoden die allemaal tot hetzelfde resultaat leiden (bv verschil tussen mannen/vrouwen
en scores op tentamen)
1. Beschrijvende vs. Inferentiële statistiek
Statistiek bestaat uit een aantal methoden voor het verkrijgen en analyseren van data in verschillende stappen:
1. Design (methodologie)
2. Beschrijven van de data (beschrijvende statistiek)
3. Gevolgtrekkingen maken (testen van hypothesen) (inferentiële statistiek)
Beschrijvende statistiek: samenvatten van de steekproef/populatie data met getallen, tabellen en grafieken
Inferentiële statistiek: schattingen maken en uitspraken doen over de populatie(parameters) gebaseerd op de
(random) steekproef
2. Data, populatie & steekproef
Populatie: de totale set aan deelnemers, relevant voor de onderzoeksvraag
- Populatie parameters: bv gemiddeld aantal zelfstudie uren per week voor alle studenten
Steekproef (sample): een subset/willekeurige steekproef uit de populatie waarvan de data is verzameld
- Steekproef statistiek: bv gemiddeld aantal uren zelfstudie per week van een willekeurig getrokken
steekproef van 800 studenten
3. Betrouwbaarheid en validiteit
Goede data en dus een goede steekproef is noodzakelijk om de onderzoeksvraag
te kunnen beantwoorden:
1. Betrouwbaarheid: precisie, consistentie meet je elke keer hetzelfde
2. Validiteit: bias, storing meet je wat je wilt meten
De beschrijvende statistiek
4. Variabelen, meetniveaus en bereik (range)
Variabelen: meet karakteristieken die kunnen verschillen per persoon
Verschillende meetniveaus:
Categorisch/kwalitatief
1. Nominaal: ongeordende categorieën (oogkleur, geslacht)
2. Ordinaal: geordende categorieën (mee eens-neutraal-mee oneens)
Numeriek/kwantitatief:
3. Interval: gelijke afstand tussen de waardes (°C, cijfers op toets)
4. Ratio: gelijke afstanden én absoluut nulpunt (K)
Bereik/range:
- Discreet: meetwaarde die je niet kan delen (bv het aantal broers of zussen)
- Continu: oneindig deelbare meetwaarde (bv lichaamslengte)
2
, Anne Fleur Duvekot - 2648775
5. Gemiddelde, modus, mediaan, spreiding en positiematen
In de beschrijvende statistiek zijn er 3 verschillende dimensies van belang:
1. De centrale tendens= de typische observatie (als je naar de data kijkt en je kiest er 1 observatie uit die
het meest zegt over je data)
- bv. gemiddelde, modus, mediaan
2. Spreiding/variantie: variabiliteit in observaties
- bv. standaarddeviatie, variantie, interkwartiel afstand
3. Positie: relatieve observatie tussen observaties
- Geeft informatie over de relatieve positie van observaties: percentiel, lwartiel
Voorbeeld. Op welke manieren kan je (verschillen tussen) deze twee verdelingen beschrijven?
Land A en B hebben hetzelfde gemiddelde
Bij land A is de spreiding veel groter (0-50) dan bij land B
(20-30); dus verschil in varianties en standaarddeviaties
De inferentiële statistiek
De problemen die we hebben met inferentiële statistiek hebben vooral te maken met de steekproeven die we
gaan gebruiken om te gaan testen.
Het doel: betrouwbare en valide uitspraken doen over de populatie, gebaseerd op de steekproef
- Dus de steekproef parameters moeten niet te veel afwijken van de populatie parameter
Mogelijke problemen:
Sampling error: fout in de steekproef (standaardfout) natuurlijke variatie omdat je een willekeurige
steekproef trekt
Sampling bias: een storing in het trekken van je steekproef selectief een steekproef trekken (alleen een
bepaalde groep mensen, niet representatief voor de hele populatie)
Response bias: een storing in de mensen die je vragenlijst invullen alleen maar mensen uit een bepaalde
groep of fout antwoord geven (bv zeggen de je op partij a stemt maar je stemt op partij b)
Non-response bias: selectieve participatie (bv jongeren zijn minder geneigd je vragenlijst in te vullen)
Belangrijk verschil tussen problemen met betrekking tot betrouwbaarheid (error) en validiteit (bias)
- Betrouwbaarheid gaat meer om de standaardfout; verspreiding rondom hetgeen je probeert te
schatten heeft meer te maken met power (en bv grootte van je steekproef)
- Validiteit gaat om bias; je meet niet wat je wilt meten hier moet je echt wat aan doen
Oplossing/samenvatting:
Je wilt een willekeurige steekproef doen die groot genoeg is (belangrijk voor error/onderscheidend vermogen)
en je wil data generen voor iedereen die je hebt benaderd, met correcte antwoorden op alle items voor alle
deelnemers
Dimensies van de verdelingen
Er zijn 3 soorten verdelingen:
1. Populatie verdeling: populatiegemiddelde µ is (vaak onbekende) parameter
- bv. proportie studenten die extra hulp voor wiskunde nodig hebben
2. Steekproef verdeling: steekproefgemiddelde y is steekproefgrootheid (sample statistic) dit is een
benadering voor het populatiegemiddelde waarin we zijn geïnteresseerd
- bv. proportie studenten in de steekproef (n=1000) die extra hulp voor wiskunde nodig hebben
3. Steekproevenverdeling: verdeling van steekproefgrootheid over steekproeven heen heel veel
gemiddeldes schatten van verschillende steekproeven; hierdoor is de uitkomst betrouwbaarder en lijkt
meer op de populatieverdeling
de verdeling voor de steekproefgrootheid na meerdere steekproeven te nemen van n grootte
- De standaarddeviatie van de steekproevenverdeling noem je de standaardfout; zegt iets over de
betrouwbaarheid van je schatting
7. Centrale limietstelling en hypothesen testen
De empirische regel
Aannames normaalverdeling:
De afwijking van het gemiddelde wordt uitgedrukt in standaarddeviaties:
68.2% van testscores X ligt max 1 SDe boven of onder
µ
95.4% van testscores X ligt max 2 SDe boven of onder
µ
99.7% van testscores X ligt max 3 SDe boven of onder
µ
De meetfout is normaal verdeeld
µ= 0
Scores binnen 1 SDe van het gemiddelde, oftewel de binnenste 68.2% noemen we gemiddeld.
Centrale limietstelling en de normale verdeling: ongeacht de verdeling van een variabele in de populatie, ligt
bij toenemende N de steekproevenverdeling van y steeds dichter bij µ en lijkt de verdeling steeds meer op de
normaalverdeling; daarom gebruiken we de normaalverdeling zo vaak
Dus: de centrale limietstelling stelt dat de gemiddelden van steekproeven altijd normaal verdeeld zullen zijn als
je steekproeven van voldoende omvang neemt uit een populatie, zelfs als die populatie niet normaal verdeeld
is
De steekproefverdeling hoeft niet per se een normaalverdeling te worden, maar de steekproevenverdeling
wordt wel een normaalverdeling naarmate N toeneemt.
Typen kansverdelingen
Standaard normale verdeling z-score
= de steekproevenverdeling voor proporties onder H 0
= de steekproevenverdeling voor het gemiddelde onder H 0 en wanneer de populatie standaarddeviatie bekend
is
De t-verdeling t-score
= de steekproevenverdeling voor het gemiddelde onder H 0 en wanneer de populatie standaarddeviatie niet
bekend is
= de steekproevenverdeling voor de regressie coëfficiënt(en) onder H 0
lijkt om de normale verdeling, alleen heeft dikkere staarten dus meer observaties rechts en links
(afhankelijk van het aantal observaties)
4
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur annefleur_duvekot. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,39. Vous n'êtes lié à rien après votre achat.