Kwantitatieve data-analyse
Wetenschappelijk onderzoek start vanuit een hypothese en/of onderzoeksvraag
> Elke hypothese/onderzoeksvraag impliceert een model (een vereenvoudigde, samenvattende
abstractie) van de realiteit de hypothese en onderzoeksvragen die je opstelt zijn
vereenvoudigingen van de realiteit
° We starten van een conceptueel model waarbij je data aan elkaar linkt in woorden.
° We moeten dit vertalen naar een statistisch model (geeft een wiskunde formalisering voor
het conceptueel model in de vorm van een vergelijking, bestaande uit variabelen en
parameters)
Twee stappen bij kwantitatieve data-analyse
1. STAP 1: analyse en modellering van de streekproefdata
- er wordt een steekproef genomen van de volledige populatie
2. STAP 2: statistische inferentie
- is de veralgemening van wat je in je steekproef hebt gevonden naar de populatie
in het algemeen.
- parameters in de populatie en statistieken in de steekproef
Herhaling basisconcepten
Onderzoekseenheden
= welke cases onderzoeken we?
> Populatie: de groep waarover je iets wil weten- alle onderzoekseenheden met een
bepaald gemeenschappelijk kenmerk
de waarde voor een bepaald kenmerk in de populatie heet een parameter (in
Griekse letters)
> Steekproef: elke deelverzameling van de populatie
de waarde voor een bepaald kenmerk in de steekproef heet een statistiek (in Latijnse
letters)
Variabele
= representatie van een kenmerk van een onderzoekseenheid
Per onderzoekseenheid krijg je voor elke variabele een waarde. Elke variabele heeft
een bepaald bereik.
Je kan variabelen opsplitsen naargelang verschillende meetniveaus:
- Categorisch: categorieën vb. kleur, SES, opleidingsniveau
- Nominaal: geen natuurlijke orde vb. kleur (rood is niet beter dan blauw)
- Ordinaal: hebben wel een natuurlijke orde vb. SES
- Numeriek: cijfers en getallen
- Discreet: enkel gehele getallen
- Continu: variabelen die alle waarden op het continuüm kunnen aannemen
- Ratio: hebben een absoluut nulpunt (dus 0 is de complete afwezigheid van iets)
- Interval: geen absoluut nulpunt
Frequenties
Absolute frequentie: hoe vaak een bepaalde waarde in absolute aantallen voorkomt
Relatieve frequentie: de aantallen in vergelijking met het totale aantal
rel.freq.= absol.freq./ totale n
Je kan frequenties in een histogram visueel weergeven.
Cumulatieve frequentie: het aantal waarnemingen dat je tot dan toe hebt gehad
, Centrummaten: zeggen iets over het centrum van een verdeling
> Modus: waarneming die het meeste voorkomt in een reeks, waarde met de hoogste
frequentie
> Mediaan: middelste getalen in de waarnemingen als je de getallen op volgorde
zet, 50% boven en 50% onder de mediaan
(bij even aantal dan neem je de twee middelste getallen en daar neem je het
gemiddelde van)
> Deciel 10% = de waarde waaronder 10% van uw waarnemingen zich bevindt
> Gemiddelde: soms van de waarnemingen delen door het aantal waarnemingen
Spreidingsmaten: elke observatie wijkt af van het gemiddelde van die observatie (=
deviatie)
> Variantie: gemiddelde van sum𝑆𝑆of squares
°Populatievariantie 𝜎2 = =
𝑛
∑𝑛 (𝑥𝑖−µ)² 1
𝑖=1 ∑𝑛
𝑛
𝑆𝑆 = 𝑖=1(𝑥𝑖 − µ)²
𝑛
°Variantie in steekproef s2 = =
𝑛−1
∑𝑛 (𝑥𝑖−𝑥̅)² 1
𝑖=1 = ∑𝑛
𝑛−1 𝑛−1 𝑖=1(𝑥𝑖 − 𝑥̅)²
> Standaarddeviatie/ standaardafwijking: vierkantswortel van de variantie
Grootte standaardafwijking: scores liggen over het algemeen rond/ver van gemiddelde
Verdelingen
> De normaalverdeling (Gausscurve)
• ° [Steekproefverdelingen zijn normaal verdeeld zie volgende les]
° klokvorming en symmetrisch
° Ongeveer 68% van de waarnemingen ligt binnen 1 standaarddeviatie van het
gemiddelde. Ongeveer 95% van de waarnemingen ligt binnen 2
standaarddeviaties (68-95-99,7-regel)
> De standaardnormaalverdeling: normaalverdeling met gemiddelde 0 en
standaarddeviatie 1
° als je een normaal verdeelde variabele standaardiseert (z-score berekent)
verkrijg je een standaardnormaalverdeling
° z-score: 𝑥𝑖−𝑥̅
= 𝑠𝑥
𝑧𝑖
Principes van inferentiële statistiek
In dit vak zullen alle modellen te reduceren zijn tot een General Linear Model
Y= b0+b1x
bo= intercept, welke waarde y aanneemt als x=0
, b1= stijging of daling in y in functie van een
eenheidsstijging in y
In de statistiek hebben we meestal te maken met een heel aantal observaties = scatterplot
vanaf les 4 bespreken we hoe we daar een regressielijn in modelleren
Elk getest statistisch model geeft 2 soorten informatie:
1) Parameterschattingen (statistieken)
2) Schattingen van fit van het model (in welke mate is er sprake van error, hoe ver liggen de
observaties van het model dat we gebruiken, …)
Statistische inferentie
Beredeneer wat de statistieken (parameterschattingen) uit het model zeggen over de parameters in
de populatie.
van steekproef naar populatie. Van observatie van statistiek naar uitspraak over parameter.
Waarom kunnen we ervanuit gaan dat een schatting (statistiek) in een steekproef überhaupt iets
zegt over de eigenlijke parameter in de populatie? En op welke manier veralgemenen we dan
precies?
> Steekproefverdeling
> Centrale limietstelling (CLT)
> Standaardfout
STEEKPROEFVERDELING
- Logica: je hebt een model opgesteld en een statistiek berekend op basis van je steekproef
Maar jouw specifieke steekproef is natuurlijk niet de enige mogelijke steekproef die je kan trekken
uit de populatie.
- DUS er is een hele verdeling aan mogelijke uitkomsten voor elke statistiek die je berekent,
afhankelijk van de specifieke steekproef (i.c., de exacte n mensen) die je toevallig hebt samengesteld.
Dit is de sampling distribution of steekproefverdeling van de statistiek.
De steekproefverdeling is dus een puur een puur abstract, theoretisch concept!
>> Het is de theoretische verdeling van alle mogelijke waarden die een statistiek kan aannemen in
alle mogelijke steekproeven die je uit de populatie kan trekken
VERWAR NIET met de geobserveerde empirische verdeling van een specifieke variabele in je
steekproef (vb. de beschrijving van de variabele leeftijd)!!
Het feit dat er in elke steekproef een fout zit op de schatting van de eigenlijke populatieparameter
reflecteert met sampling error. Het is o.w.v. die sampling error dat er een steekproefverdeling is.
De steekproefverdeling lijkt relatief normaal verdeeld
> centrale limietstelling: garandeert dat bij een degelijke steekproefgrootte (n> 40)
de steekproefverdeling van een statistiek bij benadering normaal verdeeld is rond de
populatieparameter.
> DUS steekproefverdeling van een statistiek is altijd normaal verdeeld o.w.v. de centrale
limietstelling
Ook wanneer de verdeling van de variabele die we gebruiken om de statistiek te berekenen niet
normaal verdeeld is (als een variabele bijvoorbeeld exponentieel verdeeld is)
We weten dus dat de steekproefverdeling normaal verdeeld is, we weten ook dat een
normaalverdeling volledig kan worden beschreven als we twee parameters kennen:
1) Het gemiddelde (gemiddelde van steekproefverdeling= de populatieparameter)
2) De standaarddeviatie (standaarddeviatie van de steekproefverdeling= standard error/
standaardfout)
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur ChimeneKlasen. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €4,99. Vous n'êtes lié à rien après votre achat.