1
Statistiek II voor de sociale wetenschappen
HOC 1: Inleiding en herhaling basisconcepten
1. Statistiek en statistische gegevens
- Samenleving gedreven door cijfers
- Realiteit is complex en onzeker
- Uitzonderingsbubbel doorprikken
VB: coronavaccin maakt mensen super ziek à uitzondering
- Empirie om beweringen te staven
o Nood aan empirie, beweringen alleen zijn niet voldoende
o Data verzamelen volgens de regels van de kunst
o Door juiste techniek en ruimte voor onzekerheid
2. Steekproef en onderzoekspopulatie
Wie onderzoek ik? (Onderzoeks)populatie met onderzoekseenheden à
Populatie: alle eenheden
(populatie-)parameters
VB: alle studenten hoger onderwijs in Vlaanderen in 2021 à populatieparameter = percentage
studenten criminologie
Steekproef: selectie ui de volledige groep van onderzoekseenheden in de populatie
è Dezelfde karakteristieken hebben als de populatie (representativiteit)
è Voor vele statistische technieken is dit een eenvoudige aselecte toevalssteekproef
(EAS)
Eenvoudige aselecte toevalssteekproef (EAS): elke onderzoekseenheid heeft een gelijke kans
op selectie verschillend van nul
(Steekproef)statistieken: kengetallen die we meten in de steekproef
POPULATIE à PARAMETERS
STEEKPROEF à STATISTIEKEN
Steekproeffouten:
- Niet-systematische steekproeffouten (VB: betrouwbaarheid)
- Systematische steekproeffouten
o Selectiebias: manier van selecteren van respondenten geeft vertekend beeld
o Non-respons bias: zij die deelname weigeren verschillen systematisch van de
respondenten
o Item non-respons bias: enquête niet volledig invullen
3. Beschrijvende en inferentiële statistiek
Beschrijvende of deductieve statistiek: beschrijven van de verzamelde gegevens
, 2
- Verzameling, organisatie en presentatie van de data
- Samenvatten van gegevens om globale patronen en kenmerken te ontdekken
o Centrummaten: gemiddelde, modus, mediaan
o Spreidingsmaten: standaardafwijking, variantie, interkwartielafstand
o Grafieken: histogrammen, taartdiagram, boxplots,…
VB: grafiek opinie rond invoeren doodstraf bij jongeren tussen 15-30 jaar in Vlaanderen
(gebaseerd op een steekproef van 3000 jongeren)
Inferentiële of inductieve statistiek: op basis van steekproefgegevens conclusies trekken
m.b.t. de populatie
- Steekproefresultaten veralgemeenbaar naar de populatie à significantie van de
resultaten
- Maakt gebruik van kansrekenen en kansverdelingen, en de theoretische basis van de
steekproevenverdeling en centrale limietstelling
VB: 20% van alle 15- tot 30-jarigen in de steekproef gaan ‘helemaal akkoord’ met het
herinvoeren van de doodstraf
- 2 technieken
o Hypothesetoetsen
o Betrouwbaarheidsintervallen
4. Variabelen: operationalisering en meetniveaus
Variabelen: kenmerken die we meten of bevragen bij de onderzoekseenheden
- Variabelen zijn variabel, ze kunnen meerdere waarden hebben
o Cijfers
o Tekst à eventueel coderen (‘string’-variabelen in SPSS)
- Nood aan definiëring en operationalisering van concepten
VB: leeftijd, geslacht, armoede, gezondheid,…
Kwalitatief of categorisch: waarden van de variabelen wijzen op categorieën, zonder verdere
wiskundige betekenis
Kwantitatief of metrisch: waarden van de variabelen wijzen op wiskundige betekenis
- Discreet: gehele getallen, resultaat van telling of classificatie
VB: aantal auto’s per gezin, kan geen kommagetal zijn
- Continu: variabele kan alle waarden aannemen
VB: lichaamslengte, snelheid
4 meetniveau ’s:
- Nominaal: categorieën zonder ordening
- Ordinaal: categorieën met ordening
- Interval: wiskundige waarde, geen absoluut nulpunt
- Ratio: wiskundige waarde, wel absoluut nulpunt
, 3
5. Frequentieverdelingen en grafische weergaven
Frequentieverdelingen: Je gaat kijken welke verschillende waarden de variabele aanneemt in
je data, en hoe vaak elk van de mogelijke waarden voorkomt, uitgedrukt in absolute of
relatieve aantallen.
Absolute frequentie (Fxi): het aantal keer dat een bepaalde waarde xi werd waargenomen
voor de variabele X
Relatieve frequentie (fi): de absolute waarden te delen door de steekproefomvang: fi = Fi ∕ N
Cumulatieve absolute frequentie (Kxi): tellen we voor elke waarde xi de absolute frequentie
op bij de absolute frequenties van de voorgaande waarden xi
Cumulatieve relatieve frequentie (kxi): zelfde als cumulatieve absolute frequentie, maar met
relatieve frequenties
Belangrijke types van grafieken:
- Staafdiagram
- Taartdiagram
- Histogram
- Lijndiagram
6. Maten van centraliteit
= één getal dat de waarden van een variabele beschrijft aan de hand van een centrale positie
- Modus à vanaf nominaal
- Mediaan à vanaf ordinaal
o Kwartiel / decielen / percentielen
- Gemiddelde à vanaf interval
, 4
7. Mate van spreiding
= één getal dat de mate van spreiding van waarden van een variabele uitdrukt
- Variatiebreedte à vanaf ordinaal
- Interkwartielafstand à vanaf ordinaal
- Variatie / kwadratensom à vanaf interval
- Variantie à vanaf interval
- Standaardafwijking à vanaf interval
8. Outliers
= extreme (lage of hoge) waarden voor een variabele die statistische resultaten kunnen
vertekenen
- Niet noodzakelijk een inhoudelijke fout in de data, wel cijfermatige extremiteit
VB: leeftijd van 200 jaar, nette maandelijks huishoudinkomen van €20 000
- Variabelen cijfermatig en visueel verkennen om outliers te detecteren
- Onderzoek de oorsprong van outliers alvorens in te grijpen
HOC 2: Kansrekenen
1. Basisconcepten van kansrekenen
1.1 Het concept kans
Proportie: kans neemt een waarde aan tussen 0 en 1
VB: Het gooien met een dobbelsteen à kans is 1/6 = 16.666667% = 0,166667 (proportie)
Toevalsvariabele: de mogelijke waarden zijn gekend, maar we kennen de exacte waarde voor
elke observatie niet op voorhand
è Kans kwantificeert toeval op lange termijn
è Op korte termijn zeer onvoorspelbaar
è Naarmate het aantal observaties stijgt, komt het aantal keren dat een bepaalde
uitkomst geobserveerd wordt steeds dichter bij de reële kans
VB: Bij het gooien met een dobbelsteen is de kans dat de dobbelsteen de waarde “6” aanneemt
1/6. M.a.w. op lange termijn is het aandeel van zessen 1 op 6
Cumulatieve proportie: kans dat je op lange termijn een 6 gooit met een dobbelsteen
Wet van de grote aantallen (Jakob Bernoulli): aandeel van bepaalde uitkomst in totaal aantal
uitkomsten lijkt op lange termijn naar een bepaalde waarde te convergeren
è Assumptie van onafhankelijkheid: de ene observatie is onafhankelijk van de andere
observatie
Theoretische kans: op voorhand te bepalen
VB: Eerlijke dobbelsteen (1/6), kans om de lotto te winnen
è Probleem: soms onmogelijk om op voorhand kans te bepalen à empirische kans
VB: Punaise, kan op hospitalisatie bij covid