H2: Inleidende begrippen
1. Inleiding
Objecten = onderzoekseenheden = cases = de personen of zaken over wie je iets zegt (bv.
eerstejaarsstudenten)
Onderzoekspopulatie = de verzameling van individuen waarover we een uitspraak willen
doen
Steekproef = sample = een staal van de onderzoekspopulatie
Respondenten = de personen die uiteindelijk bevraagd zijn (dus deelverzameling van de
onderzoekspopulatie)
Steeds toevalsteekproeven: aselect, willekeurig, at random
Afbakening en representativiteit: een kenmerk in de steekproef komt evenveel voor als in de
onderzoekspopulatie
zo niet: een bepaalde groep is ondervertegenwoordigd, en een andere
oververtegenwoordigd, bv. mannen <-> vrouwen in het auditorium
Variabelen = kenmerken
o Enkel kenmerken met spreiding (verschillen, variabiliteit) in overweging nemen
o Verschillen tussen onderzoekseenheden voorspellen (onzekerheid modelleren en
verklaren)
o Afhankelijke (te verklaren) en onafhankelijke (verklarende) variabelen
o Bv. Seksueel slachtofferschap, spreiding van criminaliteit, leeftijd, geslacht,
vooropleiding, studiekeuze
Bv. Wie wordt seksueel slachtoffer en in welke mate? (<-> Wie wordt geen seksueel
slachtoffer en waarom niet?)
Bv. Waar wordt criminaliteit gepleegd en waarom? (<-> Waar wordt geen criminaliteit
gepleegd en waarom niet?)
2. Beschrijven, schatten en veralgemenen als statistisch bedrijvigheid
Statistiek = het geheel van regels en procedures om gemeten kenmerken te verwerken
Beschrijvende statistiek
o Kwantitatieve beschrijving van de kenmerken van de steekproef
o Datareductie: stilstaan bij vraag hoe grote hoeveelheden van gegevens zo
overzichtelijk mogelijk kunnen gepresenteerd worden, zonder dat veel informatie
verloren gaat
o Bv. maten van centraliteit en spreiding (gemiddelde, variantie)
o 2 beperkingen
De resultaten kunnen niet veralgemeend worden naar andere personen of
eenheden of andere tijden: biedt momentopname die alleen geldig is voor
de onderzochte groep
Laat niet toe om causaliteit vast te stellen
o Hypothesen = veronderstellingen: mogelijke ideeën over de samenhang van
kenmerken (bv. leeftijd en criminaliteit)
Inductieve of inferentiële statistiek
o Veralgemening van steekproef naar populatie
1
, o Hypothesetoetsing: toetsbare stellingen = hypothesen = specifieke stellingen
betreffende de (causale) relatie tussen 2 of meer concepte, die afgeleid zijn uit de
theorie
Onderzoekshypothese: formuleert de betrokken stelling in de positieve zin,
in de richting van de verwachtingen van de onderzoeker
Nulhypothese 𝐻0: geen verband (bv. tussen geslacht en seksueel
slachtofferschap)
Alternatieve hypothese 𝐻𝑎: wel verband => mate van waarschijnlijkheid
nulhypothese mag verworpen worden, de onderzoekshypothese gaat op
o Bv. regressie-analyse
3. Statistiek en de beantwoording van beschrijvende en verklarende onderzoeksvragen
Types onderzoeksvragen
Beschrijvende onderzoeksvragen
o Kwantitatieve beschrijving (samenvatting) van het fenomeen
o Veel vragen zijn beschrijvend, want verklarend onderzoek is veel ingewikkelder
o Bv. Wat is de genderratio (m/v-verhouding) bij seksueel-slachtofferschap?
Exploratieve = verkennende onderzoeksvragen
o Kwantitatieve verkenning van het fenomeen, aftasten van veronderstellingen
o Bv. Is er een verband tussen het onderschrijven van traditionele visies op gender en
slachtofferschap van seksueel geweld?
Verklarende onderzoeksvragen
o Kwantitatieve verklaring van de geobserveerde verschillen (variabiliteit) in een
uitkomstvariabele a.d.h.v. kenmerken die eigen zijn aan een theoretisch paradigma
o Bv. Kan de woongeschiedenis van een inbreker zijn doelwitkeuze verklaren?
4. Statistische eenheden
Statistiek draait om het begrijpen (modelleren, verklaren) van verschillen (variabiliteit,
onzekerheid)
o Bv. Waarom verschillen eerstejaarsstudenten in de mate waarin ze seksueel
slachtoffer worden?
o Bv. Waarom verschillen straten in de mate waarin er criminaliteit voorkomt?
Onderzoekseenheden waarover men uitspraken wil doen, moeten dus onderling verschillen
(variabiliteit = spreiding) op de bestudeerde kenmerken (variabelen)
o Bv. Mate waarin eerstejaarsstudenten seksueel slachtoffer worden verschilt tussen
eerstejaarsstudenten (veel geen, sommige een beetje, weinig zeer veel)
o Bv. Niet alle straten in een stad kennen evenveel delicten (veel geen, sommige een
beetje, weinig zeer veel)
Verschil impliceert ‘onzekerheid’
o Uiteindelijk is het doel om die ‘onzekerheid’ te modeleren of voorspellen
o Indien géén verschil, dan vervalt een variabele tot een constante en is er zekerheid
(want steeds dezelfde waarde)
o Verschillen (variabiliteit) op een kenmerk (variabele) impliceren onzekerheid ∆
Bv. We kunnen niet met zekerheid zeggen welke eerstejaarsstudent wel of
niet slachtoffer zal worden
2
, Bv. We kunnen niet met zekerheid zeggen in welke straat er delicten zullen
voorkomen
o Onzekerheid ∆ op verdeling van het te verklaren kenmerk (afhankelijke
variabele 𝑦) tussen de onderzoekseenheden trachten we te modelleren (bv.
regressie) en te verklaren (begrijpen) om ultiem die onzekerheid te beperken
Bv. Waarom wordt de ene eerstejaarsstudent wél seksueel slachtoffer en
de andere niet?
Bv. Waarom komt criminaliteit voor in de ene straat en in de andere niet?
Gebrek aan variabiliteit is een probleem
o Als een kenmerk niet varieert (verschilt) tussen onderzoekseenheden, vervalt dat
kenmerk tot een constante 𝑐 zonder onzekerheid ∆ (≠ variabele!)
Definitie constante: een kenmerk dat niet varieert, of een kenmerk waarop
alle eenheden dezelfde waarde hebben
Bv. Indien elke eerstejaarsstudent in dezelfde mate seksueel slachtoffer
wordt (of niet), kan je geen kenmerken van eerstejaarsstudenten gebruiken
om de mate van seksueel slachtofferschap te verklaren
Bv. Indien criminaliteit in dezelfde mate voorkomt over alle straten heen (of
niet), kan je geen kenmerken van die straten hanteren om criminaliteit te
verklaren
o Ultiem valt er dan niets te begrijpen of te verklaren, er is geen
onzekerheidsprobleem meer om op te lossen
o Zonder variabiliteit, geen kwantitatief onderzoek want elke oplossing is perfect
gedefinieerd (deterministisch) en er kan dus geen onzekerheid ∆ onderzocht of
verklaard (~ gemodelleerd, beperkt) worden
Waarom is variabiliteit zo belangrijk?
o Ultiem trachten we verschillen op een kenmerk tussen onderzoekseenheden te
verklaren
o Daarvoor zoeken we naar andere kenmerken (zgn. onafhankelijke variabelen 𝑥)
waarvan de verschillen samenhangen (dezelfde mate van variabiliteit of verschil
vertonen, zgn. co-variabiliteit) met de waargenomen verschillen op het te verklaren
kenmerk 𝑦 (zgn. afhankelijke variabelen 𝑦)
Bv. Waarom wordt de ene eerstejaarsstudent wél slachtoffer van
criminaliteit en de andere niet? Misschien speelt geslacht een rol! Maar ...
als alle onderzoekseenheden mannelijke eerstejaarsstudenten zijn, kan je
niet nagaan of geslacht een rol speelt (er zijn geen verschillen op geslacht)
Bv. Waarom komt criminaliteit voor in de ene straat en in de andere niet?
Misschien speelt de aanwezigheid van een café een rol! Maar .. als alle
onderzoekseenheden straten zonder cafés zijn, kan je niet nagaan of de
aanwezigheid van een café een rol speelt (er zijn geen verschillen op de
aanwezigheid van een café)
o Dit impliceert dat een constant kenmerk 𝑐 geen verklaring kan zijn voor
waargenomen verschillen op het te verklaren kenmerk 𝑦
M.a.w. een constante voegt geen informatie toe die toelaat de mate van
onzekerheid te beperken
o Wanneer is er voldoende spreiding?
Elk kenmerk (variabele) dient min. 2 verschillende waarden te hebben (bv.
man, vrouw; bv. café, geen café), én
3
, Per waarde min. 1 onderzoekseenheid
5. Univariate, bivariate en multivariate beschrijvende statistiek
Univariaat
o Eén variabele
o Maten van centraliteit & spreiding
o Bv. gemiddelde
Bivariaat
o Twee variabelen (x en y)
o Samenhang (correlatie) tussen 2 kenmerken
o Bv. gaat het criminaliteitsniveau van een buurt samen met het niveau van sociale
ongelijkheid?; worden jongeren frequenter slachtoffer van geweld dan ouderen?...
o Bv. Pearson correlatie
Multivariaat
o Meer dan twee variabelen
o Regressie
o Bv. OLS regressie
6. Meetniveaus van variabelen
Categorische meetniveaus
Nominaal
o Elkaar uitsluitende categorieën: categorische gegevens
o Doel: zodanig in categorieën indelen dat ze intern zoveel mogelijk homogeen zijn in
vergelijking met andere categorieën
o Exhaustieve en mutueel exclusieve categorieën
Exclusiviteit: de categorieën mogen elkaar niet overlappen
classificatiesysteem verliest bruikbaarheid als de te classificeren data
kunnen worden ondergebracht in meer dan 1 categorie => er mag slechts 1
criterium aan de basis van de opdeling liggen + criterium moet zo objectief
mogelijk zijn
Exhaustiviteit: het classificatiesysteem moet alle onderzoekseenheden
kunnen classificeren: elk geval moet in een categorie ondergebracht worden
=> nominale classificatiesystemen zijn vaak onderhevig aan wijzigingen:
nieuwe categorieën ontstaan of worden bedacht (bv. diverse vormen van
criminaliteit die ontstaan uit de opkomst van nieuwe technologieën:
bestonden vroeger niet)
o Géén ordening mogelijk (ook al zijn de categorieën een getal, bv. rugnummers van
een elftal)
o Laagste meetniveau
o Bv. Geslacht, geboorteland
Ordinaal
o Ordening is mogelijk o.b.v. de mate waarin een kenmerk voorkomt (meer of minder)
dus niet alleen categorieën, maar ook rangschikken
o Sprake van een continuüm: geordend categoriserend meten (meer of minder, groter
of kleiner, beter of slechter…)
4