HOOFDSTUK 2: INLEIDENDE BEGRIPPEN
1. INLEIDING
Objecten / onderzoekseenheden
= de personen of zaken over wie je iets zegt
Bv. gemiddelde leeftijd van studenten 1e bach is 19,7 jaar
Variabelen
= kenmerken van de objecten (leeftijd, geslacht, studiekeuze etc.)
Onderzoekspopulatie
= de verzameling van individuen waarover we een uitspraak willen doen.
Steekproef
= een staal uit de onderzoekspopulatie.
Respondenten
= de bevraagde personen, dus een deelverzameling van de onderzoekspopulatie.
Uitkomstenverzameling
= verzameling van alle mogelijke uitkomsten (waarden) van een variabele
uitgangspunt is wel OBSERVEERBAARHEID / WAARNEEMBAARHEID
o nauwkeurigheid: exactheid (precision)
o betrouwbaarheid: consistentie bij herhaalde waarneming (reliability)
o validiteit: geldigheid (validity / adequacy)
o resultaat van meten: ‘waarde’ (altijd een benadering van de ‘echte’ waarde!)
Een steekproef is representatief als een kenmerk van een populatie evenveel voorkomt in
de steekproef + de steekproef moet toevalligerwijs (at random) samengesteld zijn.
2. BESCHRIJVEN, SCHATTEN EN VERALGEMENEN ALS
STATISTISCHE BEDRIJVIGHEID
STATISTIEK
= het geheel van regels en procedures om gemeten kenmerken te verwerken
(1)
Beschrijvende statistiek : weergeven van kenmerken die voorkomen in een
onderzoekspopulatie of in een steekproef, wanneer we niet alle eenheden kunnen bevragen
(2)
Inferentiële statistiek : het veralgemenen van de verzamelde gegevens in een steekproef
over de volledige populatie
-1-
,(1) Beschrijvende statistiek
‘Hoe kunnen grote hoeveelheden van gegevens zo overzichtelijk mogelijk worden
gepresenteerd zonder dat er (veel) informatie verloren gaat?’
Momentopname geldig voor de onderzochte groep
Samenhang van kenmerken onderzoeken a.d.h.v. hypothesen
Laat niet toe om causaliteit vast te stellen (maar oorzaak-gevolg relaties veronderstellen
wel statistische samenhang!)
Hypothesen toetsen via de inferentiële statistiek
(2) Inferentiële statistiek: bevindingen veralgemenen naar de onderzoekspopulatie.
HYPOTHESEN zijn specifieke stellingen betreffende de (causale) relatie tussen twee of meer
concepten, die afgeleid zijn uit de theorie.
Onderzoekshypothese = de betrokken stelling geformuleerd in positieve zin, in de
richting van de verwachtingen van de onderzoeker.
Nulhypothese = de hypothese dat er geen verband bestaat.
Alternatieve hypothese = de onderzoekshypothese nadat de nulhypothese is verworpen.
3. STATISTIEK EN DE BEANTWOORDING VAN BESCHRIJVENDE EN
VERKLARENDE ONDERZOEKSVRAGEN
Beschrijvende onderzoeksvraag: de kwantitatieve beschrijving van een fenomeen
(aantonen en beschrijven), geeft geen verklaring voor de bekomen resultaten.
Verkennende onderzoeksvraag: aftasten van (nieuwe) veronderstellingen, gesitueerd
tussen beschrijvende en verklarende onderzoeksvragen.
Verklarende onderzoeksvraag: gericht op het verklaren van geobserveerde verschillen of
veranderingen in uitkomstvariabelen. Wil een statistische verklaring bieden voor de
geobserveerde verschillen tussen eenheden o.b.v. één of meerdere kenmerken
4. STATISTISCHE EENHEDEN
Statistische eenheden zijn de onderzoekseenheden waar men een uitspraak over wil doen.
o Deze eenheden kan men beschrijven a.d.h.v. een aantal kenmerken waarin de
onderzoekers geïnteresseerd zijn Variabelen
o Variabelen zijn de kenmerken van statistische eenheden die variëren (als een
kenmerk niet varieert, is er sprake van een constante en is niet bruikbaar).
o De eenheden waarover uitspraken gedaan worden dienen variabiliteit of spreiding
te vertonen.
Kwalitatieve variabele
omvat enkel categrorieën waaraan codes worden toegekent, hiermee kan je niet
rekenen
-2-
, Kwantitatieve variabelen
omvat ‘numerieke waarden’, getallen waarmee je wel kan rekenen
Onafhankelijke variabele (‘predictor’)
o Voorgesteld door ‘X’
o Heeft een invloed op een afhankelijke variabele (in a-symmetrischerelatie)
Afhankelijke variabele (‘uitkomstvariabele’)
o Voorgesteld door ‘Y’
o Wordt beïnvloed door een onafhankelijke variabele (in a-symmetrische relatie)
5. UNIVARIATE, BIVARIATE EN MULTIVARIATE BESCHRIJVENDE
ANALYSE
Univariate analyse = een analyse van één kenmerk dat varieert.
Bivariate analyse = Twee variabelen (x en y) worden met elkaar in verband gebracht, men
kijkt naar de samenhang (correlatie) tussen twee kenmerken
Multivariate analyse = een analyse van meer dan 2 variërende kenmerken.
Statistische analysetechnieken zijn dependent of niet-dependent:
o ‘Dependent’: veronderstellen een oorzaak-gevolg relatie (voorbeeld:
regressieanalyse)
o ‘Niet-dependent’: veronderstellen geen oorzaak-gevolg relatie, enkel
samenhang (voorbeeld: correlatieanalyse)
6. MEETNIVEAUS VAN VARIABELEN
Categorische meetniveaus = kwalitatieve en categorische variabelen
Nominaal meetniveau
De waarde die een variabele kan aannemen heeft de betekenis van een naam, een categorie
Er is geen sprake van rangorde
Bv. Geslacht, haarkleur, geboorteland, …
o Exclusiviteit: categorieën mogen elkaar niet overlappen, elke waarneming kan slechts
in 1 categorie terechtkomen
o Exhaustiviteit: elke waarneming moet in een categorie thuishoren er mogen geen
‘losse’ waarnemingen zijn
Ordinaal meetniveau
Categorieën zijn ordenbaar
Door de ordening kunnen de categorieën op een continuüm geplaatst worden
Bv. Opleidingsniveau, akkoord en niet akkoord, schaal 1 van 10, …
o Dichotoom: variabele die slechts twee waarden kan aannemen (bv. goed of fout)
-3-
, o Polytoom: variabele die meer dan twee categorieën kant (bv. nooit, 1x of meerdere
malen slachtoffer geworden het afgelopen jaar)
Metrische meetniveaus = kwantitatieve en metrische variabelen
Interval meetniveau
De afstanden tussen waarden zijn altijd even groot, sprake van een vaste meeteenheid
Bv. Temperatuur: het verschil tussen 5°C en 10°C is even groot als het verschil tussen 20°C
en 25°C
Er is geen absoluut nulpunt
Bv. Graden celsius, geboortejaar, …
Ratio meetniveau
Er is wel sprake van een absoluut nulpunt
Bv. Leeftijd, inkomen, hoogte, …
NOMINAAL
ordenbaarheid
ORDINAAL
gelijk interval / meeteenheid
INTERVAL
absoluut nulpunt
RATIO
7. DISCRETE EN CONTINUE VARIABELEN
Bij continue meetschalen kunnen alle mogelijke waarden de uitkomst zijn (reële getallen):
Bv. tijd: 1u 26min 39sec, 40sec, 41sec; leeftijd, …
Een discrete meetschaal is beperkt tot een aantal waarden, de tussenliggende waarden
hebben geen betekenis (gehele getallen):
Bv. 1 kind, 2 kinderen; 4 televisies…
8. DE DATAMATRIX ALS INPUT VOOR STATISTISCHE ANALYSES
Een gegevensmatrix bevat de informatie van elke statistische eenheid waarover men
informatie heeft verzameld.
R*K-tabel: rijen/kolommen.
o Rijen= respondenten
o Kolommen= kenmerken
‘Codeboek’: er wordt een numerieke code gegeven aan een label.
Bv. 0 voor vrouwen, 1 voor mannen
-4-