STATISTIEK: VAN BESCHRIJVING NAAR INZICHT
= de wetenschap van het verzamelen, organiseren, presenteren, analyseren en interpreteren van
gegevens of data volgens een numerieke logica.
1. DATA STATISTISCH ONDER DE LOEP GENOMEN
1.2 DATAMATRIX
= een tabel die de basis vormt van een groot aantal statistische analyses. De data is op een specifieke
wijze gestructureerd.
• Rijen: meetwaarden of observaties voor een specifiek onderzoekselement (=case/unit)
• Kolommen: meetwaarden voor een specifieke variabele
1.3 ONDERZOEKSELEMENTEN
1.3.1 ONDERZOEKSELEMENTEN ALS (DEEL VAN EEN GROTER ) GEHEEL
Onderzoekselementen = de eenheden waarbij je een aantal karakteristieken gaat onderzoeken of
registreren. Bv. individuen, politieke partijen, landen, bedrijven…
Als alle mogelijke elementen werden onderzocht: populatie met N onderzoekselementen.
Als slechts een deel van een groter geheel aan elementen werd onderzocht: steekproef met n
onderzoekselementen.
In voorbeeld van Jozef Knecht: N = 7 (we beschikken over gegevens van alle BV’s die deelnamen aan
het benefietgebeuren)
Onderzoek van het geheel: volkstelling (= een onderzoek waarbij men ernaar streeft om een aantal
karakteristieken van een volledige bevolking in kaar te brengen)
• De dinosaurus van de statistiek: er zijn daklozen, woonwagenbewoners, schippers, illegalen…
die men niet bereikt. → zo ontstaan er valse verwachtingen door een volkstelling. (Laatste
volkstelling in België: 2001)
• Selectiebias: niet alle bevolkingsgroepen worden bereikt bv. daklozen, illegalen,
woonwagenbewoners, schippers…
1
, • Responsbias: vooral mensen met een sterke mening zullen antwoorden, de middenmoot vaak
niet.
• Oplossing “virtuele volkstellingen”: gebaseerd op de koppeling van bestaande bestanden en
enquêteresultaten op basis van steekproeven.
Niet alle steekproeven hebben evenveel waarde bv. Literary Digest-schandaal (1936, Alf Landon vs.
Franklin Roosevelt): tijdschrift had reputatie om steeds juiste voorspellingen te doen over de
presidentsverkiezingen. Hier kwam in 1936 een einde aan.
• Straw poll: stemmenproportie inschatten die een presidentskandidaat zal behalen door zoveel
mogelijk stemgerechtigden te vragen naar hun stemintentie
o n = 10 miljoen vragenlijsten naar stemgerechtigden uit telefoongidsen,
abonneelijsten, automobielregistraties.
o 2,4 miljoen ingevuld teruggestuurd
o Voorspelling: Alf Landon
o Vertekende schatting door selectiebias (burgers met hogere inkomens beter
vertegenwoordigd en deze stemmen vaker Republikeins) en responsbias (aanzienlijke
non-respons, hoger opgeleiden zijn eerder geneigd om aan postenquête deel te
nemen en die hadden ook een Republikeinse voorkeur)
• Random sample bv. EAS
o George Gallup slaagde er wel in om de correcte president te voorspellen.
o Voorspelling: Franklin Roosevelt op basis van steekproef n = 50 000
o Belang van toevalssteekproeven: elk element van de populatie heeft een bepaalde
(niet noodzakelijk gelijke) kans om getrokken te worden.
• Maar nu ook websurveys met vrijwillige respons
o Niet duidelijk of steekproef representatief is voor beoogde populatie
o Waardeloos m.b.t. uitspraken over een ruimere populatie
Soorten steekproeven:
• Enkelvoudige aselecte steekproef (EAS): men beschikt over een lijst van de elementen in de
populatie. Elk onderzoekselement heeft een even grote kans om geselecteerd te worden. Er
wordt gewerkt met een “onschuldige kinderhand” of toevalsgetallen
• Gestratificeerde steekproef: men maakt gebruik van voorkennis bij een steekproef. Bv. als
populatie uiteenvalt in verschillende subgroepen/strata die zich duidelijk op een
onderscheiden wijze verhouden tot het te onderzoeken kenmerk. Toevalssteekproef uit elke
strata in populatie. De omvang van deze onderscheiden toevalssteekproeven kan men
afstemmen op de specifieke omvang van elk stratum of het belang ervan voor de
onderzoeksvraag. Voorbeeld: in presidentsverkiezingen in VS hebben grotere staten recht op
meer kiesmannen → pollers kiezen doorgaans om de omvang van de toevalssteekproeven in
de verschillende staten af te stemmen op het aantal kiesmannen dat ze tellen.
• Quotasteekproef: men maakt ook gebruik van voorkennis bij de selectie van
onderzoekselementen. Men steunt op de beschikbare info over de populatieverdeling voor
een aantal variabelen bv. leeftijd en geslacht. Op grond daarvan legt men vast hoeveel
individuen men binnen elke subcategorie nodig heeft (bv. 25 mannen tussen de 20 en 25 jaar).
Verschil met vorig type: het wordt aan discretie van interviewer overgelaten om de
2
, onderzoekselementen binnen de vooraf gedefinieerde quota te selecteren. Als interviewers
terugvallen op kenniskring ontstaat er terug probleem van selectiebias. De
generaliseerbaarheid is vaak erg problematisch.
• Clustersteekproef: men onderscheidt eenheden op verschillende geneste niveaus. Individuen
zijn genest in gemeenten, gemeenten op hun beurt genest in provincies en provincies zijn
genest in landen. Binnen elk niveau gaat men op toevallige basis een aantal eenheden kiezen.
Men begint bij hoogste niveau. Binnen de toevallige gekozen primaire eenheden kiest men
vervolgens een aantal secundaire eenheden. Indien dit onderzoekselementen zijn, spreekt
men van tweetrapssteekproef. Voordeel: temporele of geografische spreiding van
onderzoekselementen indijken, waardoor kostprijs daalt.
1.3.2 ONDERZOEKSELEMENTEN EN HUN AGGREGATIENIVEAU
Aggregatieniveau:
• Micro: onderzoekselementen zijn individuen bv. analyse van Jozef Knecht van de 7 BV’s
• Meso: onderzoekselementen zijn functioneel gegroepeerd bv. analyse van resultaten
topsporters, mediamensen…
• Macro: onderzoekselementen opgeteld per land bv. analyse op basis van alle BV’s, BN’ers…
Ecologische meetfout: bij uitspraak die niet is gedaan op aggregatieniveau van onderzoekselementen.
Bv. op basis van macro – of mesoniveau uitspraken doen op individueel of micro-niveau.
Multi-level analyse
1.4 VARIABELEN
1.4.1 VARIABELEN EN HUN METING
Variabele = kenmerk van de onderzoekselementen, waarbij uitkomsten kunnen variëren.
Sociale wetenschappen: meten van “abstracte” attitudes, “latent constructs” of “verborgen”
variabelen (kan niet rechtstreeks geobserveerd worden)
Latent constructs meten (bv. mate van individualisme)
• Conceptualisering: wat men wil meten zo goed mogelijk omschrijven.
• Indicering: hoe ga je meten? Welke empirische representanten? → een bepaald
waarneembaar verschijnsel als representant voor het theoretisch concept.
o Validiteit: meet je wat je wil meten?
o Meetschaal (bv. schaal van Likert: volledig eens- eens – noch eens noch oneens-
oneens – volledig oneens)
• Operationalisering: hoe ga je registreren?
o Interpersoon betrouwbaarheid: personen die bv. “even” individualistisch ingesteld
zijn, op een gelijkaardige manier reageren op de meetschaal
o Intertemporale / test-retest betrouwbaarheid: als men dezelfde indicator(en) gebruikt
op verschillende momenten in de tijd, zou men eveneens een vrij grote samenhang
moeten zien tussen de antwoorden.
3
, 1.4.2 VARIABELEN EN HUN MEETNIVEAU
1.4.2.1 V ARIABELEN GEMETEN OP KWANTITATIEF MEETNIVEAU
Kwantitatieve variabelen nemen numerieke meetwaarden aan, waarmee men rekenkundige
bewerkingen kan uitvoeren en waartussen men ook betekenisvolle afstanden kan berekenen.
Ratio meetniveau (bv. afstand in km)
• Gelijke verschillen hebben gelijke betekenis bv. verschil tussen 1 km en 4 km = verschil tussen
12 km en 15 km
• Natuurlijk nulpunt (negatieve afstand is niet mogelijk)
o Gevolg: verhoudingen zijn zinvol (dus hebben eenduidige interpretatie)
o Bv. 20 km/ 10 km = 2 → “20 km is 2 keer zo ver als 10 km”
o Immers: afstand (mijl) = (1/1,61).afstand (km)
20km komt overeen met [(1/1,61).20] mijl = 12,42 mijl
10km komt overeen met [(1/1,61).10] mijl = 6,21 mijl
20 𝑘𝑚 12,42 𝑚𝑖𝑗𝑙
En dus 10 𝑘𝑚 = 2 is gelijk aan 6,21 𝑚𝑖𝑗𝑙
=2
o Ander voorbeeld: temperatuur in K.
Interval meetniveau (bv. temperatuur in °C)
• Gelijke verschillen hebben gelijke betekenis bv. verschil tussen 10°C en 15 °C = verschil
tussen 15 °C en 20 °C
• GEEN natuurlijk nulpunt (bv. -5 °C is mogelijk)
o Gevolg: verhoudingen zijn niet zinvol (geen eenduidige interpretatie)
o Bv. 20 °C / 5 °C = 4, maar niet zinvol! → we zeggen niet “20°C is 4 keer zo warm als
5°C”
o Immers: temp (°F) = 32 + (9/5).Temp(°C)
20°C komt overeen met [32 + (9/5).20]°F = 68°F
5°C komt overeen met [32 + (9/5).5]°F = 41°F
20 °𝐶 68 °𝐹
En dus 5 °𝐶
= 4 is niet gelijk aan
41 °𝐹
= 1,66
o Andere voorbeelden: jaartellingen, intelligentiescores…
Discreet of continu
4