STATISTIEK I
HOOFDSTUK 1: WAT IS STATISTIEK?
- Statistiek is de wetenschap van het verzamelen, organiseren en presenteren van gegevens of data
volgens een numerieke logica.
-Soorten
Beschrijvende statistiek= Het beschrijven van de gegevens van een steekproef of populatie
met behulp van tabellen, grafieken en kengetallen.
Inferentiële statistiek= Op basis van steekproefgegevens uitspraken doen over de populatie.
HOOFDSTUK 2: DATA STATISTISCH ONDER DE LOEP GENOMEN
1. Datamatrix
= tabel die de basis vormt van een groot aantal statistische analyses
= geeft gegevens weer in een tabel; coherent geheel van rijen (-) en kolommen (I)
specifiek geordend : statistiek heeft context nodig, want is gebaseerd op werkelijkheid
Rijen: meetwaarden of observaties voor specifiek onderzoekselement (case of unit)
Kolommen: meetwaarden voor specifieke variabele
2. Onderzoekselementen
2.1 Onderzoekselementen als (deel van een groter) geheel
Onderzoekselementen (cases): eenheden waarbij je een aantal karakteristieken gaat
onderzoeken of registreren ; hetgeen waarover je iets wil zeggen
Staan in de linker marge, aangegeven door rangnummer
Populatie (N): aantal onderzoekselementen = totale aantal mogelijke elementen waarbij men
de desbetreffende karakteristieken kan onderzoeken
vb, alle Vlaamse burgers
o Niet haalbaar om alle elementen te onderzoeken
Steekproef/ sample (n): onderzoekselementen = deel van een groter geheel aan elementen
die men in het onderzoek had kunnen betrekken
vb, 1000 Vlaamse burgers
o Nuttige aanvulling op populatie-onderzoeken
o Goedkoper en vereisen minder tijd
o Best random gebeuren en grote n
Volkstelling: onderzoek waarbij men ernaar streeft om aantal karakteristieken van een
volledige bevolking in kaart te brengen
o Reponsgraad
o Non-response
o Verblijvers die niet meetellen vb illegalen
Virtuele volkstelling: gebaseerd op koppeling van bestaande bestanden en
enquêteresultaten op basis van steekproeven
Call-in polls of websurveys: aanwezig op internet, waardeloos ruimere populatie
o Geen enkele controle; representatief?
1
, STATISTIEK I
Vrijwillige respons: Literary Digest-schandaal
Straw poll: procedure waarbij men probeert om de stemmenproportie te schatten die een
presidentskandidaat zal behalen door zo veel mogelijk kiesgerechtigden te vragen naar hun
stemintentie
Selectiebias: wanneer de vertekening van de resultaten wordt veroorzaakt door het selectief
includeren van personen in een studie
Responsbias: wanneer de vertekening door de resultaten veroorzaakt wordt door een hoge
non-respons bijvoorbeeld (niet juist of niet eerlijk antwoorden op vraag)
Toevalssteekproef: elk element vd populatie heeft een bepaalde (niet noodzakelijk gelijke)
kans om getrokken te worden
o EAS (simple random sample): elk element van de populatie heeft een even grote
kans om geselecteerd te worden, indien men beschikt over een lijst van elementen
van de populatie en indien er geen systematiek is in de selectie. (gebruik van
toevalscijfers)
o Clustersteekproef: eenheden worden onderscheiden op verschillende geneste
niveaus, meestal primair (jaar, gemeente, …) en secundair (binnen de toevallig
gekozen primaire groep) = tweetrapssteekproef, maar er kunnen ook meerdere
niveaus gehanteerd worden. Voordeel: temporele en geografische spreiding indijken
Binnen elk niveau op toevallige basis aantal eenheden kiezen
The good vb, Vlaamse populatie: eerst steekproef op random gemeente en dan
steekproef random mensen 2 keer random = meerdere stappen waarbij
toeval een rol speelt
o Gestratificeerde toevalssteekproef: wanneer men de steekproef selecteert obv
voorkennis. Men weet dat de steekproef uiteenvalt in verschillende subgroepen die
zich op een duidelijk onderscheiden wijze verhouden tov een te onderzoeken
kenmerk. Dan gaat men uit elk van deze strata een toevalsteekproef trekken
Vb kiesmannen
o Quotasteekproef: steunen op beschikbare informatie ivm de populatieverdeling voor
een aantal socio-demografische variabelen als leeftijd en geslacht. Maar probleem
van de selectiebias, wel vaak goedkoper; je bepaald zelf wie je bevraagt
The bad Niet toevallig , gericht
bias o Convenience steekproef: ‘makkelijk’
vb, mensen ondervragen die je toevallig tegenkomt, hier en nu
vb, online poll: mensen die poll invullen van vb krant: poll gaat niet over heel
BE, maar enkel over bepaalde lezers van die krant
2
, STATISTIEK I
2.2 Onderzoekselement en hun aggregatieniveau
= niveau van optelling
Micro: individuen
Meso: functioneel gegroepeerd
Macro: grote, sterke verbanden
Ecologische meetfout (ecological fallacy) : op basis van gegevens op meso- of macroniveau
uitspraken doen op individueel of microniveau
vb onderzoek zegt: Belgen drinken meer dan Ned Die Belg drinkt meer dan die Ned
- Simpson Paradox: een getal vertelt niet alles, soms zit er meer achter (zie vb ziekenhuis)
Simpson stelde vast dat er bij een medische ingreep proportioneel meer slachtoffers
overlijden in ziekenhuis A dan in ziekenhuis B. Toch zou hij zich altijd in ziekenhuis B laten
behandelen, want als men rekening houdt met de ernst van de klachten blijkt ziekenhuis B
proportioneel altijd beter te scoren. Eerste blik: je liever laten behandelen in A: minder
overlijden. Hoe ernstig zijn de klachten die sterven in B?
3. Variabelen
3.1 Variabelen en hun meting
Variabele: kenmerk vd onderzoekselementen (moeten variëren!)
Meetwaarden (observaties): waarde van onderzoekselement bij een bepaalde variabele
Meting: adequaat registreren van de mate waarin dit kenmerk aanwezig is bij de
onderzoekselementen. Dit heeft een invloed op de meetwaarden en onderzoeksconclusies
Conceptualiseren: concept zo goed mogelijk omschrijven , wat wil je meten?
Wat bedoel je met variabele (gebruik vakkennis)
Indicering: identificatie van een bepaald waarneembaar verschijnsel als representant voor
het theoretisch concept Valide indicator: wat wil men peilen
Operationalisering : hoe registreren?
Vb: Hipsters in Antwerpen
- stel variabele op die bepaalt of je hipster bent of niet
-indiceren: indicatoren bedenken die het kunnen meten in de werkelijkheid : ! Indicatoren
moeten valide zijn! (vb, je meet geen gevoel met meter)
-operationalisering: uitvoeren
-consistente/ betrouwbare meting: vind je niet steeds hetzelfde antwoord ≠
𝑏𝑒𝑡𝑟𝑜𝑢𝑤𝑏𝑎𝑎𝑟, 𝑐𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑡
Meetschaal: Bundeling van meerdere indicatoren, grote samenhang tussen antwoorden op
de onderscheiden indicator
Betrouwbaarheid (reliability)
o Interpersoon: personen die ‘even’ individualistisch ingesteld zijn, behoren op
gelijkaardige manier te reageren
o Ceteris paribus/intertemporele of test-retest betouwbaarheid: op verschillende
momenten in de tijd eveneens vrij grote samenhang tussen antwoorden
Problematiek: meten ‘abstracte’ attitudes of latente constructen
o Non attitudes: meting op basis van kleinere groep
3
, STATISTIEK I
o Latent: niet waarneembaar
3.2 Variabelen en hun meetniveau
KWANTITATIEF MEETNIVEAU
Numerieke meetwaarden waarmee men rekenkundige bewerkingen kan uitvoeren en waartussen
men ook betekenisvolle verschillen kan berekenen -> metrische variabelen
1. Interval: natuurlijke afstand, maar geen natuurlijk nulpunt
y = a + bx vb temperatuur in Farenheit/Celsiusjaartellingen, IQ
2. Ratio: vast of natuurlijk nulpunt
y = bx vb temperatuur in Kelvin, afstand, lengte, leeftijd
Discreet: variabele kan een beperkt # waarden aannemen vb gezinsvormen
Continu : metingen, variabele kan oneindig # waarden aannemen vb afstand in km, lengte
KWALITATIEF/ CATEGORISCHE MEETNIVEAU
Geen numerieke meetwaarden, uitgedrukt in aantal alfanumerieke categorieën
1. Nominaal meetniveau : ongeordend categoriserend
Disjunct: elk element behoort in 1 categorie
Exhaustief : voor elk element is categorie beschikbaar
Vb geslacht, haarkleur, regio
2. Ordinaal meetniveau: geordend categoriserend
vb small, medium, large ; onderwijsniveau; Likert schalen (helemaal mee oneens t/m oneens)
Nominaal< Ordinaal< Interval/ratio
Analyses van lager meetniveau mogen
ook op hoger niveau w toegepast,
omgekeerd niet
OPWAARDEREN: “WHAT’S
WRONG WITH WANTING
MORE?”
Kwalitatieve meetwaarden vervangen door numerieke code (coderen)
Niet op deze codes baseren om niveau te bepalen
Reden: meest krachtige analysemethoden veronderstellen rekenkundige manipulaties en
kwantitatieve variabelen vereisen
Kan eventueel wel bij :
Dichotome nominale variabele: variabele die slechts 2 nominale waarden aanneemt (vb
geslacht het al dan niet bezitten van een kenmerk) Kan nominaal, interval of ratio zijn!
=> Omzetten in dummy variabele: zinvol!
4