Statistiek
Hoofdstuk 1: Van probleemstelling naar data-analyse
1.1 Doel van statistiek
1.1.1 Statistiek is overal
Dataficatie: de trend waarbij dagdagelijkse acties en interacties worden omgezet in
data die kunnen worden opgevolgd, geanalyseerd en geoptimaliseerd
Kwantitatief onderzoek: data worden in nummers omgezet zodat deze geanalyseerd
kunnen worden door middel van statistische methoden
Data-analyse: het toepassen van statistische methoden in een bepaald domein
1.1.2 Doel van data-analyse
Methodologie van het sociaalwetenschappelijk onderzoek: behandelt de
overkoepelende fundamenten van sociaal wetenschappelijk onderzoek, waarvan
kwantitatieve data-analyse een onderdeel is
Wetenschappelijke houding: data-analyse moet objectief en onafhankelijk van de
beoefenaars
Creatieve houding: data-analyse is een creatief en interpretatief dat net wel
afhankelijk is van de beoefenaar. De beslissingen die een onderzoeker neemt bij het
verzamelen van data, het meten van bepaalde kenmerken en de vraagformulering
ervan, het analyseren van de data en interpreteren van de data, kan een grote
invloed hebben op het inzicht dat verworven kan worden
,1.2 Van probleemstelling naar data-analyse
1.2.1 Probleemstelling
1.2.2 Data verzamelen
Onderzoekseenheden: eenheden of objecten waarop het onderzoek betrekking
heeft en waarbij geen kenmerken gemeten worden
Populatie: een verzameling van alle onderzoekseenheden die gekenmerkt worden
door een afbakening in tijd en ruimte
Steekproef: een deelverzameling van onderzoekseenheden uit de populatie
Willekeurige steekproef: elke onderzoekseenheid heeft een even grote kans om
geselecteerd te worden
Representatieve steekproef: als het kenmerk in gelijke mate voorkomt in de
steekproef als in de populatie
Omvang van een steekproef = n
Surveys: respondenten krijgen enkele gesloten en/of gesloten vragen
voorgeschoteld die demografische kenmerken, attitudes en gedrag pogen te meten
Experimenten: hebben als doel een oorzaak-gevolg in kaart te brengen. Dit wordt
gedaan door onderzoekseenheden willekeurig over verschillende groepen te
verdelen, waarna deze groepen aan verschillende omstandigheden worden
blootgesteld. De groepen verschillen maar op één punt van elkaar, namelijk aan
welke interventie ze werden blootgesteld
, 1.2.3 Meten van gegevens
Uitkomstenverzameling ϕ: alle mogelijke uitkomsten voor een variabele
Geobserveerde waarnemingen: de uitkomsten die daadwerkelijk geobserveerd zijn
in de steekproef of populatie
Aard van de gegevens:
Kwalitatief meetniveau: kenmerken hebben geen vaste, kwantificeerbare
meeteenheid -> nominale en ordinale gegevens
Kwantitatief meetniveau: kenmerken hebben wel een vaste, kwantificeerbare
meeteenheid -> interval en ratio gegevens
Omvang van de gegevens:
Discrete gegevens: de uitkomstenverdeling is eindig, er is geen kommagetal mogelijk
(bv. aantal kinderen)
Continue gegevens: de uitkomstenverzameling is oneindig groot, er is een
kommagetal mogelijk (bv. gewicht, lengte, tijd)
Aard van de Omvang van de uitkomstenverzameling
uitkomstenverzameling Discreet Continu
= meetniveau
Kwalitatief: Eindig: ϕ = {m1 , m2 , … , m k }
- Nominaal
- Ordinaal
Kwantitatief: Eindig of aftelbaar oneindig: Oneindig: ϕ ⊂ ℝ
- Interval ϕ = { m1 , m2 , … , m k } ⊂ R
- Ratio
Nominaal meetniveau:
Niet te interpreteren via groter of kleiner, meer of minder
Codes kunnen om het even welk symbool aannemen (bv. letters, cijfers,
woorden)
Meetschaal is eindig, exhaustief en exclusief: elke observatie hoor maar thuis
in één categorie en alle mogelijke categorieën zijn gegeven in de meetschaal
Ordinaal meetniveau:
, De elementen van de meetschaal kunnen geordend of geïnterpreteerd
worden in termen van meer en minder, hoger en lager
Hebben geen vaste meeteenheid en verschillen niet in vastgelegde
hoeveelheden
Is eindig, exhaustief en exclusief
Interval gegevens: hebben een kwantificeerbare meeteenheid, maar het nulpunt is
arbitrair waardoor de verhoudingen tussen waarden betekenisloos zijn (bv.
temperatuur, IQ)
Ratio gegevens: hebben een kwantificeerbare meeteenheid en het nulpunt is
bepaald waardoor verhoudingen wel zinvol zijn (bv. aantal vrienden)
1.2.4 Opkuisen, transformeren en operationaliseren
Data cleaning: ‘fouten’ in de dataset worden verwijderd en een plan wordt
opgesteld om met missende waarden om te gaan
Transformeren van variabelen: op basis van bestaande gemeten kenmerken worden
nieuwe variabelen geconstrueerd. Dit kan door de meetschaal te transformeren of
door wiskundige bewerkingen uit te voeren
Operationaliseren van concepten: het meetbaar maken van abstracte concepten
1.2.5 Presenteren, visualiseren en analyseren
Beschrijvende of descriptieve statistiek: wordt gebruikt om kenmerken te ordenen,
te verkennen en samen te vatten aan de hand van frequenties, centrummaten en
spreidingskenmerken
Steekproefstatistiek: een maat die wordt berekend op basis van de
steekproefgegevens
Populatieparameter: een maat die wordt berekend op basis van de volledige
populatie
Inductieve statistiek: op basis van de gegevens bij een steekproef met een beperkte
omvang n, uitspraken te doen over de volledige populatie
Wet van de grote aantallen: stelt dat hoe meer steekproefgegevens, hoe groter de
nauwkeurigheid en hoe beter de steekproefstatistieken de exacte populatiewaarde
zullen benaderen