In onze maatschappij worden er voortdurend enorme hoeveelheden, ook wel data genoemd, verzameld
o Verschillende bedrijven, overheden en organisaties verzamelen gegevens over de meest uiteenlopende
dingen (bv. facebook, google …)
o Deze zijn alleen maar nuttig als er technieken zijn om die gegevens te structureren, te ordenen, te
beschrijven en samen te vaten
Een stap verder is om op zoek te gaan naar trends, patronen en verbanden
o Statistiek is de hele wetenschap om data te verzamelen, te ordenen, te analyseren, te interpreteren en te
presenteren
Statistiek geeft inzicht op de complexe en onzekere realiteit, uitzonderingsbubbel te doorprikken, empirie te
gebruiken op beweringen of meningen en weerbaar te zijn in een samenleving gedreven door cijfers (= “data-driven”)
o Beweringen op zich zijn niet voldoende, nood aan empirie
o Niet zomaar data verzamelen, maar volgens regels van de kunst (= Inleiding onderzoeksmethoden)
o Niet zomaar data analyseren, moet juiste techniek en met ruimte voor onzekerheid (= Statistiek II)
Bv. wetenschappelijk onderzoek waarbij we geïnteresseerd zijn in alle inwoners van België. Dan is elke inwoner van
België een onderzoekseenheid, en de groep van alle inwoners van België noemen we de (onderzoeks)populatie
o De is dus de volledige groep van alle onderzoekseenheden (vaak personen)
Als onderzoek bij scholen en eigenschappen van scholen, dan zijn de scholen de onderzoekseenheden
Ben je een econoom met een focus op bedrijven en hun performantie, dan zijn bedrijven en hun
kenmerken de onderzoekseenheden
Alle personen die in de loop van het jaar 2021 gedetineerd waren in België = percentage recidivisten
Alle studenten hoger onderwijs in Vlaanderen in 2021 = percentage studenten criminologie
o Als er info is over alle onderzoekseenheden in de volledige populatie, dan is dit percentage een
(populatie)parameter (= eigenschap gemeten bij de volledige onderzoekspopulatie)
Wanneer we geen informatie hebben over alle onderzoekseenheden in een populatie, dan hebben we nog een tweede
strategie: we nemen een uit de onderzoekspopulatie en verzamelen gegevens bij de geselecteerde
onderzoekseenheden in de steekproef
= subset/selectie uit de volledige groep van onderzoekseenheden in de populatie
o Moet dus dezelfde karakteristieken hebben als van populatie die het vertegenwoordigt (representativiteit)
o Voor vele statistische technieken moet dit een eenvoudige aselecte toevalssteekproef (EAS) zijn (SRS -
‘simple random sample’)
Dit is een waarbij elke onderzoekseenheid in de populatie een gelijke kans
verschillend van nul, om geselecteerd te worden
o Kengetallen die we meten in de steekproef → (steekproef)statistieken
, o Niet-systematische steekproeffouten (= betrouwbaarheid)
o Systematische steekproeffouten (= geldigheid)
Selectiebias (manier van selecteren van respondenten geeft vertekend beeld, geen toeval)
Non-respons bias (zij die deelname weigeren verschillen systematisch van de respondenten)
Item non-responsbias (niet ingevuld, sampling bias)
Bv. onderzoekspopulatie van alle Belgen + toevalsteekproef uit deze populatie. Als willen weten hoe Belgen denken
over politiek, wat hun visie is over migratie of in welke mate ze sociale media gebruiken, dan kunnen we die informatie
niet zomaar halen uit bestaande administratieve bronnen van de overheid
o We hebben in dat geval geen rechtstreekse informatie over de volledige populatie
o Het is onmogelijk om alle inwoners van België te bevragen om die informatie te verzamelen
o De oplossing is dan om uit de volledige populatie een toevalssteekproef te trekken van een beperkte groep
van onderzoekseenheden, dus door 10.000 mensen te bevragen i.p.v. 11 miljoen
Dit is een , het is een subset van onderzoekseenheden uit de populatie selecteren (= steekproef)
en deze bevragen over de bedoeling om iets te weten over de hele populatie
= beschrijven van de verzamelde gegevens
o Dus: gaan uitspraken doen over de onderzoekseenheden die bevraagd werden
o Verzameling, organisatie en presentatie van de data en deze dan beschrijven
o Samenvatten van gegevens (a.d.h.v. statistieken, grafieken, tabellen, ...) om globale patronen en kenmerken
te ontdekken
Centrummaten (gemiddelde, modus, mediaan)
Spreidingsmaten (standaardafwijking, variantie,
interkwartielafstand)
Grafieken: histogrammen, taartdiagram, boxplots …
Voorbeeld. Grafiek opinie rond invoeren doodstraf bij jongeren tussen 15-
30 jaar in Vlaanderen (in %), gebaseerd op een steekproef van 3000
jongeren
o Veralgemeenbaarheid van resultaten in de steekproef naar de populatie → conclusies trekken m.b.t. de
populatie = van de resultaten
Significantie vertelt ons over de veralgemeenbaarheid van steekproefresultaten naar de populatie,
niet over de sterkte of grootte van de resultaten
Zijn dus statistische technieken om te bepalen in welke mate de resultaten van een steekproef, mogen
veralgemeend worden naar de populatie = significante resultaten
o Het maakt gebruik van kansrekenen en kansverdelingen (HOC 2 en 3), en de theoretische basis van de
steekproevenverdeling en centrale limietstelling (HOC 4)
, Twee technieken
o Hypothesetoetsen (HOC 5)
o Betrouwbaarheidsintervallen (HOC 6)
Variabelen zijn kenmerken die we bij onze onderzoekseenheden (“cases”) meten of bevragen. Het feit dat het variabel
(variërend) is, is cruciaal, want de kenmerken die we meten en vaststellen kunnen meerdere waarden aannemen
o Bv. variabele geslacht, leeftijd, inkomen, oogkleur … heeft meerdere antwoorden
o Vooral cijfers, maar ook tekst (“string”-variabelen in SPSS) die eventueel worden gecodeerd naar een
numerieke waarde
o Nood aan definiëring en operationalisering van concepten (bv. leeftijd, geslacht, armoede, gezondheid)
Kenmerken van onderzoekseenheden omzetten naar meetbare variabelen
Het heeft een grote impact op de resultaten van de data-analyse
o Kwalitatief of categorisch: variabelen die categorieën of groepen onderscheid in de data, zonder verdere
wiskundige betekenis
De variabele geslacht of opleidingsniveau is kwalitatief omdat ze kan gebruikt worden om
onderzoekseenheden in groepen in te delen
o Kwantitatief of metrisch: variabelen die kwantificeren, ze laten toe om te tellen en te rekenen, waarden
variabele wijst dus op een wiskundige betekenis zoals temperatuur en inkomen
Discreet: (beperkt aantal) gehele getallen, resultaat van telling of classificatie (bv. aantal auto’s per
gezin, kan geen kommagetal zijn)
Continu: variabele kan alle waarden aannemen (bv. lichaamslengte, snelheid)
:
o Nominaal: categorieën zonder ordening, elke
categorie heeft een numerieke waarde, waar de
doel alleen is om de waarde te benoemen en te
classificeren
o Ordinaal: categorieën mét ordening (opleiding)
o Interval: heeft een rangorde en een meeteenheid, kan verschillende waarde van de variabele met elkaar
vergelijken door het interval te bekijken (wiskundige waarde), maar heeft geen absoluut nulpunt
(geboortejaar)
o Ratio: interval tussen waarde heeft betekenis, wél absoluut nulpunt (0 = 0)
Er kan gerekend worden, uitgebreid wiskundig rekenen met de waarden zoals leeftijd
, Een frequentieverdeling is een van de meest eenvoudige maar meteen ook een van de meest fundamentele
manieren om een variabele te verkennen
o Gaat kijken welke verschillende waarden de variabele aanneemt in je data, en hoe vaak elk van de mogelijke
waarden voorkomt, uitgedrukt in absolute of relatieve aantallen
o Het verkennen van variabelen aan de hand van frequentietabellen is een onontbeerlijke stap alvorens verdere
dataverwerking aan te vatten
De absolute frequentie (Fxi) is het aantal keer dat een bepaalde waarde xi werd waargenomen voor de variabele X
o In totaal zijn er n antwoordcategorieën
o Elke antwoordcategorie voor de variabele X is dus een waarde xi en voor elke waarde xi heb je een absolute
frequentie Fxi
o De som van de absolute frequenties is gelijk aan de steekproefgrootte N: ∑𝑛𝑖=1 𝐹𝑥𝑖 = 𝑁
is dus de steekproefgrootte of het 'effectief' van de steekproef of populatie
De absolute frequentie in een frequentietabel is niet altijd eenvoudig te interpreteren. Het is daarom vaak interessant
om ook de relatieve frequentie (fi) te bepalen
o De relatieve frequentie (fi) wordt bekomen door de absolute waarden te delen door de steekproefomvang of
𝑓𝑖
het 'effectief': 𝑓𝑖 =
𝑁
o Wanneer je alle relatieve frequenties bij elkaar optelt, dan krijg je steeds de waarde 1
𝐹1 𝐹2 𝐹𝑛 𝑁
∑𝑛𝑖=1 𝑓𝑖 =
𝑁
+ 𝑁
+ …+ 𝑁
=𝑁=1
o Vanaf het ordinale meetniveau kunnen we voor variabelen cumulatieve frequenties bepalen
o Om de cumulatieve frequenties te berekenen, tellen we voor elke waarde xi de absolute frequentie op bij de
absolute frequenties van de voorgaande waarden xi
o We kunnen dit schrijven als: 𝐾𝑥𝑖 = ∑𝑥𝑗≤𝑥𝑖 𝐹𝑥𝑗
Net als voor de absolute frequenties, kunnen we ook voor de relatieve frequentie een cumulatieve frequentie bepalen
→ we kunnen dit schrijven als: 𝑘𝑥𝑖 = ∑𝑥𝑗≤𝑥𝑖 𝑓𝑥𝑗
o Een frequentietabel is een eenvoudige maar zeer krachtige manier om variabelen snel te verkennen
o Soms biedt een grafiek echter een sneller inzicht in de frequentieverdeling van een variabele
Bovendien laat een grafiek het toe om snel anomalieën in de gegevens te detecteren
o Het effectief en efficiënt kunnen voorstellen van statistische gegevens a.d.h.v. grafieken, maar ook het
correct lezen en interpreteren van grafieken is een basisvaardigheid
o Belangrijke grafieken: staafdiagram (categorisch), taartdiagram (categorisch), histogram (metrisch) en
lijndiagram (evolutie)