Statistiek I
Hoofdstuk 1: Inleiding
1. Wat is statistiek?
“Statistics is the art and science of learning from data”
• Statistiek is gegevens vertalen in kennis en inzicht
(Gegevens analyseren, interpreteren en presenteren)
• Kennismethode om de wereld beter te kennen en te begrijpen
(Wetenschappelijke discipline)
• Empirisch onderzoek
(Statistiek als werktuig, instrument, methode)
• Het kijken naar gegevens en verdelingen
(Weergeven op een manier om beter te begrijpen: grafisch, kerngetallen)
(Onderzoeken en vergelijkingen van verdelingen)
2. Waarom statistiek?
• Om beweringen te staven
(Beweringen op zich is niet voldoende, er is nood aan empirie en nood aan data en gegevens)
• Onderzoeksmethoden: data verzamelen volgens de regels va de kunst
• Statistiek: data analyseren volgens de regels van de kunst
Als we dus een empirisch onderzoek willen doen om een antwoord te bieden op een
vraagstelling, dan dienen we: data te verzamelen en data te analyseren.
1. Probleemstelling
- Vergt substantiële kennis van het vakgebied
2. Onderzoeksonderwerp en dataverzameling
- Welke onderzoeksmethoden in functie van probleem- en
vraagstelling?
- Overzicht van courante onderzoeksdesign in vakgebied
- Sterkte en zwakte van verschillende designs
3. Data-analyse
- Beschrijvende statistiek, inductieve statistiek, multivariate
statistiek, …
4. Rapportering
- Literatuur opzoeken, refereren, wetenschappelijk taalgebruik
- Terugkoppeling
,3. Soorten statistiek
1. Beschrijvende statistiek: Deze statistiek beschrijft de wereld in cijfers. Wij als
mensen denken spontaan vaak aan kwantiteiten en cijfers geven de
hoeveelheden precies weer.
Het doel van deze statistiek is het ordenen en synthetiseren van een grote
hoeveelheid gegevens en deze herleiden tot samenvattende maten en
grafieken.
2. Inferentiële statistiek: Deze statistiek is een middel om met een beperkt
aantal gegevens uitspraken te doen over een breder geheel, over een volledige
populatie. Men spreekt hier over extrapolatie: uitspraken over de volledige
bevolking op basis van een steekproef uit die bevolking.
Dit zorgt voor veralgemeenbaarheid van de steekproefresultaten en voor
voorspellingen op basis van een steekproef.
3. Verklarende statistiek: Deze statistiek is gericht op een verklaring van
verschillen en samenhang. Er bestaan daarvoor verschillende samenhang- en
verschilvragen zoals ‘Wat is de relatie tussen opleidingsniveau en inkomen?’.
4. Misleading?
• Kernidee: cijfers zijn enorm overtuigend en daarom ook gemakkelijk om ermee
liegen
• Statistieken worden regelmatig gebruikt om mensen te misleiden
(Uitkomsten van onderzoek kunnen gemanipuleerd worden bij het verzamelen van
gegevens, bij de presentatie van de uitkomsten en bij het omschrijven van de conclusies)
• Misleiding bij het verzamelen van gegevens
(Slechte selectie van onderzoekspersonen, te klein aantal personen, slechte vraagstelling,
slechte operationalisatie, …)
• Misleiding bij de presentatie van gegevens
(Een deel van de grafiek verwijderen, schaal manipuleren, grafische aanpassingen, …)
DUS: Zelf kritisch leren lezen!
,5. Oorsprong?
Ontstaan midden in de 18e eeuw:
• Informaties over de naties en staat (staatsboekhoudkunde)
• Omwille van fiscale en militaire doeleinden
• Systematische verzameling van demografische en economische data door de
overheden
Midden 19e eeuw:
• Steeds meer gegevens worden verzameld
• Ook analyse en presentatie van data
• Statistische analyse van gezondheidsproblemen en implicaties voor volksgezondheid
Adolphe Quetelet:
• Astronoom
• Organiseert eerste internationale conferentie over statistiek
• Grondlegger Belgische statistiek
• Beleid moderne staat en democratische samenleving
6. Counting numbers?
• Turven: Eerste vorm van tellen. Dit is de voorloper van de Romeinse cijfers.
(Telstrepen op been of op hout)
• Brahmi-systeem: Niet enkel uit de symbolen voor de cijfers 1-9, maar zoveel
symbolen voor zoveel cijfers. Hier ontstonden ook de eerste regels om met 0
te tellen.
• Huidig cijfersysteem – Hindu-Arabisch: Systeem gebaseerd op 3
kernelementen: 10 symbolen om getallen voor te stellen, de plaats van het
cijfer bepaalt de waarde van het getal en het gebruik van het getal 0.
Deze nieuwe methode is efficiënt voor complexe bewerkingen. Getallen in
cijfersymbolen zijn sneller te lezen dan woorden. De moderne symboolnotatie
is de enige universele taal. Het zal cruciaal zijn voor de start van de
wetenschappelijke revolutie in Europa en de opkomst voor moderne
natuurwetenschap.
, Hoofdstuk 2: Meten en meetschalen
1. Terminologie en kernbegrippen
• Onderzoekspopulatie: Alle leden van een welomschreven groep die je wil
onderzoeken. De omgang en het type kan sterk variëren en deze moet
duidelijk omschreven zijn.
• Statistische eenheid: De cases, elementen uit de bestudeerde bevolking:
mensen, schapen, landen, … (Statistiek bestudeert de kenmerken van die bevolking).
• Variabele: Kenmerken van de onderzoekseenheden waarin we geïnteresseerd
zijn. Bij sommige kenmerken zijn de waarden een getal, bij andere kenmerken
is dit niet het geval.
• Datamatrix: Cases in rijen, variabelen in kolommen en waarden in cellen.
• Parameters: Kerngetallen die de verdeling weergeven van een kenmerk in een
populatie.
• Steekproeven: Het is vaak onmogelijk om de volledige populatie te
onderzoeken, daarom nemen we er een deel van en dat is de steekproef.
• Steekproefstatistieken: Statistische kerngetallen van een steekproef. Een
numerieke samenvatting van de steekproef uit de populatie.
• Statistische reeks: Een reeks waarnemingen.
• Tijdreeks: Reeks waarnemingen in de tijd. Het ogenblik van de waarneming is
belangrijk voor de interpretatie van de gegevens.
• Dimensie van een reeks: Aantal variabelen dat simultaan wordt
waargenomen. Unidimensionale, tweedimensionale en multidimensionale
reeks.
2. Wat is meten?
Meten is (numerieke) waarden aan objecten toekennen. Het laat toe om
vergelijkingen te maken. Om die vergelijkingen te maken hebben we standaarden
nodig (cm, el, g, …). Moderne standaarden en internationale overeenkomsten:
lengtematen, tijdsmaten, … Statistiek heeft nood aan standaarden.