Statistiek A
OOW
UA
------------------------
C.VandenBorre
2021-2022
,Inhoud
Hoofdstuk 1: Wat is statistiek? ....................................................................................... 4
1.1 De gevaren van statistiek ...................................................................................... 4
1.2 Wat is statistiek? ................................................................................................. 4
1.3 Functies van statistiek .......................................................................................... 4
Hoofdstuk 3: Data en de datamatrix ................................................................................ 5
3.1 Wat is data en wat zijn variabelen? ......................................................................... 5
3.2 Het meetniveau van variabelen .............................................................................. 5
Opgelet! De schaalscore! .......................................................................................... 7
3.3 De datamatrix .................................................................................................... 7
Hoofdstuk 2 en 4: R, R studio en databeheer ..................................................................... 8
Basisobjecten in R (=”atomic objects”) ......................................................................... 8
Soorten variabelen in R ............................................................................................ 8
Hoofdstuk 5: De frequentieverdeling van een variabele ........................................................ 9
5.1 Absolute en relatieve frequenties ........................................................................... 9
Absolute frequentie: ni In R: table( ) .............................................................................. 9
Relatieve frequentie fi In R: prop.table ( ) ......................................................................... 9
5.2 Frequentietabel .................................................................................................. 9
5.3 Cumulatieve frequenties ....................................................................................... 9
5.4 Het histogram (kwantitatieve var.) ......................................................................... 11
5.5 Grafische voorstellingen van categorische variabelen .................................................. 11
Hoofdstuk 6: Parameters van ligging en spreiding .............................................................. 12
6.1 Parameters van ligging ........................................................................................ 12
6.1.1 De modus (nominale variabelen) ......................................................................... 12
6.1.2 de mediaan (ordinale variabelen) ........................................................................ 13
6.1.3 Het rekenkundig gemiddelde (intervalvariabelen) .................................................... 13
6.1.4 Het harmonisch gemiddelde .............................................................................. 14
6.1.5 Het geometrisch gemiddelde ............................................................................. 14
6.1.6 Kwantielen (ordinale variabelen) ........................................................................ 14
6.1.7 Hoe een parameter van ligging kiezen bij het interpreteren van gegevens?...................... 15
6.2 Parameters van spreiding ..................................................................................... 16
6.2.1 Variatiebreedte (interval en ratio) ...................................................................... 16
6.2.2 De interkwartielafstand of de interdecielafstand ..................................................... 16
6.2.3 De gemiddelde absolute afwijking (tenminste intervalniveau) ..................................... 17
6.2.4 De variantie.................................................................................................. 17
2
, 6.2.5 De standaardafwijking ..................................................................................... 18
6.2.6 Hoe een parameter van spreiding kiezen bij het interpreteren van gegevens? .................. 19
6.3 Grafische weergave van ligging en spreiding: de boxplot .............................................. 20
6.4 Overzicht van parameters van ligging en spreiding mbt meetniveau................................ 21
Hoofdstuk 7: Parameters van vorm ................................................................................. 22
7.1 Scheefheid (skewness) ........................................................................................ 22
7.2 Kurtosis (platheid/gepiektheid).............................................................................. 23
Algemene tips voor het examen..................................................................................... 24
Hoofdstuk 8: De (standaard-)normaalverdeling .................................................................. 26
8.1. Kansverdeling .................................................................................................. 26
8.1.1. Empirische kansverdeling................................................................................. 26
8.1.2. Theoretische kansverdeling .............................................................................. 26
8.2. De normaalverdeling .......................................................................................... 27
8.2.1. Voorwaarden om te spreken van een normale verdeling ............................................ 27
8.2.2.. De 68-95-99,7 regel ...................................................................................... 27
8.3. Z-scores .......................................................................................................... 29
8.3.1. Wat zijn Z-scores? ......................................................................................... 29
8.3.2. Hoe kan je Z-scores interpreteren? ..................................................................... 29
8.4. De standaardnormaalverdeling ............................................................................. 30
8.4.1. Berekenen vd kans dat een bepaalde waarde voorkomt in een identieke meetsituatie ....... 30
Hoofdstuk 9: Steekproeftheorie..................................................................................... 33
9.1. Steekproeven ................................................................................................... 33
9.1.1 Fouten in steekproeven .................................................................................... 33
9.1.3. Steekproevenverdelingen................................................................................. 33
9.1.2. De centrale limietstelling ................................................................................ 34
Hoofdstuk 10: Inferenties over de verdeling van variabelen in de populatie ............................. 35
10.1 Betrouwbaarheidsintervallen ............................................................................... 35
10.1.1. Enkele begrippen & afspraken ......................................................................... 35
10.1.2 Wat bepaalt de breedte van een betrouwbaarheidsinterval? ...................................... 35
10.2. Betrouwbaarheidsintervallen rond het gemiddelde .................................................. 35
10.2.1. Bepalen van betrouwbaarheidsintervallen rond het gemiddelde ................................. 35
10.2.2. Hoe betrouwbaarheidsintervallen interpreteren? ................................................... 36
10.3 Betrouwbaarheidsintervallen variantie .................................................................. 36
10.4 Betrouwbaarheidsintervallen voor de kengetallen van vorm ........................................ 37
10.5 Betrouwbaarheidsintervallen voor relatieve frequenties ............................................ 37
3
, ❖ Opletten met veralgemenende uitspraken over de populatie! Dit kan enkel als je een representatieve
steekproef hebt!
❖ Selectieve censuur: bv tegenvallende of politiek gevoelige info niet uitbrengen
❖ Misbruik van statistiek: bv gewoon rekenkundig gemiddelde kan omhoog getrokken door een kleine groep
met hoge cijfers. Dan krijg je geen realistisch beeld van het effectieve gemiddelde.
❖ Voorzichtige interpretatie: er zijn altijd alternatieve verklaringen die niet kunnen worden
gecontroleerd bij statistische analyses!
❖ Data: vb statistieken over inkomens, aantal lkr, temperatuur, … → lijsten van cijfers, enkelvoudige
brokken informatie
❖ Bewerkingen: berekeningen op deze data. (bv gemiddelde, spreiding, …)
❖ Wetenschap die data analyseert en interpreteert
Wanneer statistiek? Enkel bij onvoorspelbare elementen! Bv ook zonder statistiek weet je dat een val van de
Eifeltoren dodelijk kan zijn…
Statistiek = de wetenschap van het verzamelen, organiseren, presenteren, analyseren en interpreteren van
gegevens of data volgens een numerieke logica.
❖ Beschrijven: geeft een vereenvoudiging van een complexe realiteit, bv volkstelling
❖ Verklaren: je kan een statistisch model bouwen: een vereenvoudiging van de realiteit, waarin je
beschrijf hoe situaties in gemiddelde/probabilistische termen, werken. Maw: om een bepaald fenomeen
in de realiteit te verklaren.
o Bv: verband roken en longkanker… Opgelet! Verband ≠ oorzakelijk verband!
❖ Voorspellen: bv levensverwachting, temperatuur op aarde, … Opgelet! Dit zijn geen exacte of
definitieve voorspellingen, maar voorspellingen in termen van kansen.
4
, ❖ Data = informatie-eenheden die we bekomen hebben via observatie
o Observatie = meten in de breedste betekenis: observeren en daar info uithalen en opslaan
o Onderscheid open en gesloten observatie, naargelang het op voorhand weten van alle mogelijke
waarden:
▪ Open: Je kan niet alle antwoorden op voorhand inschatten op de vraag, bv hoe heb je
een cursus ervaren?
▪ Gesloten: aantal mogelijke uitkomsten is geweten, bv: beoordeel de cursus van 1 tot 10,
lengte in cm’s, … → op basis van gesloten observatie genereer je variabelen.
❖ Variabele = kenmerk van een eenheid uit de populatie dat op één of andere wijze kan gemeten worden
en varieert over de eenheden van de populatie heen. Elke variabele heeft een aantal mogelijke gekende
waarden. Dit noemen we het domein van de variabele. Dit domein kan op zich oneindig groot zijn.
o vbn: geslacht, kleur ogen, aantal scholen waarin men lesgeeft, …
o NIET: constante factoren: kunnen slechts 1 waarde aannemen, bv: onderwijsvorm van een groep
lln uit het BSO (wat de onderwijsvorm is constant is jouw onderzoek, nl BSO)
Soorten variabelen
❖ Categorische of kwalitatieve variabelen: eenheden worden ingedeeld in categorieën, je kan ook cijfers
gebruiken, bv: 1 = blond, maar dan heeft het cijfer geen betekenis.
o Ander vb: hoeveelheid lln met zorguren: 1=geen, 2=<10%, … want je kan hier even goed een
andere code gebruiken, zoals A, B en C. Het cijfer heeft geen numerieke betekenis
❖ Numerieke/parametrisch of kwantitatieve variabelen: getallen die een betekenis hebben, bv lengte,
leeftijd, …
Waarom meetniveau bepalen?
❖ Verkeerde inschatting van variabele/meetniveau kan leiden tot zinloze analyses en nietszeggende
resultaten, bv: berekenen van het gemiddelde van een postcode
Meten = het indelen van eenheden van een steekproef of populatie volgens één of meerdere kenmerken
❖ Vb: meten van het kenmerk ‘haarkleur’ → eenheden indelen volgens equivalente klassen: Blond (Vincent
en Jan), bruin (Peter), zwart (Wouter)
Indeling variabelen volgens meetniveau
→ Gebeurt aan de hand van volgende eigenschappen:
❖ Bestaan van een totale orde: er is een rangorde tussen de elementen
❖ Bestaan van een meeteenheid: Als gelijke verschillen in de waarden van de variabele, dezelfde
verschillen in intensiteit van het kenmerk voorstellen, bv: verschil tss 170 cm en 180 cm is even groot
als tussen 180 cm en 190 cm
❖ Het bestaan van een absoluut nulpunt: een waarde 0 geeft de afwezigheid weer vh kenmerk
o vb: 0 keer gepest = nooit gepest, er is geen pestgedrag, 0cm = geen lengte, …
5
, ❖ Kwalitatieve variabelen: (maak onderscheid op basis van ordening (ordinaal) of geen ordening (nominaal)
o Nominale: eenheden onderscheiden enkel op basis van een naam, laagste niveau, er is geen
ordening.
▪ vb: haarkleur, geslacht, nationaliteit, partijvoorkeur, onderwijsvorm, …
o Ordinale: er is een ordening aanwezig (1e eigenschap), er zijn ranggetallen, classificaties, …
▪ vb: geef een score van 1 tot 10 hoe erg je … vindt, beoordeling adhv sterren, … → de
cijfers hebben hier geen betekenis, het gaat om het idee ‘X is beter dan Y’, je kan bv
ipv 1, 2 en 3 sterren, ook 501, 502 en 503 sterren schrijven… Het gaat niet om het
aantal/cijfer, wel om de rangorde.
❖ Kwantitatieve variabelen: (maak onderscheid op basis van geen (interval) of wel nulpunt (ratio)
o Interval: er is ordening + meeteenheid, maar GEEN absoluut nulpunt
▪ vb: temperatuur,
o Ratio: alle eigenschappen zijn aanwezig, dus ook een absoluut nulpunt
▪ vb: aantallen (keren dat iemand X of Y gedaan heeft)
→ OPGELET! Vanaf intervalniveau wordt ook het onderscheid gemaakt tussen:
▪ continue variabelen: je kan voor de gemeten variabele, tussen twee meetpunten
(waarden) en andere waarde vinden
• vb: tussen 175 en 170, ligt 171.
▪ discrete variabelen: er is niet altijd een derde waarde tussen 2 observaties
• vb: aantal kinderen in een gezin, aantal opleidingen gevolgd per jaar, …
Samengevat:
Meetniveau Nominaal Ordinaal Interval Ratio
Totale orde - + + +
Meeteenheid - - + +
Nulpunt - - - +
6