Statistiek John Lievens 2017-2018
UGent
SAMENVATTING STATISTIEK
JOHN LIEVENS
2017-2018
INHOUD
1. Univariate beschrijvende statistiek .................................................................................................. 4
Basisconcepten .................................................................................................................................... 4
Meetniveaus van variabelen ................................................................................................................ 5
Doelstellingen beschrijvende statistiek voor 1 variabele ..................................................................... 6
Frequentieverdelingen ........................................................................................................................ 6
Tabellen ............................................................................................................................................... 7
Grafieken ............................................................................................................................................. 8
Verdelingen samenvatten voor beschrijving en vergelijking................................................................ 9
Maten van positie .............................................................................................................................. 10
Rekenkundig gemiddelde (x̄).......................................................................................................... 10
Mediaan (M) .................................................................................................................................. 10
Modus (M0) .................................................................................................................................... 11
Kwartielen ...................................................................................................................................... 11
Percentielen (fractielen): ............................................................................................................... 11
Maten van spreiding .......................................................................................................................... 11
Interkwartielafstand (IKA = Q)........................................................................................................ 11
Variantie & Standaardafwijking ..................................................................................................... 13
overzicht meetniveau & best passende maat van centraliteit & spreiding.................................... 13
Dichtheidskrommen .......................................................................................................................... 14
Vorm van de verdeling ................................................................................................................... 15
Transformaties van variabelen....................................................................................................... 16
68 – 95 – 99,7-regel ....................................................................................................................... 16
Rekenen in de standaardnormaalverdeling: standaardiseren van waarnemingen ........................ 17
2. Bivariate beschrijvende statistiek .................................................................................................. 19
Doelstellingen .................................................................................................................................... 19
1
,Statistiek John Lievens 2017-2018
UGent
Types bivariate relaties ...................................................................................................................... 19
Kruistabel en conditionele verdelingen ............................................................................................. 20
Percentageverschil............................................................................................................................. 20
Oddsratio ........................................................................................................................................... 20
Op chi-kwadraat gebaseerde associatiematen .................................................................................. 21
Maten voor de associatie tussen nominale variabelen ...................................................................... 22
Maten voor de associatie tussen ordinale variabelen ........................................................................ 23
Correlatie- en regressieanalyse.......................................................................................................... 24
Spreidingsdiagram (scatterplot)..................................................................................................... 24
Correlatieanalyse: Covariantie ....................................................................................................... 27
Correlatieanalyse: Correlatiecoëfficiënt r ...................................................................................... 28
De gestandaardiseerde b: B ........................................................................................................... 29
De gestandaardiseerde regressievergelijking ................................................................................ 30
De determinatiecoëfficiënt r² ........................................................................................................ 30
Residuen-analyse ........................................................................................................................... 31
Opstap naar multivariate analyse (MVA) ....................................................................................... 35
Het multivariate model met 2 onafhankelijke variabelen .............................................................. 36
Het concept van gedeelde variantie .............................................................................................. 36
volledige -, residuele- en verklaarde variantie ............................................................................... 37
FAQ Beschrijvende statistiek.......................................................................................................... 37
3. Inductieve statistiek ....................................................................................................................... 44
Kansrekenen ...................................................................................................................................... 44
De systematiek van het toeval: Basisprincipes van kansrekenen................................................... 44
Voorbeeld dobbelsteen ................................................................................................................. 44
Kansvariabelen ............................................................................................................................... 45
Steekproevenverdeling ...................................................................................................................... 46
3 soorten verdelingen (!!) .............................................................................................................. 47
Steekproevenverdeling voor proporties (= percentage) .................................................................... 47
Steekproevenverdeling voor gemiddelden ........................................................................................ 48
Centrale limietstelling (CLS) ........................................................................................................... 48
Basistools van inductieve statistiek.................................................................................................... 49
Statistische betrouwbaarheid: Betrouwbaarheidsintervallen = intervalschatting ............................. 49
Het gedrag van BI’s (!!!) ................................................................................................................. 50
2
,Statistiek John Lievens 2017-2018
UGent
De steekproefomvang bepalen indien gewenst niveau van statistische betrouwbaarheid gegeven
is (ZEKER EEN EXAMENVRAAG) ...................................................................................................... 51
Significantietoetsen (ST) = puntschatting .......................................................................................... 51
Inferentie voor één verwachting ....................................................................................................... 54
t-verdeling...................................................................................................................................... 54
t-procedure voor EAS..................................................................................................................... 55
Inferentie voor een verschil tussen twee verwachtingen .................................................................. 55
z-procedure ................................................................................................................................... 56
t-procedure .................................................................................................................................... 56
Inferentie voor één proportie (fractie) .............................................................................................. 57
Betrouwbaarheidsinterval voor één proportie .............................................................................. 57
Significantietoets voor één proportie ............................................................................................ 57
Inferentie voor een verschil tussen twee proporties ......................................................................... 58
Betrouwbaarheidsinterval voor 2 proporties................................................................................. 58
Significantietoets voor 2 proporties............................................................................................... 58
Inferentie voor kruistabellen: chi² ..................................................................................................... 59
3
,Statistiek John Lievens 2017-2018
UGent
1. UNIVARIATE BESCHRIJVENDE STATISTIEK
BASISCONCEPTEN
BEVOLKINGSGEGEVENS
= Informatie over de gehele onderzoekspopulatie = beschrijvende statistiek
Soort gegevens dat we gebruiken om wereld te beschrijven/verklaren/…
Bv: verkiezingen (want verplicht)
Percentages bekijken
Weinig twijfels als gegevens valide en betrouwbaar zijn beschrijvende statistiek volstaat
GEGEVENS AFKOMSTIG UIT STEEKPROEF
= Selectie van eenheden uit onze onderzoekspopulatie = steekproef = inductieve statistiek
Steekproef = deelverzameling van n eenheden uit populatie
Bijkomende twijfel of steekproef goede afspiegeling vormt van volledige populatie; uitkomsten
kunnen verschillen naargelang steekproef
Inductieve statistiek = o.b.v. informatie uit steekproef uitspraken doen over populatie
Leren hoe we gegevens van steekproef kunnen veralgemenen naar volledige populatie
STEEKPROEFGROOTHEID
Cijfer dat we afleiden uit een steekproef (bv. gemiddelde, standaardafwijking, modus,…)
De steekproefgrootheid op zich is minder belangrijk, wat ons interesseert is wat we kunnen
veralgemenen naar de bevolking -> inductieve statistiek
Populatieparameter wordt ingeschat a.d.h.v. de steekproefgrootheid (inschatten van de grootte
van de fout)
KWALITEIT VAN DE STEEKPROEF
Voorbeelden van een niet-kwalitatieve en niet-representatieve steekproef:
o Selecte steekproef
o Mensen die zichzelf selecteren om deel te nemen, bv. omdat ze kans maken op cadeautje
o Bij deze voorbeelden kan je enkel uitspraken doen over die geselecteerde mensen
o Deze voorbeelden kan je niet veralgemenen naar de gehele populatie en geven dus
vertekende cijfers en zijn geen goede weerspiegeling voor de diversiteit van de bevolking
Goede weerspiegeling v populatie door ENKELVOUDIGE ASELECTE STEEKPROEFTREKKING (EAS)
= toevalssteekproef die aselect is
Toevallige selectie uit bevolking
(in praktijk: aanvraag indienen bij privacycommissie, toevalsselectie van bv. 5000 mensen en die
mensen zullen steekproef uitvoeren)
Enkelvoudig = in 1 stap = je hebt lijst van bevolking en daar ga je in 1 stap mensen uit selecteren
(Meestal werken we met tweevoudige steekproef omwille van praktische redenen (als men te
wijdverspreid is: Vlaanderen – Wallonië, moeilijk om binnen bepaald tijdsbestek iedereen te
interviewen bijvoorbeeld, die mensen zouden ver moeten rijden) -> bv. eerst toevalssteekproef
van gemeentes, daarna toevalssteekproef van de bevolking binnen die gemeentes)
4
,Statistiek John Lievens 2017-2018
UGent
TERM UITLEG
Elementen - Synoniemen: onderzoekselementen, eenheden, statistische eenheden,
cases
- Onderdelen van de realiteit waarop het onderzoek betrekking heeft
- Bv. de mens waaraan metingen / waarnemingen bij het onderzoek
wordt verricht
- Bv. Bij enquête is de statistische eenheid een persoon
- Eenduidige definitie hiervan is noodzakelijk
- Bv. individuen, gebeurtenissen, collectiviteiten, …
Populatie - Synoniem: onderzoekspopulatie
- Verzameling van de onderzoekselementen
- Eenduidige definitie is noodzakelijk
- Vaak gebonden aan tijd en ruimte
Analyse-eenheid - Eenheid waarop de analyse gebeurt
- Bv. onderzoek op kranten
Kenmerk - Eigenschap van elementen
Variabele - Varieert over eenheden
Uitkomstenverzameling - Verzameling van alle mogelijke uitkomsten van een variabele
Meten - Volgens een bepaalde meetprocedure vaststellen wat de waarde van
een kenmerk van een element is
Nauwkeurigheid - Exactheid
Betrouwbaarheid - Consistentie bij herhaalde waarneming
Validiteit - Mate van overeenkomst tussen indicator en (theoretisch) concept
- Afwezigheid van systematische fouten
Waarde - Resultaat van meten
MEETNIVEAUS VAN VARIABELEN
KWALITATIEVE / CATEGORISCHE VARIABELEN
NOMINALE Exhaustieve & exclusieve classificatie
VARIABELEN Waarden die je van elkaar kan onderscheiden, maar niet kan ordenen,
de één is niet meer dan de ander
Bv: geslacht, tv-zender, haarkleur, werelddeel, …
Weinig informatie
ORDINALE VARIABELEN Ordening: meer/minder
Het verschil tussen die geordende variabelen heeft geen belang
Bv: opleiding, opinievraag, kwaliteitsoordeel, medaille, …
Iets meer informatie
KWANTITATIEVE / METRISCHE VARIABELEN
INTERVALVARIABELEN Gelijke afstanden (hoeveel meer/minder?)
Het verschil in de orde is van belang & heeft betekenis
Bv: temperatuur, geboortejaar, …
Nog meer informatie
RATIOVARIABELEN Boven het nulpunt: je kan niet onder het absoluut nulpunt “0”
Bv: leeftijd, tijdsverschil, budget, …
De meeste informatie
5
,Statistiek John Lievens 2017-2018
UGent
Volgens hoeveelheid informatie geordend: . nominaal < ordinaal < interval < ratio .
Meetniveau afhankelijk van meetprocedure / transformatie tussen meting & analyse
Andere mogelijke classificatie bij metrische variabelen:
Voor elke 2 mogelijke uitkomsten, mogelijk om 3e te bedenken die ertussen ligt;
CONTINUE oneindige uitkomstenverzameling
VARIABELEN Reële getallen
Bv: tijd, exacte leeftijd, inkomen, …
Eindige uitkomstenverzameling
DISCRETE
Natuurlijke getallen
VARIABELEN
Leeftijd in verstreken jaren, aantal kinderen, museumbezoek, …
DOELSTELLINGEN BESCHRIJVENDE STATISTIEK VOOR 1 VARIABELE
Univariate statistiek: gegevens van 1 variabele op overzichtelijke en synthetische wijze weergeven:
verdelingen beschrijven a.d.h.v.:
o Frequentietabellen
o Grafieken
o Maten van positie
o Maten van spreiding
Wat kan, is afhankelijk van het meetniveau + regel: wat kan op lager meetniveau kan ook op hoger
meetniveau, maar niet omgekeerd
FREQUENTIEVERDELINGEN
𝑚
Frequentie = hoeveel mensen (elementen) een
bepaalde waarde hebben 𝑛 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑚 = ∑ 𝑓ⅈ
n = statistische eenheid (bv. aantal personen) 𝑖=1
ABSOLUTE FREQUENTIE (F I )
= aantal elementen met een bepaalde waarde
i = waarde, met m waarden 𝑓𝑖 = 𝑝𝑖 × 𝑛
RELATIEVE FREQUENTIE (P I )
= aantal elementen met een bepaalde waarde gedeeld door het totaal aantal
𝑓ⅈ
elementen 𝑝𝑖 =
= fractie = proportie = percentage, uitgedrukt in kommagetal 𝑛
CUMULATIEVE FREQUENTIE (CUM F I )
= aantal of proportie eenheden met waarde i of lager
Bv: hoe veel mensen hebben een bepaalde frequentie of lager?
Enkel vanaf ordinaal meetniveau
6
,Statistiek John Lievens 2017-2018
UGent
TABELLEN
DATAMATRIX
In een datamatrix staan de gegevens een voor een in een tabel voorgesteld. De eenheden staan
meestal in de rijen en de variabelen in de kolommen.
Het kan handig zijn om uit een datamatrix een frequentietabel op te halen, om te zien hoe vaak
bepaalde waarnemingen voorkomen. Dat geeft een mooi overzicht.
VB. DATAMATRIX VB. FREQUENTIETABEL
PERSOON WAARNEMING WAARNEMING FREQUENTIE
1 2 2 3
2 5 3 2
3 3 5 5
4 3
5 5
6 2
7 2
8 5
9 5
10 5
FREQUENTIETABEL
In een frequentietabel kan je aflezen hoe vaak een bepaalde waarneming werd waargenomen.
Bij metrische variabelen met veel gegevens gebruiken we best geen frequentietabel, want dat zou
te veel verschillende waarden geven om overzichtelijk weer te geven klassenindeling
FREQUENTIETABEL MET KLASSENINDELING
VB = Variatiebreedte
= Grootste getal uit de totale gegevens min het kleinste getal uit de totale gegevens
= max-min
KB = Klassenbreedte
= Breedte van 1 klasse
KM = Klassenmidden
= Grootste getal van de klasse min het kleinste getal van de klasse (max-min) gedeeld door 2
Frequentietabel met klassenindeling maken vanuit datamatrix:
1) VB + 1
2) Bepaal het aantal gewenste klassen (wordt gegeven)
3) Bepaal de breedte van 1 klasse = (VB + 1) / aantal klassen
Nadeel: je mist informatie, dus moet deze klassenindeling goed bepaald worden
Afhankelijk van welke klasse-indeling kan je een andere verdeling verkrijgen
De klassen moeten exclusief zijn: ze mogen niet overlappen
De klassen moeten exhaustief zijn: alle waarden moeten opgenomen worden
7
,Statistiek John Lievens 2017-2018
UGent
FORMELE VOORSCHRIFTEN VOOR TABELLEN:
Waarden/klassen exhaustief en exclusief
Titel: kort en bondig inhoud aangeven
Kolomkoppen, met exacte aanduiding inhoud
Logische ordening
Totalen
bronvermelding
GRAFIEKEN
TAARTDIAGRAM
Definities:
i = hoek voor waarde i
i = pi x 360°
Voordeel: Maakt verdeling direct visueel duidelijk
Nadeel: Aantal waarden is beperkt
STAAFDIAGRAM
Definities:
L = lengte van nulpunt tot maximum in grafiek
Li = lengte van staaf voor waarde i
Li = pi x L
Losse staafjes
Voordeel:
o Meer waarden opnemen (verticale oriëntatie)
o Mogelijkheid om verdeling op te splitsen naar waarden op tweede variabele (bivariaat)
Andere soort: staafdiagram bivariaat
HISTOGRAM
Definities:
Enkel voor metrische variabelen, in klassen gegroepeerd
Staafjes plakken tegen elkaar
Oppervlakte staafjei = fi (of pi)
Totale oppervlakte = n (of 1)
Ii = klassenbreedte klasse i
hi = fi / Ii frequentiedichtheid
Voordeel: Verdeling van metrische variabele visueel duidelijk
Nadeel: Verdeling afhankelijk van klassenindeling
8
, Statistiek John Lievens 2017-2018
UGent
STAMDIAGRAM (STAM-EN-BLAD DIAGRAM) (NIET ZO BELANGRIJK)
Definities:
Opsplitsen elke waarde in:
o Blad: laatste cijfer
o Stam: eerste deel van getal
Stammen onder elkaar weergeven
Bladeren achter respectievelijke stam plaatsen
Frequentie aanduiden van stammen
Indien veel bladeren: opsplitsen [0,4] en [5,9]
Voordeel: Geen klassenindeling nodig (wel eventueel afronden tot dichtstbijzijnde integer)
Nadeel: Stammen hebben geen inhoudelijke betekenis
FORMELE VOORSCHRIFTEN VOOR GRAFIEKEN
Titel: kort en bondig inhoud aangeven
Titels op assen
Teleenheden
Nulpunt
Legende
Bronvermelding
Opletten met verwarrende lay-out (bvb. 3D)
VERDELINGEN SAMENVATTEN VOOR BESCHRIJVING EN VERGELIJKING
We willen 3 dingen kunnen samenvatten:
Positie (centraliteit, ligging)
Spreiding (variatie)
Vorm (symmetrie, scheefheid)
POSITIE VAN EEN VERDELING
Waar is de verdeling gepositioneerd?
Bv. links-rechtsschaal van politieke overtuiging van mensen, politiek links-rechtsspectrum
SPREIDING VAN EEN VERDELING
Sterke concentratie van de waarden van de variabelen of eerder verspreid?
VORM VAN EEN VERDELING
Symmetrisch of asymmetrisch?
9