STATISTIEK SAMENVATTING: THEUNIS
Statistiek is de wetenschap van kennisverwerving op basis van gegevens. Gegevens zijn numerieke feiten. Feiten vormen een betere basis voor
besluitvorming dan eenvoudigweg raden.
Als het doel van een onderzoek onbekend is hebben de uitkomsten weinig betekenis. Dat wil zeggen, gegevens zijn getallen binnen een
bepaalde context.
DEDUCTIEVE OF BESCHRIJVENDE STATISTIEK: INDUCTIEVE OF INFERENTIËLE STATISTIEK:
Fenomenen beschrijven Op basis van steekproefgegevens met bepaalde zekerheid uitspraken
Berekening en interpretatie van samenvattende statistische maten, kunnen doen over populaties
zoals indexcijfer, gemiddelde, etc.
Verklarende statistiek, maakt gebruik van kansrekening
Maakt gebruik van het geheel van gelijksoortige objecten of data, Maakt gebruik van de steekproef. Op basis van een beperkt aantal
ofwel van de populatie. Deze data worden samengevat in een gegevens wordt getracht om algemene uitspraken te formuleren over
beknopte weergave, teneinde globale patronen en kenmerken te de gehele populatie.
ontdekken.
Inductieve technieken: Veralgemening van steekproef naar populatie
Technieken van beschrijvende Statistiek
Ordeningstechnieken Schatten: Op basis van steekproefdata parameters
Tabellen (karakteristieke maten van populatie) schatten
grafische voorstellingen
frequentieverdeling Toetsen
Reductietechnieken: karakteristieke maten (centrale Op basis van steekproefdata expliciete hypothesen over populatie
tendens, spreiding, …) aanvaarden of verwerpen
Associatietechnieken: associatiematen
ELEMENTEN/VARIABEL BEGRIP
Een variabele = een indicator voor variabel begrip
Bij een variabel begrip kunnen meerdere variabelen horen
VOORBEELD
variabel begrip “INTELLIGENTIE”
variabelen: schoolse kennis , taalvaardigheid, geheugen, sociaal inzicht, leervermogen, ruimtelijk inzicht, rekenvaardigheid, enz.
VAN VARIABEL BEGRIP TOT VARIABELE
METEN = vaststellen van de waarde van MEETINSTRUMENT: vragen, MEETBAAR maken van VARIABELE =
een variabel begrip (“construct”) in een observaties, metingen, … variabel begrip = geoperationaliseerd variabel
bepaalde analyse-eenheid operationaliseren begrip
Eigenschap = “variabel begrip”
Eigenschappen kunnen verschillende waarden hebben in verschillende systemen
Voorbeelden
“Jan is intelligenter dan Tom”
“Sabine is een meisje, Tom een jongen”
“Laila heeft 12 vragen correct beantwoord, Kaat 14”
“De reactietijd van Ina bedroeg is 215 ms, die van Sander 211ms”
De waarden die een variabel begrip kan aannemen zijn niet noodzakelijk getallen
Meten is gebaseerd op 4 eigenschappen
Identiteit (= en ≠) of Categoriseerbaarheid
Ordenbaarheid
Afstanden
Absoluut nulpunt
KWALITATIEVE EN KWANTITATIEVE VARIABELEN
Een kwalitatieve variabele Een kwantitatieve variabele neemt numerieke waarden De verdeling van een variabele vertelt ons
plaatst een element in één of aan, waarvoor rekenkundige bewerkingen, zoals aftrekken welke waarden aangenomen worden en hoe
meer groepen of categorieën. en het bepalen van het gemiddelde, zinvol zijn. vaak deze waarden aangenomen worden.
1
,PARTITIE => ORDERELATIE VASTE MEETEENHEID ABSOLUUT NULPUNT
CATEGORISEERBAARHEID
Een partie wordt bepaald door een Een (totale) orderelatie op (de Over de ganse lengte van Een absoluut nulpunt wordt
equivalentierelatie op een equivalentieklassen van) een de meetschaal heeft een bereikt wanneer de te meten
verzameling X, dit is een relatie ~ op verzameling Y is een relatie ≤ op Y zelfde verschil in eigenschap totaal afwezig is
X met als eigenschappen met als eigenschappen… meetwaarden “dezelfde
betekenis” Voorbeelden van absolute
• Reflexiviteit: voor alle x • Reflexiviteit: voor alle x nulpunten:
elementen van X geldt dat x ~ x, elementen van Y geldt dat x ≤ x, • Bij 0° Kelvin is er geen trilling van
• Symmetrie: voor alle x, y • Anti-symmetrie: voor alle x, y atomen, de eigenschap “warmte”
elementen van X geldt: als x ~ y dan elementen van Y geldt: als x ≤ y dan is dan afwezig.
y ~ x, NIET(y ≤ x), • Een voorwerp dat 0cm hoog is,
• Transitiviteit: voor alle x, y, z • Transitiviteit: voor alle x, y, z heeft geen hoogte,
elementen van X geldt: als x ~ y en y elementen van Y geldt: als x ≤ y en • Een leeg glas … (op voorwaarde
~ z dan x ~ z. y ≤ z dan x ≤ z. dat er ECHT niks in is)
Deze relatie verdeelt de • (Totaal) als NIET (x ≤ y), dan moet •…
verzameling X in (y ≤ x)
“equivalentieklassen” GEEN absolute nulpunten:
• Bij 0° C zijn atomen in beweging
en is er warmte
• Een 0/20 op een examen
betekent nog niet dat je “niets”
kent
Meten = waarden toekennen op basis van regels
MEETNIVEAUS: KWALITATIEF OF KWANTITATIEF
We onderscheiden 2 grote meetniveaus:
Kwalitatieve en kwantitatieve metingen. • Partiële orde
Kwalitatieve zijn de meest voorkomende • Reflexief
1. Nominale schaal (categorisch) • Anti-symmetrisch
– Categorieën (wederzijds uitsluitende deelklassen) • Transitief
• Partitie (equivalentie binnen de categorieën) • Totale orde
• Reflexief, symmetrisch, transitief • Reflexief
– Gelijk <> Verschillend (,≠) • Anti-symmetrisch
2. Ordinale schaal (kwantificeerbaar) • Transitief
– Geordende categorieën • Totaal
• Reflexief, anti-symmetrisch, transitief, totaal • Zwakk e orde
– Moeilijker dan/Hoger dan/Verkozen voor/Ernstiger dan … (>, ≥, , …) • Transitief
3. Intervalschaal (kwantitatief) • Totaal
– Afstand tussen opeenvolgende categorieën gelijk • Eenvoudige orde
• Constante meeteenheid • Anti-symmetrisch
• Arbitrair nulpunt • Transitief
4. Ratioschaal • Totaal
– Absoluut nulpunt
5. Absolute schaal
– Vaste meeteenheid (tellen)
2
, KWALITATIEVE
KWANTITATIEVE
Partiële orde Partiële orde
Intervalschaal Ratioschaal Absolute schaal Nominale of categorische schaal Ordinale schaal
Een intervalschaal wordt Indien een meetschaal alle eigenschappen van een Indien een meetschaal alle Dit is het laagste meetniveau, getallen of Geordende categorieën: Hoger,
gekenmerkt door een intervalschaal vertoont en bovendien een absoluut eigenschappen van een symbolen worden gebruikt om objecten, kleiner, moeilijker, ernstig
gezamenlijke en constante nulpunt heeft spreekt men van een ratioschaal. Voor ratioschaal vertoont en personen of kenmerken eenvoudig te gestoord, rijper enz..
meeteenheid die een getal ratioschalen geldt dat de verhouding tussen 2 bovendien een vaste eenheid classificeren en/of aan te duiden. Kwantificeerbaar
verbindt aan elk aar objecten schaalpunten onafhankelijk is van de meeteenheid. omvat, dan is het een absolute Typerende eigenschap Typerende eigenschap
uit de waargenomen Vb: massa of gewicht, lengte, afstanden. schaal. Het onderscheid gelijk/verschillend Geordende categorieën
verzameling. Typerende eigenschap Typerende eigenschap “een nominale schaal is uniek tot op een Toegelaten bewerkingen
Bv: de verhouding tussen Er is een absoluut nulpunt (afwezigheid van de De meeteenheid staat a priori een-tot-een transformatie na” Aangezien een transformatie die
temperatuurverschillen gemeten eigenschap) vast In een steekproef kan men het aantal “1”-en, de ordening respecteert de
Typerende eigenschap: De aard van de schaal is isomorf met de structuur van Opmerking “2”-en optellen (frequenties), de informatie vervat in een ordinale
Afstand tussen 2 de rekenkunde. Dus rekenkundige operaties zijn direct Absolute schalen worden in de percentages bepalen (relatieve frequenties), schaal niet wijzigt zet men dat
opeenvolgende categorieën op toelaatbaar. praktijk niet anders behandeld we kunnen bepalen welke categorie de een ordinale schaal enig is op
de schaal zijn allen gelijk. Ratioschalen ontmoet men vooral in de “exacte” dan ratioschalen hoogste frequentie heeft een monotone transformatie na.
Een intervalschaal is enig op wetenschappen en uisluitend indien volgende 4 (de modus). Een monotone transformatie is
een lineaire transformatie na. relaties geoperationaliseerd kunnen worden: Optellen, bv.1 is meer dan 3, of 1 vervangen precies een transformatie die de
Het nulpunt v/e intervalschaal 1. equivalentie door 3, mag niet! ordening van objecten bewaart.
is arbitrair 2. groter dan Vb: vb. Mannelijk = 1 / Vrouwelijk = 0
3. gekende verhouding tss 2 willekeurige intervallen (dichotoom), Provincies, Nummerplaten,
4. gekende verhouding tss elke 2 schaalwaarden Rugnummers, Diagnostische categorieën
Enkel de meeteenheid is arbitrair.
NOMINALE SCHAAL ORDINALE SCHAAL INTERVALSCHAAL RATIOSCHAAL
Identiteit: Analyse-eenheden indelen in Identiteit Identiteit Identiteit
categorieën Orde (≥) Orde Orde
Analyse-eenheden ordenen volgens variabel Vaste meeteenheid Vaste meeteenheid
vb. Mannelijk = 1 / Vrouwelijk = begrip Afstand tussen waarnemingen heeft vaste betekenis Absoluut (natuurlijk) nulpunt
0(dichotoom), vb. Geslaagd / Niet geslaagd, Graden (leger), Verhouding tussen 2 meetwaarden is onafhankelijk
Provincies, Nummerplaten, Motivatie, Ernst van stoornis Verhouding tussen 2 intervallen is onafhankelijk van de van de meeteenheid
Rugnummers, Diagnostische categorieën meeteenheid en het nulpunt
Geordende categorieën (Meetwaarde = vb. Tijdrekening, temperatuur (in ° Celsius of Fahrenheit) vb. Waarnemingsdrempel, Lichaamslengte, afstand,
Voorwaarde: categorieën: “rang”) gewicht, leeftijd, Aantallen
• exhaustief (volledig) Vorige week was het elke dag 2°C warmer dan de dag
• disjunct (sluiten mekaar uit) ervoor (temperatuursstijging was elke dag evengroot) Meetniveau bepaalt toegelaten bewerkingen
Meetniveau bepaalt toegelaten bewerkingen (Grootte van intervallen vergelijken Jan heeft de puzzel gelegd in de helft van de tijd die
Meetniveau bepaalt toegelaten De helft van de studenten is kleiner dan Jan hij gisteren nodig had (Verhouding tussen
bewerkingen Er zijn meer meisjes dan (Analyse eenheden ordenen volgens variabele) Meetniveau bepaalt toegelaten bewerkingen meetwaarden bepalen)
jongens (Tellen) Vorige week was het elke dag 2°C warmer dan de dag
ervoor (temperatuursstijging was elke dag evengroot)
(Grootte van intervallen vergelijken)
3
,OPTIMALE MEETPROCEDURE EN OPTIMALE CODERING
Optimale meetprocedure en codering streeft naar het hoogst mogelijke meetniveau. Dit wordt bepaald door het variabel begrip.
VOORBEELDEN:
Geslacht => Nominaal
Lichaamslengte => Ratio De gebruikte regel bij het meten is bepalend voor het meetniveau
(Onze) Tijdrekening => Interval (classificeren, ordenen of met vaste meeteenheid)
Helemaal Niet Akkoord /Helemaal Akkoord enz = Ordinaal
BESLUIT OVER MEETSCHALEN
Meetniveau van een meetschaal bepaalt welke bewerkingen mogelijk zijn met meetwaarden. Variabele met een hoog meetniveau KAN behandeld worden als een variabele met een lager meetniveau, MAAR
daarbij gaat informatie verloren. Daarom kan altijd best een zo hoog mogelijk meetniveau worden nagestreefd (optimale meetprocedure).
HOOFDSTUK 1: KIJKEN NAAR DATA: VERDELINGEN
WEERGEVEN VAN VERDELINGEN MET GRAFIEKEN
GRAFIEKEN VOOR KWALITATIEVE VARIABELEN (CATEGORISCHE VARIABELEN) GRAFIEKEN VOOR KWANTITATIEVE VARIABELEN
Staafdiagram Histogram
Kolomdiagram Stam(blad)diagram
Taartdiagram tijdgrafieken
Pictogram
1.1 WEERGEVEN VAN VERDELINGEN MET GRAFIEKEN
DATA VERKENNEN
De eerste stap die je moet zetten als je met data te maken krijgt is die data te “verkennen”
Een exploratorische data-analyse is het proces waarbij statistische technieken en hulpmiddelen worden gebruikt om data te onderzoeken en de kenmerken ervan na te gaan.
DATA EXPLOREREN
1. Begin met elke variabele apart te onderzoeken: centrale tendens/”midden”, spreiding, uitschieters, …
2. Pas daarna wordt gekeken naar verbanden tussen variabelen.
3. Begin met één of meerdere grafieken, daarna komen karakteristieke maten en cijfermatige beschrijvingen aan bod.
VARIABELEN
In een dataset staan voor de onderzochte cases (deelnemers, analyse-eenheden) telkens meetwaarden voor een of meerdere variabelen (kenmerken, eigenschappen, prestaties, ….).
CASE VARIABELE CATEGORISCHE VARIABELE KWANTITATIEVE VARIABELE
= Individu of Groep Individuen of Object deze is beschreven = Geoperationaliseerd kenmerk van het Deelt individu in een bepaalde Neemt numerische waarden aan waarop wiskundige
a.d.h.v. data (= meetwaarden van variabelen) individu categorie in operaties zinvol mogelijk zijn.
4
,GRAFISCHE VOORSTELLING VAN EEN VERDELING
De verdeling van een variabele geeft weer WELKE WAARDEN die variabele aanneemt en HOE VAAK die waarden voorkomen.
Verdelingen kunnen op vele manieren voorgesteld worden, de keuze moet worden bepaald in functie van de aard van de variabele en de
“leesbaarheid”
CATEGORISCHE/ KWALITATIEVE VARIABELE KWANTITATIEVE VARIABELE
(Bij de verdeling van een kwalitatieve variabele worden de categorieën gerangschikt in Histogram
een lijst en wordt het aantal of het percentage elementen weergegeven die in elk (Gebruik histogrammen met percentages (
categorie vallen. ) relatieve frequenties) voor de vergelijking van
Kolomdiagram (Histogram) verscheidene verdelingen met verschillende
Staafdiagram aantallen waarnemingen.)
(Laat op een snelle manier de omvang zien en kan je vergelijkingen doen. Deze laten Staafdiagram
zich eenvoudiger lezen en hebben ook meer mogelijkheden) Frekwentieveelhoek
Strookdiagram Cumulatief histogram
Taartdiagram
(Bij deze is het noodzakelijk dat u alle categorieën, die samen het geheel vormen,
opneemt. Gebruik taartdiagrammen alleen als u de verhouding van elke categorie tot
het geheel wilt benadrukken. Met taartdiagrammen kan men geen vergelijkingen
maken)
Lijndiagram
Pictogram
VERGELIJKING TUSSEN STAAFJESDIAGRAM EN HISTOGRAM
Een histogram toont de verdeling van de frequenties of relatieve frequenties van de waarden van een enkele variabele en een staafdiagram
vergelijkt de omvang van de verschillende categorieën. De horizontale as van een staafdiagram hoeft geen maatschaal te hebben, want hierbij
worden alleen de categorieën onderscheiden die worden vergeleken.
HET ONDERZOEKEN VAN EEN VERDELING
Kijk in een diagram of grafiek naar het globale patroon en naar opvallende afwijkingen van dat patroon. Je kunt het globale patroon van een
verdeling beschrijven door middel van zijn vorm, centrum en spreiding. Een belangrijk type afwijking is een uitschieter, een individuele waarde
die buiten het globale patroon valt.
Een aantal punten waarop gelet moet worden bij het beschrijven van de vorm zijn:
1. Heeft de verdeling één top of verschillende toppen? Een verdeling met één top wordt unimodaal genoemd.
2. Is zij bij benadering symmetrisch of is zij naar één kant scheef? Een verdeling is symmetrisch als de waarden die lager of hoger zijn dan het
centrum elkaars spiegelbeeld zijn. Zij is scheef naar rechts als de rechterstaart (hogere waarden) veel langer is dan de linkerstaart (lagere
waarden)
GRAFISCHE VOORSTELLINGEN VAN CATEGORISCHE VARIABELEN
Een staafdiagram is een kolomdiagram waarvan de kolommen versmald worden tot lijnen
In een histogram zijn spaties tussen de balken een aanduiding vanj discrete variabelen
5
,BESLUIT OVER GRAFISCHE VOORSTELLINGEN VOOR KWALITATIEVE DATA
“MOOI” is niet hetzelfde als “duidelijk” of “informatief”
Sommige (mooie) grafische voorstellingen zijn ronduit misleidend en moeten daarom zeer goed toegelicht worden OF beter niet gebruikt
Kolomdiagrammen en strookdiagrammen zijn vaak de beste keuze
3D voorstellingen zijn “mooi” maar moeilijk exact af te lezen (door positionering tov de achtergrond)
Pictogrammen beter vermijden vanwege verwarring over “grootte” (“hoogte” of “oppervlakte”?)
GRAFISCHE VOORSTELLINGEN VAN KWANTITATIEVE VARIABELEN
Gebaseerd op gewone of cumulatieve frequentietabel
Grafische voorstelling van CONTINUE kwantitatieve data Intelligentieniveau als continue variabele niet in klassen ingedeeld …
Meetwaarden groeperen in klassen Elk individu heeft een “ander” intelligentieniveau, wellicht
Per klasse tellen hoeveel analyse-eenheden meetwaarden onmeetbaar, dat “geschat” wordt met een test …
binnen die klasse vertonen =(klasse)frekwentie f
Frequentieverdeling
Meetwaarden groeperen in klassen (categorieën):
Meerdere meetwaarden vormen samen 1 klasse
Eisen gesteld aan klassenindeling
Exhaustief : elke meetwaarde behoort tot een klasse
Disjunct : klassen overlappen niet
Homogene klasse Heterogene klasse
Met behoud van het meetniveau Met verlaging van het meetniveau
Klassen bij meetwaarden van interval- of rationiveau (continu variabel begrip)
Exacte klassegrenzen geven interval van waarden van variabel begrip die door dezelfde meetwaarde worden voorgesteld.
6
,INDELING FREQUENTIEVERDELINGEN
GRAFISCHE VOORSTELLING VAN FREQUENTIEVERDELING
Nominale data (histogram)
klassen in willekeurige volgorde
beginpunt heeft geen belang
alle kolommen/staven even breed, spatie naar keuze
Ordinale data (idem + frequentiepolygoon, cumulatieve histogram)
klassen in stijgende volgorde
Interval en Ratio data (idem + cumulatieve frequentiecurve, ogief)
klassen in stijgende volgorde
Spatie tussen kolommen krijgt betekenis
0-punt horizontale as zo mogelijk in snijpunt van de assen
STAMDIAGRAMMEN
Een stamdiagram (ook wel stam en blad diagram genoemd) biedt een snelle manier om de vorm van een verdeling in beeld te brengen, terwijl
de feitelijke numerieke waarden in de grafiek worden opgenomen. Stamdiagrammen werken het best voor een gering aantal waarnemingen,
alle met waarden groter dan 0.
U vervaardigt een stamdiagram als volgt:
1. Verdeel elke waarneming in een stam die bestaat uit alle cijfers behalve de laatste (uiterste rechtse) en een blad met het laatste cijfer.
Stammen mogen zoveel getallen bevatten als nodig is, maar elk blad bevat slechts een enkel cijfer.
2. Plaats de stammen in oplopende volgorde in een verticale lijst met de kleinste bovenaan. Trek dan een verticale streep aan de
rechterkant van deze kolom.
3. Rangschik de bladeren van een rij in oplopende volgorde van links naar rechts vanaf de stam.
Stamdiagrammen werken niet goed bij grote verzamelingen gegevens, waar elke stam aan een groot aantal bladeren plaats moet bieden.
Als u een verwante verdeling met elkaar wilt vergelijken is een rug aan rug stamdiagram met gemeenschappelijke stammen zinvol.
7
, 1.2 VERDELINGEN BESCHRIJVEN MET CIJFERS: KARAKTERISTIEKE MATEN
ONDERZOEKEN VAN VERDELINGEN
Begin een data-analyse altijd met het bekijken van algemene patronen en opvallende afwijkingen van die patronen
Beschrijf het algemeen beeld naar vorm, het centrum en de spreiding.
Een belangrijke “afwijking” is een uitschieter, een gegeven dat (ver) buiten het algemene patroon valt
Verdelingen bekijken
Een verdeling is symmetrisch als de linker en rechter helften (ongeveer) elkaars spiegelbeeld zijn.
Een verdeling is scheef naar rechts (“rechts scheef”) als aan de rechter zijde van de verdeling (met de hoogste waarden) een langere
“staart” is.
Een verdeling is scheef naar links (links scheef)als er aan de linker zijden een relatief lange staart is.
VOORBEELD HISTOGRAM
UITSCHITERS OF BUITENBEENTJES
Proportie niet-Belgen per gemeente:
Uitschieters zijn waarnemingen die (duidelijk) buiten het algemeen patroon van de waarnemingen vallen. Probeer die altijd te “begrijpen”.
Het opsporen van uitschieters is een kwestie van inschatten. Kijk naar punten die duidelijk buiten de puntenwolk staan, en dus niet alleen naar
de meest extreme waarnemingen in een verdeling. Soms wijzen uitschieters op vergissingen bij het vastleggen van de gegevens.
8