Videocollege 1
Correlatie is niet gelijk aan causatie
Statistiek…
- Statistiek is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken,
interpreteren en presenteren van gegevens.’ (Wikepedia)
- ‘Methode of wetenschap van het waarnemen van verschijnselen en van het weergeven van
de uitkomsten in getallen en figuren’ (van Dale)
- ‘set of mathematical procedures for organizing, summarizing, and interpreting information’
(Gravetter & Wallnau boek)
Statistiek in de empirische cyclus
Statistiek komt op twee plaatsen in de empirische cyclus kijken, namelijk bij observatie: statistiek
(explaratieve analyse) en bij toetsing.
Beschrijvende statistiek:
- Gebruik: kwantitatieve samenvatting van informatie/ data
- Relevante jargon: summary statistics, gemiddelde, mediaan, modus, variantie,
standaarddeviatie, covariantie, frequentieverdeling, histogram, etc.
Inferentiële statistiek:
- Gebruik: maak inductieve inferenties van data (een steekproef) naar een meer algemene
situatie (de populatie)
- Relevante jargon: sampling error, standaardfout, schatten, confidence intervals, margin of
error, hypothesetoetsing, etc.
- Van steekproef naar populatie:
• Vb: ‘Regelmatig bewewgen lijkt remedie tegen burnout’
➢ Stel je voor dat je deze studie opnieuw zou doen, met hetzelfde aantal participanten
(steekproefgrootte), maar wel een nieuwe (simple random) steekproef. Zou je weer
precies hetzelfde resultaat verwachten?
➢ Nee. Misschien heeft deze steekproef meer mensen waarvoor de methode goed
werkt, juist minder goed werkt, etc. De resultaten zullen nooit precies hetzelfde zijn.
➢ Als we iets willen zeggen over een populatie op basis van een steekproef, dan moeten
we rekening houden met deze onzekerheid. De onzekerheid die komt van het nemen
van random steekproeven (steekproeffluctuaties!)
, Notatie: Stel we
noteren variabele
‘’age’’ als ‘’X’’, dan
X₄ = 23
Data: random variabelen (X)
- Variabelen waarvan de mogelijke uitkomsten het resultaat zijn van een random fenomeen.
- Statistische notatie: meestal X, of Y
- Specifieke uitkomsten en specifieke observaties worden opgeschreven met een kleine x of y
Kwantificeren van Random Variabelen:
• Het meetniveau van een variabele bepaalt wat voor betekenis de
nummers die we toewijzen hebben.
- 4 niveaus: nominaal, ordinaal, interval, ratio
- De niveaus zijn cumulatief- elk niveau heeft de
eigenschappen van de vorige niveaus.
- Het meetniveau van een random variabele bepaalt wat voor
analyses je er beter wel/ niet op kan uitvoeren.
Meetniveaus van random variabelen:
• Nominale variabelen:
1. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Voorbeelden:
- Geslacht: man, vrouw; 0,1
- Nationaliteit: Nederlands, Duits, Grieks, Pools, etc; 0,1,2,3, etc.
- Teamnaam: rocket, galatic, magma; 0,1,2
• Ordinale variabelen:
1. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve getallen aan de
mutueel exclusieve uitkomsten.
2. Er is een betekenisvolle ordening in de mogelijke uitkomsten.
Voorbeelden:
- Dosering: laag, medium, hoog: 0,1,2
- Rangen: 1e plaats, tweede plaats, derde plaats; 0,1,2
- Likert schalen: zeer oneens, oneens, neutreel, mee eens, zeer eens; 0,1,2,3,4;
- Leeftijdscategorieën: 9-13, 14-18, 19-30, etc; 0,1,2, etc.
• Interval variabelen:
1. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
2. Er is een betekenisvolle ordening in de mogelijke uitkomsten
, 3. De intervallen tussen elk van de geordende uitkomsten is Nb: in de sociale wetenschappen hebben
betekenisvol en dezelfde grootte we veel ordinale variabelen (likert
Voorbeelden: schalen)- deze worden vaak behandeld
- Temperatuur in graden celcius farenheit. alsof ze interval zijn als ze veel
uitkomstcategorieën hebben (say 5+)
• Ratio variabelen:
1. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
2. Er is een betekenisvolle ordening in de mogelijke uitkomsten.
3. De intervallen tussen elk van de geordende uitkomsten is betekenisvol en dezelfde grootte
4. ‘’absoluut nulpunt’’: Een nul betekent dat de gemeten eigenschap afwezig is.
Voorbeelden:
- Dosering in milligram: 0 mg, 1 mg, 2 mg, etc.
- Lengte in cm (0 cm- geen lengte)
- Temperatuur op de Kelvin schaal (0 graden- geen temperatuur)
Discrete vs continue random variabelen:
• Het type variabele bepaalt wat voor analyses we er beter wel/ niet op uit kunnen voeren
• Discrete variabele:
- De mogelijke uitkomsten voor de variabelen zijn te vangen in een eindige, telbare lijst van
waarden. Let op! Als de gemeten score discreet is, hoeft de onderliggende variabele dat niet
te zijn (bv. Leeftijd afgerond op hele jaren).
Voorbeelden: Nb: nominale/ ordinale variabelen
- Aantal kinderen per gezin. (Je kan niet 1/3 kind hebben) zijn over het algemeen discreet.
- Dosering categorieën (laag, medium en hoog) Discrete variabelen zijn niet per sé
- Sekse categorieën (man, vrouw) nominaal/ ordinaal
- Beroepsgroep (docent, advocaat, tandarts, etc. )
• Continue variabele:
- De mogelijke uitkomsten van de variabele kunnen elke waarde aannemen binnen een
bepaald interval (dat interval zou kunnen lopen van – oneindig tot oneindig)
Voorbeelden:
- Leeftijd (niet afgerond) Nb: Continue variabelen hebben over het
- Hoeveelheid gedronken alcohol algemeen interval/ ratio niveaus. Interval/
- Dosering in grammen ratio variabelen zijn niet per sé continu
- Lengte
Mogelijke tentamenvraag:
- Een ziekenhuis is geïnteresseerd in het gezinsleven en de leef-werkbalans van hun
medewerkers en zet daarom een survey uit. Aan elke werknemer wordt gevraagd hoeveel
kinderen zij hebben.
- Stelling: de resulterende variabele, namelijk het aantal kinderen voor elke werknemers, is
een discrete variabele met een ratio meetniveau.
- A. juist
- B. onjuist
A, je hebt een ratio op meetniveau. Discreet want je hebt een ontelbaar aantal opties.
, Frequentieverdelingen en kansverdelingen
• Frequentie (van uitkomsten van een random variabele)
- Hoe vaak een bepaalde uitkomst is geobserveerd
• Frequentie verdelingen
- Een tabel of grafiek die weergeeft hoe vaak een bepaalde uitkomst is geobserveerd, voor
elke mogelijke uitkomst voor die variabele.
• Kans:
- De relatieve frequentie van de uitkomst
- D.w.z.: hoe vaak de uitkomst voorkomt in verhouding tot het totaal aantal observaties.
• Kansverdelingen laten de kans zien op elke mogelijke uitkomst voor een random variabele.
(als je alle uitkomsten dan bij elkaar optelt is het altijd 1)
Discrete en continue kansverdelingen
- Discreet Continu
Beschrijvende statistieken:
- Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen.
• Centrummaten:
- Beschrijven het ‘ centrum’ of ‘midden’ of ‘ typische waarde’ voor een variabele.
- Modus, mediaan, gemiddelde
• Spreidingsmaten:
- Beschrijven de variatie, spreiding, breedte van een variabele
- Bereik, variantie en standaarddeviatie.
Centrummaten:
• Modus: De uitkomst die het vaakst voorkomt d.w.z., de uitkomst met de hoogste frequentie.
• Mediaan: de waarde die de hoogste helft van de data scheidt van de laagste helft van de
data. 50% van de data ligt boven de waarde, en 50% ligt onder deze waarde.
- Voorbeeld 1: stel je hebt de volgende cijfers gehaald: 7,7,8,6,9. Start met het ordenen van de
cijfers: 6,7,7,8,9. De mediaan is de middelste waarde: 7
- Voorbeeld 2: stel je hebt de volgende cijfers gehaald: 7,7,8,6,9,7,8,9. Start met het ordenen
van de cijfers: 6,7,7,7,8,8,9,9. Een even aantal cijfers, dus de middelste waarde ligt tussen 7
en 8; de mediaan is 7,5.
• Gemiddelde:
- 1. Tel alle observaties voor variabele X op (neem de som van X)
- 2. Bepaal het totale aantal observaties, we noemen dat getal N of n.
- 3. We delen de som uit stap 1 door het totale aantal observaties van stap 2.
Op welke manier geeft het gemiddelde het centrum of het midden van deze verdeling aan?
- De som van de deviaties (afwijkingen) tussen de observaties en het gemiddelde is altijd 0!
- D.w.z. de totale afstand tussen de observaties hoger dan het gemiddelde, en Nb: daarom meest
de totale afstand tussen de observaties lager dan het gemiddelde zijn precies betekenisvol voor
even groot! interval/ ratio
variabelen.