Statistiek
Leerstof verwerken:
PP + handboek
Video-opnames
Voorbereidende oefeningen maken
Extra oefeningen maken na het werkcollege (via blackboard)
Tussentijdse toets 1&2:
Eerste 5 hoofdstukken
8 meerkeuze vragen met verhoogde censuur van 63%
3 vragen theorie en 5 vragen oefeningen
Examen deel 1:
Gesloten boek, leerstof deel 1
Grafische rekenmachine (geen TI nspire)
14 meerkeuze vragen met verhoogde censuur
Meerkeuze + open vragen
40% theorie en 60% oefeningen
3u examen
2 examendelen: 2 x 8 punten
Les 1 – Semester 1:
Diagram of the causes of mortality: eerste grafiek
(vb van de soldaten in het ziekenhuis)
1.2 Over statistiek, statistieken en de technologische (r)evolutie
Statistiek: als verzameling en organisatie van data, partieel en gedateerd.
Maar een deeltje ervan
De statistieken, in de zin van bundelingen van gegevens of data, krijgen pas echt
betekenis als ze zorgvuldig en inzichtelijk beschreven, geanalyseerd en vooral
geïnterpreteerd worden.
Statistiek = enerzijds nadruk op de technieken en instrumenten die gebruikt worden om
statische observaties te beschrijven en grafisch te presenteren.
Anderzijds houdt het zich bezig met de analyse, de verklaring en de toetsing van gegevens.
= 1) descriptieve statistiek 2) infertiele statistiek
1) Descriptieve statistiek = sluit aan bij de klassieke proto-wetenschappelijke conceptie.
Houdt zich bezig met de ontwikkeling en het gebruik van geschikte
presentatievormen om relatief grote hoeveelheden ruwe gegevens op een
overzichtelijke wijze weer te geven.
Steeds vaker gebruikgemaakt van grafische technieken
= nadruk is geleidelijk aan verschoven van beschrijving naar inzicht.
2) Onderscheid tussen steekproef en populatie staat centraal. Gaat in op de
heuristische mogelijkheden van een deel van de gehele populatie.
Komt vooral tot uiting in het werkwoord analyseren.
1
,Kern van de zaak : de interpretatie van de cijfergegevens
Belang van statistiek:
Levens redden
Maatschappelijke problemen vaststellen (klimaatopwarming, door cijfers)
Machthebbers controleren (bv: corruptie in kaart brengen)
World Data Forum
Wat is statistiek?:
Invulling van statistiek als de verzameling en organisatie van data, partieel en
gedateerd (maar een deeltje ervan)
Statisticum (latijn): “van de staat” (van de machthebbers)
Wetenschap van het verzamelen, organiseren, presenteren, analyseren en
interpreteren van gegevens en data volgens een numerieke logica
Nut voor een sociale wetenschapper:
Bestaand onderzoek begrijpen/beoordelen
Eigen onderzoek uitvoeren
Problemen bij dataverzameling:
Populatie N: de groep waarover het onderzoek een uitspraak wilt doen (de Amerikaanse
mannen)
Steekproef n: een selectie uit de totale populatie, waarop je het onderzoek uitvoert (bv:
5300 Amerikaanse mannen)
Alfred Kinsey, 1948: het seksleven van de Amerikaanse man
Veel kritiek: steekproef
Selectiebias: vertekening in wie hij benaderden (in homobars, universiteiten,…)
Non-responsbias: vertekening in wie uiteindelijk deelnam (pastoors, politiekers,
…)
Responsbias: vertekening in de antwoorden van deelnemers (geen eerlijke
antwoorden over dit delicaat onderwerp)
Bv: suggestieve vraagstelling => niet “ben je ooit vreemdgegaan?” maar “hou oud
was je de eerste keer toen je vreemdging?” = geen eerlijke antwoorden
Bv: sociale wenselijkheid => mannen geven de dubbele hoeveelheid van vrouwen,
maar dit kan niet, moet gelijk zijn (voor elke man is een vrouw nodig)
Soorten steekproeven:
Literary Digest-schandaal: straw poll
- 10 miljoen Amerikanen gecontacteerd (bij verkiezingen)
- 2,4 miljoen teruggestuurd
- Selectiebias: geen goede doorsnede van de volledige bevolking (bv enkel
rijkere stemmen) en non-responsbias
George Gallup: Quotasteekproef
- Steekproef van 50 000
- “miniatuurversie van de bevolking” (zoveel mannen en vrouwen, hoger
opgeleiden,…)
- Hield rekening met de juiste verhoudingen van de bevolking = meer succes
2
, Representativiteit is belangrijker dan steekproefgrootte
- Maar als de steekproef random is, is een grote n beter dan een kleine n
De enkelvoudige aselecte steekproef: elk lid van de populatie heeft even veel
kans om in de steekproef terecht te komen = beste manier
- Clustersteekproef (in 2 stappen te werk gaan): random selectie van allerlei
gemeenste, binnen de gemeente random scholen kiezen (alles is willekeurig)
Kan door toeval niet representatief zijn (bv: 12 vrouwen en 66 mannen)
- Gestratificeerde steekproef (voorkennis gebruiken)
Convenience steeproef: je kan geen algemene uitspraken doen = slechtste manier
Populatie onderzoek:
- Probleem = non-responsbias
Problemen bij de presentatie van data
Vb 1:
Job aanbod in een kleine startup
- Gemiddeld inkomen: 34564 euro netto/maand
- Realiteit: 10 werknemers verdienen 1800 euro; manager verdient 20 000 euro
Populariteit van “het gemiddelde” is risky
Vb 2:
Misleidende grafieken: (ingezoomd y-as, visuele beelden)
Plan voor statistiek
1) beschrijvende statistiek: het beschrijven van steekproef/populatiegegevens
2) Infertiele statistiek: op basis van steekproefgegevens
(notities vragen + zie PP)
Hoofdstuk 2
Datamatrix:
- Onderzoek elementen of cases: dingen waar we uitspraken over willen
doen/iets over willen zeggen (bv: elk sterfgeval)
3
, Kan zich op verschillende niveaus situeren = aggregatieniveau:
Microniveau => individuen
mesoniveau => geen individuen, maar organisaties
Macroniveau => grootste groepen, bv: landen, gemeentes
Ecologische meetfout: op basis van gegevens op macro (of meso)-niveau
uitspraken doen over het microniveau
- Simpson paradox: ziekenhuis B houdt meer rekening met de ernst van de
klachten. => in ziekenhuis B zijn er veel meer mensen met ernstige klachten,
daardoor ligt de kans op overlijden groter (niet omdat ze slechter is).
- Als we op een lager niveau informatie hebben, blijkt het dat we foute
uitspraken doe op een hoger niveau.
Variabelen (1):
Meten van variabelen:
- Conceptualisering = wat wil je meten?
(concept goed afbakenen)
- Indicering = hoe het theoretische concept empirisch meten?
= goed als je meet wat je wilt weten
(concrete vraag die je over je concept gekozen hebt)
Validiteit: meet je wat je wilt weten?
- Operationalisering = hoe ga je het registreren?
Belang van antwoordschalen (Likert) = schaal van eens, helemaal eens,
oneens of helemaal oneens
Betrouwbaarheid: verschillende metingen, zelfde resultaat?
- Interpersoon: meerdere indicatoren (dezelfde bevindingen bekomen)
- Intertemporeel: op verschillende momenten (dezelfde persoon
dezelfde vragen gaan stellen, maar met een tijdverschil ertussen)
Omgaan met onwetendheid (soms hebben mensen geen mening, “geen
mening” als optie geven), sociale wenselijkheid (mensen hebben het
gevoel dat ze op een bepaalde manier moeten antwoorden, ook al is dat
niet hun eigen mening),…
Variabelen (2)
Kwantitatieve meetniveaus:
Ratio: afstand, leeftijd, aantal kinderen, inkomen,…
Allemaal cijfers (als het antwoord 0 is, is het ook echt 0)
Kan je bewerkingen bij uitvoeren
Komt het vaakst voor
Interval: jaartellingen, IQ, temperatuur,…
Allemaal cijfers, maar het antwoord is niet echt 0 (het jaar 0 is wel een
echt jaar)
Verschil is altijd exact even groot tussen de opeenvolgende categorieën
Kwalitatieve meetniveaus:
Ordinaal: likert-schalen (helemaal mee oneens t/m oneens), onderwijsniveau,…
Zit een rangvolgorde in (bv: van laag naar hoog).
Peilt niet naar een cijfer, drukt het in woorden uit.
Meet bv: categorieën
Afstand is niet gelijk tussen opeenvolgende categorieën
Nominaal: geslacht, politieke partijvoorkeur, haarkleur, regio,…
4