2015 – 2016
John Lievens
, Inleiding
Elise Meulenijzer UGent: Communicatiewetenschappen: Statistiek 2015-2016 2
,1. Opzet, doelstellingen & aanpak Statistiek
EXAMEN:
kunnen > kennen
inzien > weten
theorie < oefeningen
Schriftelijk multiple-choice examen:
o inzichtelijke theorievragen
o toepassingsvragen en oefeningen
Afrondingsregels:
o vier decimalen tijdens alle tussenstappen
o twee decimalen bij de einduitkomst (vb: 2,565 = 2,57 ↔ 2,564 = 2,56)
o proporties/fracties vier beduidende cijfers (vb: 0,8159 of 81,59%)
Voorkennis wiskunde: Maths for Stats (pdf)
Vragen? Gert Van der Goten (studiebegeleider)
Inhoud
Meten
o eenheden en variabelen
o gegevensverzameling
Univariate beschrijvende statistiek
o frequentieverdelingen
o grafische voorstellingen
o maten van centraliteit en spreiding
Bivariate beschrijvende statistiek
o kruistabellen
o spreidingsdiagrammen
o associatiematen
o correlatie- en regressieanalyse
Meer complexe relaties
o statistische controle
Theoretische verdelingen
o normaalverdeling
o binomiale verdeling
Kans, toeval, kansmodellen
Inductieve statistiek: van steekproef naar populatie
o schatten met betrouwbaarheid en significantietoetsen voor aantallen
o fracties
o gemiddelden en de samenhang tussen twee variabelen
Elise Meulenijzer UGent: Communicatiewetenschappen: Statistiek 2015-2016 3
,2. Statistiek, wablief ?
Bij sociale wetenschappen:
Statistiek om maatschappelijk fenomenen en processen begrijpen, verklaren en ‘voorspellen’
kwantitatief (cijfermatig) versus kwalitatief (diepgaand)
fundamenteel wetenschappelijke kennis
beleidsrelevante inzichten
Statistiek als maatschappelijk fenomeen: mediapeilingen
Aandacht voor ‘onderzoek’ en ‘peilingen’ is de laatste jaren in de media sterk
toegenomen
Maar wat met de kwaliteit? Zijn de bevindingen nog wel betrouwbaar?
Zwaar problematisch:
- zetten gebruiker op verkeerde been
- foutieve (beleids)conclusies
Harde cijfers en gegoochel met termen als ‘representatief’ verdoezelen de bedrieglijke
aard van slecht onderzoek.
Kwaliteitscriteria onderzoek (selectie)
Transparantie:
bron, bij wie is het uitgevoerd, aantal respondenten, wanneer is het uitgevoerd,
door wie is het uitgevoerd, …
Kwaliteit toevalsteekproef:
representatief voor de hele populatie
niet willekeurig, wel lukraak
indien geen toevalsteekproef is het niet representatief omdat het gepolariseerd
is (enkel mensen met uitgesproken mening werken mee)
aantal deelnemers is geen criterium (een groot aantal deelnemers wil niet
automatisch zeggen dat het representatief is)
inductieve statistiek enkel gebruiken bij toevalsteekproef
Inzicht in non-respons en bias (vertekening):
sociale wetenschappen geeft vaak vertekend beeld bij onderzoek aangezien
bepaalde groepen van mensen meer of minder geneigd zijn om deel te nemen aan
onderzoek
Zorg voor vraagverwording:
= vraagformulering
mogelijke problemen:
- vraag is onduidelijk of vaag waardoor mensen de vraag niet begrijpen of
verkeerd antwoorden
- suggestieve vragen waardoor mensen in een bepaalde richting worden
gestuurd
- er wordt niet genoeg info gegeven
-…
Werken met statistische modellen:
inductieve statistiek
Elise Meulenijzer UGent: Communicatiewetenschappen: Statistiek 2015-2016 4
,3. Gegevensbron
Bevolkingsgegevens
Informatie over volledige onderzoekspopulatie
Weinig twijfels als gegevens valide en betrouwbaar zijn
Beschrijvende statistiek volstaat
Gegevens afkomstig uit steekproef
Steekproef
= selectie van eenheden uit onderzoekspopulatie
= deelverzameling van n eenheden uit populatie
Bijkomende twijfel of steekproef goede afspiegeling vormt van volledige populatie
=> uitkomsten kunnen verschillen naargelang steekproef
Inductieve statistiek
= op basis van informatie uit steekproef uitspraken doen over populatie
= steekproefgrootheid gebruiken om populatieparameter te schatten (schatten van de
grootte van de fout)
systematische toevalsprocedure is noodzakelijk voor inductieve statistiek
= elke eenheid in populatie heeft dezelfde kans om in de steekproef
opgenomen te worden via Enkelvoudige A-selecte Steekproef (EAS)
= elke eenheid gekende kans om in steekproef opgenomen te zijn
indien geen EAS niet mag men enkel uitspraken doen over de onderzochte
eenheden
toevalsteekproef optimaliseert ook representativiteit: steekproef wijkt niet
systematisch af van populatie waaruit steekproef getrokken is
Problematische kwaliteit van toevalssteekproef bij internetpanels en telefonisch
onderzoek
huidige internetpanels: zwaar vertekend door zelfselectie respondenten
telefonisch onderzoek: zwaar vertekend door verschillend bereik vaste lijnen
vb: enkel bereikbaar via gsm:
Elise Meulenijzer UGent: Communicatiewetenschappen: Statistiek 2015-2016 5
,4. Meten, eenheden, variabelen en dataset
Onderzoekselementen
= statistische eenheden
= statistische cases
= bij wie wordt het onderzoek gedaan
= onderdelen van realiteit waarop onderzoek betrekking heeft
eenduidige definitie noodzakelijk
Vb: individuen, gebeurtenissen, collectiviteiten, landen, ...
Onderzoekspopulatie
= verzameling van onderzoekselementen
eenduidige definitie noodzakelijk
vaak gebonden aan tijd en ruimte
Analyse-eenheid
= eenheid waarop analyse gebeurt
Kenmerk = mogelijke eigenschap van een eenheid Vb: M-V, 20j-21j-22j-23j, …
Variabele = kenmerk dat varieert over de eenheden Vb: geslacht, leeftijd, …
Uitkomstenverzameling
= verzameling van alle mogelijke uitkomsten van een variabele
= bereik: tussen welke waarden ligt het antwoord Vb: leeftijd: 0-110 jaar
geslacht: M-V
Meten
= volgens bepaalde meetprocedure vaststellen van de waarde van een kenmerk bij een
element
Nauwkeurigheid = exactheid
Betrouwbaarheid = consistentie bij herhaalde waarneming
Validiteit = mate van overeenkomst tussen indicator en (theoretisch)
concept
= meet het wat het moet meten
= afwezigheid van systematische fouten
Waarde
= resultaat van meten
= uitkomst
= waarde van een element op het meten Vb: geslacht: vrouw
leeftijd: 71 jaar
Voorbeeld:
onderzoeksvraag: ‘verklaren’ verschillen in museumbezoek bij studenten 1BA PSW
stel korte vragenlijst nu afnemen:
- Wat is je geslacht ? man / vrouw
- Welke opleiding volgde je vorig jaar ? ..................
- Wat is het hoogst behaalde diploma van je ouders ? .....
- Gingen je ouders naar musea toen je 12 jaar was ? ......
- Hoe vaak ging je het voorbije jaar naar een museum ? ..................
- Wat is je leeftijd ? .................. jaar
- Naar welke TV-zender kijk je het meest ? ..............
Elise Meulenijzer UGent: Communicatiewetenschappen: Statistiek 2015-2016 6
,4.1. Verschil tussen Datamatrix en frequentietabel
Vb: variabelen geslacht & score
4.2. Input voor statistische analyses:
Gegevensset
= dataset
= datamatrix
Vaak worden numerieke codes gebruikt (via codeboek):
Geslacht: 0=man ; 1 = vrouw ; 9 weet niet/geen antwoord/missing
Code rangorde
Elise Meulenijzer UGent: Communicatiewetenschappen: Statistiek 2015-2016 7
, 5. Meetniveau van variabelen: schaal van meten
(hoeveelheid informatie)
Het is belangrijk om het meetniveau van een variabele te weten
hierop wordt gebaseerd welke berekeningen kunnen gedaan worden (mediaan,
gemiddelde, …)
elk meetniveau biedt andere hoeveelheid informatie aan
5.1. Kwalitatieve / categorische variabelen
= waarden kunnen onderscheiden worden maar het verschil kan niet gemeten worden qua
inhoud, er is geen betekenis in het verschil
er kan niet verder mee gerekend worden
Nominale variabelen
= exhaustieve en exclusieve classificatie
Vb: geslacht, TV-zender, haarkleur, werelddeel, …
Ordinale variabelen
= exhaustieve en exclusieve classificatie
+ ordening (meer/minder)
Vb: opleiding, opinievraag, kwaliteitsoordeel in sterren, medaille, …
5.2. Kwantitatieve / metrische variabelen
= het verschil heeft een betekenis en kan dus berekend worden
er kan verder mee gerekend worden
Intervalvariabelen
= exhaustieve en exclusieve classificatie
+ ordening (meer/minder)
+ gelijke afstanden (hoeveel meer/minder)
Vb: temperatuur in graden Celsius, geboortejaar, …
aangezien er geen absoluut nulpunt is, is er dus de mogelijk dat er
afwezigheid is van een bepaald klenmerk
Ratiovariabelen
= exhaustieve en exclusieve classificatie
+ ordening (meer/minder)
+ gelijke afstanden (hoeveel meer/minder)
+ absoluut nulpunt (de waarde kan nooit negatief zijn)
Vb: leeftijd, tijdsverschil, budget, …
Elise Meulenijzer UGent: Communicatiewetenschappen: Statistiek 2015-2016 8