, 1. INLEIDING TOT DE STATISTIEK
1.1. Inleiding
Om onszelf te begrijpen hebben we wetenschap nodig. Wetenschap gaat over het verzamelen
van data en het zoeken van verklaringen voor die data. We hebben volgende
onderzoeksmethoden:
Kwalitatieve onderzoeksmethoden Kwantitatieve onderzoeksmethoden
Wanneer gegevens bestaan uit woorden of Wanneer data bestaan uit cijfers hebben we
tekst, hebben we deze onderzoeksmethoden deze onderzoeksmethoden nodig.
nodig om woorden en betekenis te
analyseren. Het is een set van tools en technieken die
gebruikt wordt voor het beschrijven,
Bijvoorbeeld: veelvoorkomende kwalitatieve organiseren en interpreteren van informatie
verzamelingsmethoden zijn interviews en en gegevens.
focusgroepen.
Bijvoorbeeld: statistische analyse uit data.
We worden steeds overspoeld door cijfergegevens, en dan kan je twee dingen doen. Of je
gelooft het, of je wilt er meer over weten en nagaan of het wel klopt.
Voorbeeld: In een boek over ontwikkeling kan men lezen rond welke leeftijd een baby normaal
begint te kruipen. Als je kind op die dag nog niet kruipt gaan mensen al snel denken dat hun
kind een ontwikkelingsprobleem heeft. Veel mensen begrijpen niet dat rond het gemiddelde
variatie mogelijk is. Een kind gaat kruipen op een bepaald punt in de tijd, maar sommige
kruipen eerder of later. Natuurlijk is het wel problematisch in extreme gevallen.
,1.2. Het onderzoeksproces
1.2.1. Schematisch overzicht
1.2.2. Genereer een onderzoeksprobleem
Bij elk onderzoek start je met de formulering van een onderzoeksvraag. Op die vraag wil je een
antwoord weten. Belangrijk is dat de vraag ondubbelzinnig moet geformuleerd worden. De
onderzoeksvraag kan voortkomen uit iets dat je vaststelt, doordat je de wereld observeert.
1.2.3. Observeer de wereld of lees
Als je niets observeert kan je voorgaande literatuur lezen en een leemte ontdekken dat verder
onderzoek vereist.
1.2.4. Raadpleeg een theorie
Theorie: een uitleg of set van principes die een breed fenomeen verklaart en die goed
onderbouwd is door herhaaldelijk te zijn getest. Theorieën zijn van algemene toepassing op
entiteiten of situaties.
1.2.5. Populatie
Populatie: een theoretische groep waarover je conclusies wilt trekken. Bijvoorbeeld kan bij
een klanttevredenheid studies je populatie klanten zijn. Dit is het set van entiteiten, zoals alle
potentiële klanten.
,1.2.6. Genereer een hypothese
Hypothese: een vooropgestelde verklaring voor een vrij beperkt fenomeen of reeks
waarnemingen. Het is geen gok maar een geïnformeerde poging om trachten te verklaren wat
er is waargenomen.
Theorie Hypothese
Een theorie verklaart een breed scala aan Een hypothese probeert een enger
fenomenen en werd reeds veelvuldig getest. fenomeen te verklaren en is nog niet getest.
1.2.7. Verzamel data om de hypothese te testen
Dataset: verzameling van gegevens die op de ene of andere manier aan elkaar gekoppeld zijn.
Het is een spreadsheet met variabelen als kolommen en cases of observaties als rijen. Het kan
beschouwd worden met 2 termen, namelijk case en variabelen.
Variabele: alles dat kan worden gemeten en dat kan verschillen of veranderen of variëren
tussen entiteiten of in de tijd. Elke variabele vertegenwoordigt een verzameling van 1 enkel
gegeven. In een dataset wordt deze weergegeven als een kolom. Bijvoorbeeld: lengte meten,
aantal winkelketen etc. Pie is in tegenstelling een constante en staat vast en is dus geen
variabele.
Case: de gegevens uit één bron van één of meerdere variabelen. In een dataset wordt deze
weergegeven als rij. Een case omvat alle gegevens over alle variabelen in de dataset uit één
enkele bron.
,1.2.8. Meet variabelen
1.2.8.1. Soorten variabelen
Afhankelijke variabele: een variabele van primair belang voor de onderzoeker. Als
onderzoeker is je doel om deze variabele te begrijpen en te omschrijven, om de variabiliteit te
verklaren of om deze variabele te voorspellen. Synoniemen: verklaarde variabele,
uitkomstvariabele, response, DV etc.
Onafhankelijke variabele: een variabele die bepaald invloed heeft op de afhankelijke variabele
(positief of negatief). Variatie in de afhankelijke variabele wordt verklaard door de variatie in
de onafhankelijke variabelen. Synoniemen: verklarende variabele, voorspellende variabele,
predictor, IV etc.
Opmerking: wanneer we een stijging of daling zien in de onafhankelijke variabele dan zullen
we ook een stijging of daling zien van de afhankelijke variabele.
Voorbeeld: 1. De klanttevredenheid (afhankelijke variabele) verschilt per winkellocatie
(onafhankelijke variabele). 2. De verkoop (afhankelijk variabele) van een product kan worden
voorspeld door gebruik te maken van de relatie tussen de verkoop en het bedrag aan reclame-
uitgaven (onafhankelijke variabele). 3. Prestatie van werknemer op een job kunnen worden
voorspeld door gebruik te maken van relatie tussen prestaties (afhankelijk variabele) en een
reeks attitudetesten (onafhankelijke variabele).
Modererende variabele: een variabele die een invloed heeft op de richting en/ of de sterkte
van de relatie tussen de onafhankelijke en afhankelijke variabelen. Het gaat de relatie tussen
de 2 versterken/ verzwakken of misschien van richting doen veranderen. Synoniemen:
interactie, MV etc.
Mediërende variabele: een variabele die optreedt tussen het tijdstip dat de onafhankelijke
variabele invloed begint uit te oefenen op de afhankelijke variabele en het moment dat de
impact duidelijk is. Synoniemen: interveniërende variabele, IVV etc.
Controle variabele: behoort niet tot de kern van probleemstelling. Voorbeeld: socio-
demografische variabelen, zoals leeftijd en geslacht. Het is niet geïnteresseerd in de impact
van de variabele, maar wil wel zeker zijn dat je controleert voor de mogelijke variatie in de
afhankelijke variabele die verklaard wordt door deze controle variabele. Het is namelijk een
soort van onafhankelijke variabele.
1.2.8.2. Direct meetbare vs indirect meetbare variabelen
Om variabele te meten moet je ze eerst gaan definiëren en operationaliseren.
Meten: het toekennen van getallen of cijfers of andere symbolen aan kenmerken (of
eigenschappen) van objecten volgens een vooraf bepaalde set regels.
Direct meetbare variabelen (objectief): direct observeren/ zichtbaar en is makkelijk te meten.
Voorbeeld: lengte, gewicht via weegschaal etc.
,Indirect meetbare variabele (objectief): meten door een eenvoudig item of een vraag.
Voorbeeld: leeftijd, aantal kinderen of gezinsleden etc.
Constructen (subjectief): niet direct of indirect meetbaar. Kenmerken of eigenschappen die
van belang zijn voor een populatie, maar die niet direct gemeten kunnen worden. Om
constructen te meten heb je operationele definities nodig van constructen. Hetgeen een
procedure is of een reeks procedure zijn om deze te kwantificeren. Conceptueel gedefinieerd:
betekenis hebben in theoretische termen. Voorbeeld: abstracte concepten, vb. depressie,
angst, intelligentie, geluk en klanttevredenheid etc.
1.2.8.3. Meetniveau’s
Meetniveau/ meetschaal: relatie tussen wat er wordt gemeten en de getallen die
vertegenwoordigen wat er wordt gemeten. We hebben verschillende vormen van meetniveau
’s. Nominaal en ordinaal behoren tot de categorische variabele en interval en ratio bij de scale
variabele.
Kwalitatief/ categorisch: Het is opgebouwd uit categorieën waarbij entiteit slechts in 1 van
categorieën kan worden geplaatst. Voorbeeld: koe, kat en hond. Een dier is slechts één van de
drie en niet van elk een beetje. Ze zijn onnuttig om op te tellen.
Binaire/ dichotome variabele: speciale vorm waarin categorische variabele slechts twee
verschillende categorieën heeft en een entiteit dat in slechts één van de 2 categorieën kan
worden geplaatst. Voorbeeld: man en vrouw, levend en dood. Dummy variabele: i.p.v. 1 en 2,
hier 0 en 1. Kwalitatieve gegevens zijn niet numeriek van aard, maar kunnen als getal worden
gecodeerd. Elke categorie krijgt numerieke waarde maar heeft tot doel de waarde te
benoemen en respondenten te classificeren. Codering is het aanduiden van categorieën d.m.v.
getallen, waarbij berekeningen niet mogelijk is. Cijfers hebben hier geen wiskundige betekenis.
Voorbeeld: mannen = 1 en vrouwen = 2.
Kwantitatief/ scale/ metrisch: variabelen die bepaalde numerieke weergave hebben en
numerieke informatie bevatten. Voorbeeld: lengte, gewicht en leeftijd. Ze zijn nuttig om op te
tellen. Met kwantitatieve gegevens kan men berekeningen doen. Voorbeeld: leeftijd van twee
personen optellen.
,Kwalitatief/ Categorisch Kwantitatief/ Scale/ Metrisch
1. Nominaal 1. Interval
Dit zijn beschrijvingen/ labels zonder gevoel Intervalschalen hebben geen nulpunt,
voor orde. De ene is niet superieur dan de waarden onder de nul zijn dus mogelijk. De
andere. Rangschikken is hier niet mogelijk. verhoudingen zijn zinloos. Voorbeeld:
kalenderjaren, temperatuur etc.
Voorbeeld: geslacht, kleur, chocoladesoort,
vlaggen etc. Deze meetschaal heeft geordende
categorieën en vereist dat de intervallen
tussen de categorieën gelijk zijn. Voorbeeld:
2005– 2006 en 2014 – 2015 hebben altijd
dezelfde betekenis, maar verhouding van
kalenderjaren hebben geen zin, omdat de
keuze van het jaar nul willigkeurig is en niet
het begin van de tijd betekend. Voorbeeld:
80°-> 90° = 90°->100°, maar 100° niet gelijk
aan 2 x 50°
2. Ordinaal 2. Ratio
Variabelen hebben een betekenisvolle Deze meetschaal heeft dezelfde vereisten als
volgorde. Kan worden gerangschikt. Kloof is interval, maar gaat nog een stap verder. Hier
aanwezig. Voorbeeld: olympische medailles, moeten ook de verhoudingen/ waarden
rang en tevredenheid. langs de schaal zinvol zijn.
De intervallen tussen de waarden in de Om dit te laten kloppen, moet de schaal een
schaal zijn mogelijk niet gelijk. Voorbeeld: echt en zinvol nulpunt hebben. Een nulpunt
groot verschil tussen tevreden en waar er een volledige afwezigheid is van
ontevreden, maar een klein verschil tussen hetgeen je aan het meten bent. Voorbeeld:
ontevreden en zeer ontevreden. leeftijd, gewicht, lengte, behaalde punten op
het examen etc.
De intervallen zijn consistent: 100 kg => 150
kg = 0 kg => 50 kg. Er is een betekenisvol
nulpunt: 0 kg = gewichtloos. 20 kg = 2 x 10 kg
Het hebben van een betekenisvol nulpunt
betekent dat verhoudingen/ratio’s worden
gehandhaafd.
,Kwantitatieve variabelen kunnen enerzijds discreet of continu zijn.
Discrete variabelen: kunnen een eindig aantal verschillende gehele waarden aannemen.
Waarden voor deze variabelen worden meestal verkregen door te tellen. Voorbeeld: het aantal
leerlingen in een klas kan 19 of 20 zijn, maar niet 19,80. Opgelet: kwalitatieve variabelen zijn
altijd discreet!
Continue variabelen: hebben een oneindig aantal kommagetallen. Waarden voor deze
variabelen kunnen niet worden geteld. Voorbeeld: leeftijd (2j, 6 maanden, 23 dagen,
enzovoort) en temperatuur.
Opmerking: het onderscheid tussen discrete en continue variabelen kan vervagen. Men kan
bijvoorbeeld continue variabelen gebruiken in discrete termen. We maken van een continue
variabelen een discrete variabelen. Voorbeeld: leeftijd drukt men zelden uit in nanoseconden.
We beperken ons dus tot jaren. Nanoseconden is continue en jaren discreet.
Daarnaast behandelen we discrete variabelen vaak alsof ze continue zijn. Voorbeeld: Het
aantal vriendjes dat meisjes gehad hebben is een discrete variabele. In de boekjes lees je aantal
vriendjes dat meisjes gehad hebben gestegen is van 2,3 naar 3,5. Dit veronderstelt dat de
variabele continu is. Deze scores zijn zinloos. Niemand heeft eigenlijk 3,5 vriendjes.
Rating scales: dichotoom, categorisch, semantische differentiaalschaal, numerieke schaal,
itemised rating scale, likertschaal, fixed/ constant sum scale, stapel schaal en grafische schaal.
= één antwoord kiezen
Ranking scales: paarsgewijze vergelijking, gedwongen keuze en vergelijkende schaal.
= meerdere zaken met elkaar vergelijken
, 1.2.8.4. Performance Expentancy
1. Conceptuele definitie opstellen: wat is de betekenis van het concept? Wat zijn de
dimensies: definitie van performance expectancy: “De mate waarin het gebruik van een
technologie voordelen oplevert voor consumenten bij het uitvoeren van bepaalde
activiteiten.”
2. Construct gaan operationaliseren: hoe meet je het concept? Hoe kunnen we een abstract
concept op een tastbare manier meetbaar maken: stelling voor te leggen aan de
respondenten.
3. Na dat variabele geoperationaliseerd en stelling hebben bepaald om de variabele te
meten: keuze gemaakt worden van hoe we de stelling gaan ondervragen. Hoe willen we dat
respondenten beantwoorden: Ja-neen vraag of likertschaal. Belangrijk invloed op wat voor
informatie we uit variabele kunnen halen. Ja-neen vraag: minder informatie en is beperkt in
mathematische berekening en statistische analyses die we uitvoeren. Terwijl likertschaal met
5 antwoordmogelijkheden: beter.
Opmerking: op welke meetniveau je een variabele meet, zal dus een belangrijke invloed hebben
op de analyse achteraf.
Likertschaal: vijf- of zevenpunt schaal die wordt gebruikt om het individu in staat te stellen uit
te drukken hoeveel hij/ zij het eens of oneens is met een bepaalde stelling.
Interne consistentie betrouwbaarheid: meten de items in de schaal samen eenzelfde
construct? Verschillende items van de schaal zijn intern consistent. Dit wordt onderzocht
a.d.h.v. de Cronbach’s alpha analyse.
Cronbach’s alpha analyse: manier om vast te stellen of meerdere items samen 1 schaal mogen
vormen. Het wordt ook wel een betrouwbaarheidsanalyse of de interne consistentie
betrouwbaarheid genoemd. Cronbach’s alpha zelf is de maatstaf. Dit wordt getoetst op basis
van onderlinge correlatie van de verschillende items. Het is sterk afhankelijk van het aantal
items.
, Er is hier een kanttekening: je zou denken dat 0,83 beter is dan 0,43, maar dit is schijn door
het verschil tussen het aantal items. Daarom moet je de correlatie van elk item uitzonderlijk
onderzoeken.
Van zodra er beslist is met welke schaal een variabele of construct zal worden gemeten is, is
het belangrijk om de validiteit en betrouwbaarheid na te gaan.
De meetschaal van een Likertschaal is een controversieel onderwerp waarover vele
wetenschappelijke onderzoek bestaat. Een Likertschaal waarmee mensen zichzelf meten is
waarschijnlijk ordinaal. De beoordelingen zijn afhankelijk van subjectieve gevoelens en hoe
men die in kaart brengt op de punten van de responsschaal. Verschillen tussen beoordelingen
van elk persoon moeten zelfde interval hebben. Voorbeeld: ik vind deze winkel heel leuk,
iemand zegt neutraal en iemand anders zegt heel leuk.
Voorbeeld: De operationele definitie van klanttevredenheid kan bijvoorbeeld antwoord zijn
op 3 vragen.
1. Ik vind de winkel leuk? Likert schaal: helemaal niet eens – helemaal eens
2. Hoe vaak bent u de afgelopen zes maanden in deze winkel geweest: open vraag
3. Uitstekende klantenservice ontvangen: ja-neen vraag
1.2.9. Steekproef
Steekproef: een kleinere set van entiteiten uit populatie. Subgroep of deel van de populatie
die gebruikt wordt voor een onderzoek. We willen een vraag beantwoorden met behulp van
gegevens. Het probleem is dat je conclusie wil trekken over de hele populatie. Het is echter
onhaalbaar om gegevens te verzamelen van elke entiteit binnen die populatie. Een populatie
verwijst naar het totaal aantal dingen waarin we geïnteresseerd zijn.
Paramater: de waarde in de populatie. Het is iets dat de populatie samenvat. Voorbeeld:
gemiddelde klanttevredenheid in de populatie wordt een parameter genoemd. De parameters
zijn iet dat we alleen maar kunnen schatten op basis van de steekproefgegevens.
Statistiek: de gegevens die in steekproef kan gebruikt worden om statistiek te berekenen. Het
is iets dat de steekproef samenvat. Voorbeeld: gemiddelde klanttevredenheid in steekproef
wordt een statistiek genoemd. We kunnen dit gebruiken om te schatten wat de waarde was
geweest als we de gegevens van de hele populatie hadden verzameld. Statistieken worden
rechtstreeks berekend op de gegevens die we verzamelen bij de steekproef.