Statistiek
samenvattend
2023-2024
e colleges
Prof. Lieven Pauwels
,Inhoudsopgave
HOOFDSTUK 1: DE LOGICA VAN STATISTISCHE VERGELIJKINGEN EN ANALYSES....................................................................4
1. Inleiding: waarom data analyseren ?..................................................................................................................................4
2. Geschiedenis van de statistiek in een notendop.................................................................................................................4
3. Het gebruik van statistiek....................................................................................................................................................4
4. Theorieconstructie in een oogopslag..................................................................................................................................5
5. Het proces van wetenschappelijk onderzoek......................................................................................................................5
6. Onderzoek: bewegen van theorie naar data en terug........................................................................................................6
HOOFDSTUK 2: INLEIDENDE BEGRIPPEN.............................................................................................................................. 7
1. Inleiding...............................................................................................................................................................................7
2. Beschrijven, schatten en veralgemenen als statistische bedrijvigheid...............................................................................7
3. Statistiek en de beantwoording van beschrijvende en verklarende onderzoeksvragen....................................................8
4. Statistische eenheden..........................................................................................................................................................8
5. Univariate, bivariate en multivariate beschrijvende analyse..............................................................................................9
6. Meetniveaus van variabelen...............................................................................................................................................9
7. Discrete en continue variabelen........................................................................................................................................10
8. De datamatrix als input voor statistische analyses...........................................................................................................11
9. Een handige afrondingsregel voor statistische gegevens.................................................................................................11
10. Sommatieteken...............................................................................................................................................................11
HOOFDSTUK 3: DE UNIVARIATE BESCHRIJVENDE STATISTIEK............................................................................................. 11
1. De verdeling van één kenmerk over absolute en relatieve frequenties...........................................................................11
2. Indeling in klassen van kenmerken...................................................................................................................................12
3. Parameters van centraliteit ≈ CENTRUMMATEN..............................................................................................................13
4. Parameters van spreiding ≈ SPREIDINGSMATEN..............................................................................................................14
5. Grafische voorstellingen (pg 43 – 50)................................................................................................................................16
6. Opgelet met grafische voorstellingen...............................................................................................................................17
7. Parameters van vorm........................................................................................................................................................17
8. Boxplot (v.a. ordinaal meetniveau) = vijf-getallensamenvatting......................................................................................18
Hoofdstuk 4: een inleiding in kansrekenen........................................................................................................................ 18
1.Inleiding.............................................................................................................................................................................18
2.Kansdefinities.....................................................................................................................................................................18
3.KAnsregels.........................................................................................................................................................................19
4.Permutaties en combinaties..............................................................................................................................................20
5.KAnsvariabelen en de binomiale verdeling.......................................................................................................................20
6.De binomiale verdeling......................................................................................................................................................21
HOOFDSTUK 5: DE STANDAARDNORMALE VERDELING EN DIENS EIGENSCHAPPEN............................................................22
1. Inleiding.............................................................................................................................................................................22
2. De normale en standaardnormale verdeling (pg 106)......................................................................................................22
3. Van normale verdeling naar standaardnormale verdeling...............................................................................................22
1
, 4. Z-scores en het gebruik van de tabel van standaardnormale verdeling...........................................................................22
HOOFDSTUK 6: INLEIDING TOT DE BIVARIATE BESCHRIJVENDE STATISTIEK........................................................................23
1. Inleiding: causale relaties vs. statistische relaties.............................................................................................................23
2. Causaliteit op een bierviltje...............................................................................................................................................23
3. symmetrische en asymmetrische relaties tussen variabelen............................................................................................24
4. doelstellingen van de bivariate beschrijvende statistiek..................................................................................................24
5. bivariate frequentieverdelingen voor lage en hoge meetniveaus....................................................................................24
6. Verantwoord kiezen tussen een reeks van associatiematen............................................................................................25
HOOFDSTUK 7: BIVARIATE ASSOCIATIEMATEN VOOR NOMINALE EN ORDINALE VARIABELEN............................................25
1. Het percentageverschil als associatiemaat op nominaal niveau......................................................................................25
2. De odds ratio als associatiemaat op nominaal niveau (kruisproduct ratio)......................................................................26
3. Chi-kwadraat (X²) als associatiemaat op nominaal niveau...............................................................................................26
4. Phi ()...................................................................................................................................................................................27
5. Cramer’s V.........................................................................................................................................................................27
6. Gamma als associatiemaat op ordinaal niveau (nt zelf berekenen).................................................................................28
7. de rangcorrelatiecoëfficiënt van Spearman (rho) & Kendall’s Tau-b................................................................................28
HOOFDSTUK 8: CORRELATIE- EN REGRESSIEANALYSE........................................................................................................ 29
1. Symmetrische associatiematen voor kenmerken op metrisch niveau.............................................................................29
2. De bivariate lineaire regressieanalyse als asymmetrische analysetechniek.....................................................................30
HOOFDSTUK 9: INFERENTIËLE STATISTIEK EN VARIANTIEANALYSE.....................................................................................32
HOOFDSTUK 10: DE PARTIËLE CORRELATIE ALS INTRODUCTIE TOT DE MULTIVARIATE STATISTIEK.....................................40
1. Inleiding.............................................................................................................................................................................40
2. de partiële correlatiecoëfficiënt (symmetrische maat).....................................................................................................41
3. de berekening van de partiële correlatiecoëfficiënt adhv regressievergelijkingen (zie blz. 233).....................................41
4. berekening van de partiële correlatiecoëfficiënt adhv rekenkundige formules (zie blz. 207)..........................................42
5. suppressie-effect...............................................................................................................................................................42
HOOFDSTUK 11: REGRESSIEANALYSE MET TWEE ONAFHANKELIJKE VARIABELEN...............................................................42
1. inleiding.............................................................................................................................................................................42
2. de noodzaak voor het meten van controlevariabelen......................................................................................................43
3. de vergelijking tussen twee bivariate vs. één meervoudige regressie..............................................................................43
4. uitbreiding naar een meervoudige regressieanalyse (extensie) p250..............................................................................43
5. het relatieve belang van elke onafhankelijke variabele....................................................................................................43
6. berekening van de gestandaardiseerde gewichten ( & )...................................................................................................44
7. veronderstellingen bij het uitvoeren van een lineaire regressieanalyse voorwaarden! .................................................44
8. Controle op regressievoorwaarden...................................................................................................................................45
9. de limieten van meervoudige regressie............................................................................................................................46
HOOFDSTUK 12: COMPLEXERE RELATIES TUSSEN VARIABELEN..........................................................................................46
1. inleidende begrippen.........................................................................................................................................................46
2. mediatorvariabele / mediërende variabele......................................................................................................................46
2
,3. moderatorvariabele of het interactie-effect.....................................................................................................................47
4. de padanalyse (zie blz. 282)...............................................................................................................................................47
5. berekening van de totale en indirecte effecten in de pad-analyse...................................................................................48
3
,HOOFDSTUK 1: DE LOGICA VAN STATISTISCHE
VERGELIJKINGEN EN ANALYSES
1. INLEIDING: WAAROM DATA ANALYSEREN ?
Wetenschap gaat over het ontdekken van patronen en processen
Het proces van wetenschappelijk onderzoek voorziet in een methode om zaken die ons op een
systematische manier interesseren, te bestuderen.
Dit proces vereist bewijs om een argument te ondersteunen
Een methode om bewijs te verkrijgen = statistische analyse
- Statistische analyse = de systematische studie van kwantitatieve data geassocieerd met
bestudeerde studieobject
2. GESCHIEDENIS VAN DE STATISTIEK IN EEN NOTENDOP
- 6e eeuw v.C.: de vroegste vorm van statistische analyse: door PYTHAGORAS: het gemiddelde
(voorloper van de beschrijvende statistiek)
- 200 v.C.: waarschijnlijkheidsanalyses (inferentiële statistiek)
- B. Pascal (1623-1662) en C. Huygens (1629-1695): kansberekening in de vorm van gokken
(probability theorie) voorloper van de moderne statistiek
- 19e- 20e eeuw: vele andere beschrijvende statistieken
- Political arithmetics: term voor de statistiek; op basis van gegevens antwoorden op problemen
van staat te verkrijgen (eerste politicus die van statistiek gebruikmaakte was John Graunt, 1662
sterftecijfer in Londen)
- Statistics: term uitgevonden door Eberhard August Wilhelm von Zimmerman in ‘A Political
Survey of the Present State of Europe’ (1787)
Modern gebruik van de term te danken aan Fisher (1925)
3. HET GEBRUIK VAN STATISTIEK
Statistiek in de criminologie = een methode om data die verzameld werden in het proces van een
wetenschappelijk onderzoek, te bestuderen.
Deze methode stelt onderzoekers in staat om logische na te denken over data en om 1 of
2 dingen te doen:
Beschrijvende statistiek: komen tot een beknopte synthese of
betekenisvolle conclusie over de data
Data analyseren
Inferentiële statistiek: karakteristieken van grote groepen afleiden,
gebaseerd op data van kleinere groepen of steekproeven
4
,4. THEORIECONSTRUCTIE IN EEN OOGOPSLAG
4.1 Wat is theorie ?
Een theorie: bestaat uit beweringen over de relaties of associaties tussen sociale fenomenen
zoals gebeurtenissen en eigenschappen van onderzoeksobjecten, vaak individuen of groepen,
buurten, landen… (bv. theorieën die stellen hoe criminaliteit wordt aangeleerd)
Explanandum: wat we willen verklaren Jan is na 2 min lopen uitgeput.
Explanans: hoe het verklaard kan worden Jan heeft geen conditie.
DOEL = verklaringen ontwikkelen waarom dingen zijn zoals ze zijn. En om via inzicht in
processen een diepere causale verklaring te bekomen.
Een theorie biedt een sterke fundering voor deze verklaringen doordat zij er vragen over
stelt. (bv. wat is de essentie? Wat betekent het? Waarom zijn dingen zoals ze zijn?)
4.2 Theorie en onderzoek
Inductie: van data naar theorie. Onderzoekers kijken naar een sociaal fenomeen en formuleren
beweringen over waarom fenomenen op een bepaalde wijze werken “Gevaarlijk”
We kijken te veel naar wat we willen zien.
We veronderstellen dat als we honderd keer hetzelfde hebben geobserveerd, het de
101e keer ook zo zal zijn. Maar dat is absoluut geen garantie.
Deductie: van theorie naar data. De onderzoeker heeft een veronderstelling over hoe iets in
mekaar zit, hij kan dan een experiment creëren. De resultaten van dit experiment zullen ofwel
de veronderstelling ondersteunen of weerleggen.
In de criminologie wordt meestal een combinatie van de twee toegepast.
5. HET PROCES VAN WETENSCHAPPELIJK ONDERZOEK
Theorie is het startpunt van het proces
Theorie wordt gedreven door observaties en leidt onderzoekers tot het initiëren van het
onderzoeksproces door het formuleren van een centrale onderzoeksvraag en
onderzoeksdeelvragen.
1e stap in het proces van wetenschappelijk onderzoek:
= Observatie en nieuwsgierigheid
2e stap:
= Centrale onderzoeksvragen: geven exact de focus van de studie weer en zijn de
drijvende gedachte achter een onderzoeksproject.
3e stap:
5
, = Onderzoeksdeelvragen: delen de centrale onderzoeksvraag in kleinere delen die
makkelijker onderzocht kunnen worden.
6. ONDERZOEK: BEWEGEN VAN THEORIE NAAR DATA EN TERUG
Onderzoek is de methode om een theorie te toetsen en valideren
Onderzoek is een wetenschappelijke, systematische studie om nieuwe informatie te ontdekken of om
de validiteit van theorieën die eerder werden ontwikkeld, te toetsen.
6.1 Hypothesen formuleren
Hypothesen = vragen of verklaringen waarvan de antwoorden de theoretische proposities van
het onderzoek ondersteunen of weerleggen.
De onderzoekshypothese is een veronderstelling die je wilt toetsen, geformuleerd in de richting
van de verwachtingen van de onderzoeker.
Bv. “Er is een statistisch significante correlatie tussen de shift van een politieman of -
vrouw en de waarschijnlijkheid dat hij of zij dodelijk geweld zal gebruiken.”
De nulhypothese is de hypothese dat er geen verband bestaat tussen de kenmerken die men
onderzoekt.
Bv. “Er is geen statistisch significant verschil tussen een politieman of -vrouw
zijn/haar shift en de waarschijnlijkheid dat hij of zij dodelijk geweld zal gebruiken.”
6.2 Constructie van het onderzoeksdesign
Bepalen van de onderzoeksmethode (experiment, survey…)
Bepalen hoe het onderzoek moet benaderd worden
…
6.3 Conceptualisering
Concepten = termen waarover in het algemeen een consensus bestaat en kunnen betrekking
hebben op een kenmerk, fenomeen of een groep van onderling gerelateerde fenomenen.
6.4 Operationaliseren
Operationaliseren = het proces van het vertalen van een concept in een variabele die kan gezien
en getoetst worden, door het omschrijven hoe het concept kan gemeten worden.
Bv. armoede kan geoperationaliseerd worden door de beslissing dat het inkomen
wordt gebruikt om een persoon zijn/haar relatief niveau van armoede te bepalen.
6.5 Data verzamelen (men begint vaak fout intuïtief direct met deze stap…)
Alle beslissingen betreffende het onderzoek moeten gemaakt zijn:
De onderzoeker zou een weloverwogen theoretisch model moeten hebben.
De onderzoeker moet een duidelijk en compleet onderzoeksmodel hebben waarin
staat hoe data verzameld en geanalyseerd moet worden.
Concepten moeten geoperationaliseerd zijn.
6
, Primaire data: originele data
Bv. jij hebt een vragenlijst opgesteld, jij hebt mensen bevraagd
Secundaire data: bestaande data (bv. parketstatistieken)
6.6 Conclusies trekken
Proces van statistische analyse en wetenschappelijk onderzoek, stopt niet aan het einde van de
analyse
Men gaat na of de resultaten van de statistische analyse de hypothesen ondersteund!!
In deze stap wordt teruggekeerd naar de theorie
6.7 Communiceren van resultaten
In een academisch tijdschrift of boek
In paper presentaties op professionele conventies
Belangrijk om resultaten zoveel mogelijk te communiceren, ook al zijn deze negatief.
HOOFDSTUK 2: INLEIDENDE BEGRIPPEN
1. INLEIDING
Objecten = onderzoekseenheden = de personen of zaken over wie je iets zegt of een uitspraak
doet
Bv. gemiddelde leeftijd van studenten 1e bach is 19,7 jaar
Kenmerken (leeftijd, geslacht, studiekeuze etc.) = variabelen
Een onderzoekspopulatie = de verzameling van individuen waarover we een uitspraak willen
doen. (bv alle Belgen)
Een steekproef = een staal uit de onderzoekspopulatie.
De respondenten zijn de uiteindelijk bevraagde personen, dus een deelverzameling van de
onderzoekspopulatie.
Een steekproef is representatief als een kenmerk van een onderzoekspopulatie evenveel
voorkomt in de steekproef + de steekproef moet toevalligerwijs (at random) samengesteld zijn.
2. BESCHRIJVEN, SCHATTEN EN VERALGEMENEN ALS STATISTISCHE
BEDRIJVIGHEID
STATISTIEK = het geheel van regels en procedures om gemeten kenmerken te verwerken
2 soorten statistiek:
1. Beschrijvende statistiek: weergeven van kenmerken die voorkomen in een
onderzoekspopulatie of in een steekproef, wanneer we niet alle eenheden kunnen
bevragen
2. Inferentiële statistiek: het veralgemenen van de verzamelde gegevens in een
steekproef naar de volledige populatie
7
, (1) Beschrijvende statistiek
Staat stil bij de vraag:
‘Hoe kunnen grote hoeveelheden van gegevens zo overzichtelijk mogelijk worden
gepresenteerd zonder dat er (veel) informatie verloren gaat?’
Men is onderhevig aan 2 beperkingen:
o Beschrijvende statistiek biedt een momentopname die uitsluitend geldig is
voor de onderzochte groep
o Beschrijvende statistiek laat het niet toe om causaliteit vast te stellen
Samenhang van kenmerken onderzoeken a.d.h.v. hypothesen
Hypothesen toetsen via de inferentiële statistiek
(2) Inferentiële statistiek: bevindingen veralgemenen naar de onderzoekspopulatie.
HYPOTHESEN zijn specifieke stellingen betreffende de (causale) relatie tussen twee of meer
concepten, die afgeleid zijn uit de theorie.
Onderzoekshypothese = de betrokken stelling geformuleerd in positieve zin, in de
richting van de verwachtingen van de onderzoeker.
Nulhypothese = de hypothese dat er geen verband bestaat.
Alternatieve hypothese = de opgaande onderzoekshypothese nadat de nulhypothese
is verworpen.
3. STATISTIEK EN DE BEANTWOORDING VAN BESCHRIJVENDE EN
VERKLARENDE ONDERZOEKSVRAGEN
Onderzoeksvragen kunnen beschrijvend, verkennend of verklarend zijn:
Beschrijvende onderzoeksvraag: de kwantitatieve beschrijving van een fenomeen (aantonen en
beschrijven), geeft geen verklaring voor de bekomen resultaten.
Verkennende onderzoeksvraag: aftasten van (nieuwe) veronderstellingen, gesitueerd tussen
beschrijvende en verklarende onderzoeksvragen.
Verklarende onderzoeksvraag: gericht op het verklaren van geobserveerde verschillen of
veranderingen in uitkomstvariabelen. Wil een statistische verklaring bieden voor de
geobserveerde verschillen tussen eenheden.
4. STATISTISCHE EENHEDEN
Statistische eenheden = de onderzoekseenheden waar men een uitspraak over wil doen.
Deze eenheden kan men beschrijven a.d.h.v. een aantal kenmerken waarin de
onderzoekers geïnteresseerd zijn Variabelen
Variabelen = de kenmerken van statistische eenheden die variëren (als een kenmerk
niet varieert, is er sprake van een constante en niet bruikbaar).
8
, o De eenheden waarover uitspraken gedaan worden, dienen te verschillen = ze
dienen variabiliteit of spreiding te tonen
5. UNIVARIATE, BIVARIATE EN MULTIVARIATE BESCHRIJVENDE
ANALYSE
Het soort analyse je uitvoert, is mede afhankelijk van hoeveelheid variabelen die je bij je analyse wilt
betrekken:
Univariate analyse = een analyse van één kenmerk dat varieert.
Bivariate analyse = we zijn geïnteresseerd in de samenhang tussen twee kenmerken.
X&Y
Multivariate analyse = een analyse van meer dan 2 variërende kenmerken.
6. MEETNIVEAUS VAN VARIABELEN
De wijze waarop je een variërend kenmerk meet, bepaalt het meetniveau van de variabele
Hoe hoger een meetniveau, hoe meer mogelijkheden de onderzoeker ter zijner beschikking
heeft.
Er zijn meer opties voor de beschrijving van kenmerken gemeten op hogere meetniveaus dan
voor de bestudering van kenmerken op lagere niveaus.
Er zijn 4 meetniveaus:
6.1 Nominaal meetniveau (categorisch)
Brengt de kenmerken van de onderzoekseenheden onder in elkaar uitsluitende categorieën.
De waarde die een variabele kan aannemen heeft de betekenis van een naam, een categorie
Het laagste meetniveau
Er is geen sprake van rangorde (bv. man of vrouw)
Exclusiviteit: categorieën mogen elkaar niet overlappen (elkaar uitsluitende categorieën)
Exhaustiviteit: het classificatiesysteem moet àlle onderzoekseenheden kunnen classificeren
Er kunnen geen statistische bewerkingen worden uitgevoerd
6.2 Ordinaal meetniveau (categorisch)
Categorieën zijn ordenbaar
Er kunnen geen statistische bewerkingen uitgevoerd worden
We zijn dus niet alleen in staat de mensen in categorieën in te delen, maar deze ook onderling
te ordenen of rangschikken
Categorieën kunnen op een continuüm worden geplaatst
“meer of minder”, “groter of kleiner”
We weten dat A groter is dan B, maar we kunnen niet aangeven hoeveel
Bv. lage status – middelmatige status – hoge status
- Categorische variabelen kunnen dichotoom of polytoom zijn:
Dichotoom: variabele die slechts twee waarden kan aannemen (bv. goed of fout)
9