STATISTIEK II: MULTIVARIATE ANALYSE 2021
DEEL 1: PROBLEEMSTELLING
HOOFDSTUK 1: PROBLEEM NAAR ANALYSE
1. Notatie
Type onderzoeksvragen: probleemkenmerk, probleemrelatie, datareductie
Types variabelen
o Manifeste
Continue: kwantitatieve (interval- of ratio niveau)
Discrete: dichotoom of polytoom // nominaal of ordinaal
o Latente
Types samenhang
o Symmetrisch= zonder causale richting aangeduid
o Lineair symmetrisch= causaal effect met constante verandering in y bij toename x
o Niet-lineair asymmetrisch= causaal effect met graduele verandering
o Interactie-effect = combinatie van variabelen zorgt voor asymmetrisch causaal effect
2. Sociaalwetenschappelijke probleemstelling en hun basisformat (SIRIS)
Directe causaliteit
Schijnbare causaliteit: een externe variabele (i.e. causale antecedent) zorgt in werkelijkheid
voor causaliteit
» Bivariate regressie ‘verdwijnt’ na controle (= modelspecificatie)
Indirecte causaliteit: intermediaire variabele (tussenin) zorgt voor de causaliteit
» Bivariate regressie ‘verdwijnt’ na controle (= modelspecificatie)
Replicatie: na controle blijft samenhang hetzelfde
Interactieve structuur: gecombineerd effect brengt causaliteit (niet additief onderling)
Suppressie van samenhang: aanwezig suppressor doet causaliteit verdwijnen
» Twee tegengestelde effecten onderdrukken samenhang
» Bivariate regressie ‘verdwijnt’ na controle (= modelspecificatie)
DEEL 2: BASIS STATISTIEK
HOOFDSTUK 2: METEN EN MEETNIVEAUS
1. Wat is meten? Terminologie
Equivalentenklasse = deelverzameling uit populatie die observaties met gelijkwaardig
kenmerk groepeert
Meetschaal = elke klasse krijgt een waarde (7 jaar, 2 meter, 16 liter, …)
Kwalitatieve waarden of modaliteiten: namen
Kwantitatieve waarden: cijfers (die indien nodig werkelijke hiërarchie of intrinsieke rangorde
weerspiegelen)
2. Eigenschappen van meetschalen
Ordinaal: ordenbaarheid die hiërarchie impliceert
Interval: meeteenheid die ‘afstand’ tussen bepaalde meetwaarden uitdrukt (// intensiteit
bestudeerd kenmerk)
Ratio: waarde 0 impliceert afwezigheid (i.e. aanwezigheid absoluut nulpunt)
3. Meetniveaus (rangorde tussen meetschalen)
Nominaal: categorisch of discreet, met onderling inwisselbare categorieën
, Ordinaal: categorisch of discreet, hiërarchie tussen categorieën
Interval: continu, met meeteenheid
Ratio: continu, met meeteenheid en absoluut nulpunt
Dummy-variabelen [0,1]: dichotoom categorisch MAAR meeteenheid en absoluut
nulpunt DUS ratiovariabele
HOOFDSTUK 3: FREQUENTIEVERDELINGEN & GRAFISCHE
VOORSTELLINGEN
1. Nominale variabelen
Frequentietabel
o Absolute frequentie (Fi): aantal waarnemingen in een klasse
o Relatieve frequentie (fi): Fi gedeeld door totaal aantal waarnemingen
Grafisch: histogram & cirkeldiagram
2. Ordinale variabelen
Frequentietabel
o Absolute cumulatieve frequentie (Kxi): Fi klasse + Fi vorige klassen
o Relatieve cumulatieve frequentie: fi klasse + fi vorige klassen
Grafisch: staafdiagram, histogram, cumulatieve frequentiefunctie
3. Interval- en ratiovariabelen
Niet-in-klassen gegroepeerde gegevens
o Frequentietabel (als waargenomen waarden (k) niet te omvangrijk is)
o Grafisch: staafdiagram, frequentiepolygoon (want continu), histogram, cum. freq. functie
Klassen gegroepeerde gegevens (= waarnemingsklassen)
o Bepaling van de klasse
» STAP 1: Variatiebreedte (V) of range = max Xi – min Xi
» STAP 2: Aantal klassen bepalen (enkel tussen 5 en 15)
» STAP 3: Klasse lengte, liefst van gelijke lengtes (V/aantal klassen)
» STAP 4: Klassemidden (xj) → bepaalt ook klassegrenzen
Discrete variabelen: wordt vervangen door continu interval, bv. 23 wordt
[22,5;23,5]
Continue variabelen: blijven hetzelfde
o Grafisch: frequentieveelhoek, cumulatieve freq. Diagram
HOOFDSTUK 4: UNIVARIATE STATISTISCHE PARAMETERS
1. Maatstaven voor ligging (op x-as) en centrale tendens (representatie voor ‘hele’ verdeling)
NOM: Modus (x0) en modale klasse [midden van modale klasse is modus]
» Zeer makkelijk MAAR niet per se uniek en te geconcentreerd
ORD: Mediaan en kwantielen (kwartielen, decielen, percentielen)
» Ongevoelig voor uitschieters, heeft voor- en nadelen
Gemiddeldes
o INT: Rekenkundig
o RATIO (+): Meetkundig
, o RATIO: Harmonisch
2. Maatstaven voor spreiding
Variatiebreedte (V) of range: grootste min kleinste waarneming
Kwantielafstand: interval tussen waarden van kwantielen (bv; interkwartiel, - deciel, …)
Momenten (m) = rekenkundig gemiddelde van ([afwijkingsscores tot een bepaald punt],
wordt specifieker met elke hogere macht)
o Gewone momenten: bepaald punt of norm, is nul
o Centraal moment van de eerste rang: bepaald punt of norm, is gemiddelde
Gemiddelde absolute afwijking (e): in absolute cijfers dus tekens vallen weg
Variatie (SS): som van alle kwadrateerde afwijkingsscores t.o.v. gemiddelde
[Variatiecoëfficiënt: s/rekenkundig gemiddelde]
o Variantie (s2) = SS/n [standaardafwijking (s) = wortel variantie]
o Gestandaardiseerd: z-score = [Xi- rekenkundig gemiddelde]/s
(geeft aantal standaardafwijkingen boven of onder gemiddelde weer)
3. Maatstaven voor symmetrie (vorm): informatie over scheefheid verdeling
Volledige symmetrie: modus/mediaan/gemiddeldes vallen samen en zijn spiegel-as
Positieve asymmetrie: rechtsscheef dus helt naar (L)inks [negatief andersom]
Empirische coëfficiënt Pearson: vergelijking mediaan en rek.gem. t.o.v. s
o Positief: positief asymmetrisch
o Nul: symmetrisch
o Negatief: negatief asymmetrisch
Coëfficiënt Yule & Kendall: zelfde resultaten als empirische Pearson
Oneven centrale momenten (tot 1e,3e,5e,…macht): zijn bij symmetrie gelijk aan nul
Coëfficiënt Fischer (g1): derde centraal momenten (m 3)/s3
[g>0: positieve asymmetrie, g<0 negatieve asymmetrie]
Coëfficiënt Pearson (b1): kwadrateren van Fisher (geeft geen richting want altijd positief)
4. Maatstaven voor kurtosis (vorm): platykurtisch, mesokurtisch, leptokurtisch
Coëfficiënt Pearson (b2): m4/s4 → =3: meso, >3: lepto, <3: platy
Coëfficiënt Fisher (g2): Pearson-3