Resume

Samenvatting Multivariate data-analyse

Name: Samenvatting Multivariate data-analyse
SKU: doc_1132513
Rating: 4.62 (13 reviews)
Author: amkeweyens

13 revues

1217 vues 126 fois vendu

Cours
Multivariate Data-analyse

Établissement
Vrije Universiteit Brussel (VUB)

Volledige samenvatting van de hoorcolleges voor het vak Multivariate Data-Analyse. Lesnotities en powerpoint van alle hoofdstukken werden hier in verwerkt!

[Montrer plus]

Aperçu 10 sur 301 pages

Voir l'exemple

Publié le 26 mai 2021
Nombre de pages 301
Écrit en 2020/2021
Type Resume

13 revues

Par: jandeblock • 8 mois de cela

Par: aliciamichaux • 8 mois de cela

Par: ugzdafina • 1 année de cela

Par: jennavanisterdael • 4 mois de cela

Par: angelasubandrio • 1 année de cela

Par: celinstudent • 2 année de cela

Par: julesjeuniaux • 2 année de cela

Afficher plus de commentaires

amkeweyens Membre depuis 5 année 617 documents vendus

Multivariate data-analyse

HOOFDSTUK 1: Inleiding

1. Waarom data-analyse?

- Data- analyse is noodzakelijk voor psychologen
➔ Cf. data-analyse in de media: in de media zien we veel data. Achter veel uitspraken in
de media zit data-analyse (bv werkloosheid met 20% gestegen).
➔ Begrip van en kritische instelling tegenover vakliteratuur (zeker in de psychologie
moeten we voorzichtig zijn tov alles wat in de vakliteratuur staat want we zitten
momenteel in de replicatie crisis).
➔ Om zelf data te kunnen verzamelen/analyseren (bv. HRM psychologen kunnen
werknemers bevragen omtrent hun jobtevredenheid. De antwoorden daarvan moeten
ze dan statistisch analyseren om uitspraken te kunnen doen).

- In veel artikels die je online leest zie je dat er impliciet data-analyse verwerkt is:
➔ Bv. bedrijfsdata vaakst gestolen door jonge mannen: om deze uitspraak te kunnen
doen is data verzameld, hierop zijn statistische tests uitgevoerd.
➔ Bv. pijnstillers bevatten gevaarlijk veel zout: op hoeveel mensen is dit getest? Welke
kritische waarden zijn overschreden?...
➔ Bv. de dutter en het namiddagtype: men is er statistisch achter gekomen dat er
verschillende chronotypes bestaan.
➔ In al deze onderzoeken is statistiek een tool!

1

,- Rapportage in wetenschappelijke artikels
➔ Mooi presenteren van data is zeer belangrijk! Er bestaan miljoenen wetenschappelijke
artikels. Dit betekent dat je nooit alle artikels zal kunnen lezen over het onderwerp
waarin je geïnteresseerd bent. Je zal dus een keuze moeten maken en meestal leest
men de titel, leest men vluchtig het abstract en kijkt men naar de beeldjes (= een
correcte weerspiegeling van uw data-analyse op een grafische wijze).
➔ Wat je hieronder ziet is iets wat je letterlijk kan vinden in een wetenschappelijk
artikel. Je ziet veel lettertjes, symbooltjes,... die je niets zullen zeggen als je niks kent
van statistiek. Als dit in een artikel zou staan waarmee je mensen probeert te
overtuigen om zich te laten vaccineren, dan zullen die mensen hier niks van snappen
en dus ook niet overtuigd zijn. Als psycholoog leer je wat al die letters, symbolen,
cijfers,... betekenen en dan kan je ook aan anderen uitleggen waarom dit overtuigend
bewijs is voor iets.

- Data-analyse helpt psychologen dus om:
➔ Data te organiseren (grafieken,...) => dataset goed zetten om er bepaalde statistische
analyses op te kunnen doen. Als je dit niet doet, krijg je foute cijfers en zal je
inferentie dus ook fout zijn. Dan krijg je foute conclusies!
➔ Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten).
➔ Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve
statistiek, verklaren).

2

,2. Inductieve statistiek

- Wat is inductieve statistiek?
➔ We zijn geïnteresseerd in een bepaalde populatie. Die kunnen we niet volledig
observeren dus we nemen daarvan een aselecte steekproef.
➔ Op die steekproef kunnen we beschrijvende statistiek toepassen en daardoor kunnen
we ook specifieke uitspraken doen over die groep. Door inferentiële/inductieve
statistiek te gebruiken kan je obv die specifieke uitspraken, ook uitspraken doen over
de populatie. Je wil je uitspraak over de steekproef veralgemenen naar de populatie.
Bij inductieve statistiek wil je dus algemene uitspraken doen (bv. je bevraagt 20
studenten uit de eerste bachelor en je merkt dat 2 daarvan problemen hebben met
plannen. Dit is een voorbeeld van beschrijvende statistiek. Op basis van deze
steekproef kunnen we dan besluiten 10% van de studenten in de 1e bach problemen
hebben met planning. Dit is inductieve statistiek).

- Van steekproef naar populatie
➔ Om van de steekproef naar de populatie te gaan, zullen we een aantal variabelen
moeten schatten (bv. komt het gemiddelde van mijn steekproef overeen met het
populatie gemiddelde µ).

3

, ➔ Bv. je neemt een steekproef en berekent een gemiddelde 𝑥van 50. Dit is iets
beschrijvend en je wil weten of dit overeenkomt met het populatiegemiddelde. Door
de literatuur te bekijken, heb je de hypothese dat het populatiegemiddelde µ= 80. Dan
is het de bedoeling dat je gaat kijken of er een significant verschil is tussen je
populatiegemiddelde en het gemiddelde dat je getrokken hebt (zie foto hieronder).

- Theorie => hypothese => steekproef => steekproefgrootheden
➔ Bij inductieve statistiek vertrekken we vaak vanuit een bepaalde theorie. Vanuit die
theorie stellen we een hypothese op. We trekken een steekproef uit de populatie,
berekenen steekproefgrootheden (= de dingen die je kan berekenen obv steekproef
gegevens). Elke keer als we een nieuwe steekproef trekken zullen deze
steekproefgrootheden anders zijn (bv. in elke steekproef zal het gemiddelde, sd,...
anders zijn). En kunnen we verder onze theorie uitbouwen. Steekproefgrootheden zijn
toevalsvariabelen en hebben een steekproevenverdeling.

- Steekproefgrootheden:
➔ Bereken je om via inductie uitspraken te kunnen doen over de populatie (en zo
eventueel uw theorie opnieuw aan te passen).
➔ Een steekproefgrootheid wordt ook een statistiek of een statistische grootheid
genoemd: een maat gebaseerd op de gegevens van de steekproef (bv. rekenkundig
gemiddelde, proportie,...).
➔ Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling (een
steekproevenverdeling):
➢ Iedere onderzoeker trekt een andere steekproef dus het gemiddelde, de sd, …
die elke onderzoeker krijgt zal anders zijn. Daarom spreken we van een
steekproevenverdeling.
➢ Stel: random steekproef 1 en we berekenen 𝑆1, random steekproef 2 (zelfde n)
en we berekenen 𝑆2, etc tot 𝑆𝑛: 𝑆1, 𝑆2,𝑆3,𝑆4,...,𝑆𝑛
➢ De verdeling van deze steekproefgrootheden = steekproevenverdeling.

4

,- Steekproefverdeling vs steekproevenverdeling
➔ Steekproefverdeling (= sample distribution)
➢ Frequentieverdeling van de uitkomsten van de steekproef.
➢ = empirisch en gekend.
➔ Steekproevenverdeling (= sampling distribution)
➢ Kansverdeling van alle mogelijke waarden die een steekproefgrootheid (voor
alle mogelijke verschillende steekproeven) kan aannemen.
➢ = theoretisch en kunnen we enkel benaderen: we kunnen niet alle
steekproeven nemen. Om dit te benaderen hebben we dus statistiek nodig!

- Stel steekproefgrootheid = 𝑥
➔ Wanneer men herhaaldelijk toevallige steekproeven met grootte n
trekt uit een normaal verdeelde populatie met gemiddeldeµ en
standaardafwijking σdan is de steekproevenverdeling van het
steekproefgemiddelde normaal verdeeld.

➔ Centrale limietstelling: wanneer men herhaaldelijke toevallige
steekproeven met grootte n trekt uit een willekeurig verdeelde
populatie met gemiddelde µ en standaardafwijking σ en indien n
voldoende groot (vuistregel n ≥ 30) is, dan benadert de
steekproevenverdeling van het steekproefgemiddelde een
normaalverdeling (hoe groter de steekproef, hoe meer men de normaalverdeling
benadert).

5

,- Centrale limietstelling:
➔ De centrale limietstelling stelt dat als je voldoende steekproeven trekt, je de
normaalverdeling gaat benaderen. Hoe groter de steekproef wordt, hoe meer je het de
normaalverdeling zal benaderen. Zie bv de afbeelding hieronder, bij n=10 is er meer
een normaalverdeling dan bij n=4. Bij n=30 zien we dan in alle gevallen de
normaalverdeling voorkomt (zie rechts vanonder), vandaar de vuistregel: n ≥ 30.

- https://demonstrations.wolfram.com
➔ Dit is software die je helpt om dit allemaal conceptueel te begrijpen.
➔ Hier kan je vanalles bekijken.
➔ Om de centrale limietstelling te begrijpen, typ je in de zoekbalk: central limit theorem
applied to samples of different sizes and ranges.

- Voorbeeld van de centrale limietstelling: hoe lees je alles?
➔ Je ziet dat we random data gegenereerd hebben.
➔ De waarden op een bepaalde variabele (die op de x-as staat) kan variëren van 100 tot
500. Dit zie je helemaal onderaan staan en kan je ook veranderen.
➔ Het populatiegemiddelde moet rond 300 liggen (zie rechts bovenaan).
➔ Linkse foto: er zijn 50 steekproeven getrokken met gelijke n (n=10). Dit zijn kleine
steekproeven die we dus 50x getrokken hebben waardoor we een
steekproevenverdeling krijgen van het gemiddelde. Als je het gemiddelde van die
steekproeven berekent dan kom je aan 316 (dus iets wat lijkt op het
populatiegemiddelde van 300). De centrale limiet stelling zegt dat als je sample size
dichter bij 30 komt, het steekproefgemiddelde het populatiegemiddelde ook meer gaat
benaderen. Dit zie je op de middenste foto!
➔ Middenste foto: men trekt weer 50 steekproeven maar deze keer met sample size 30
ipv met sample size 10. We zien dat het gemiddelde van de steekproeven nu veel
dichter ligt bij het populatiegemiddelde dan bij de linkse foto (sample size 10). Als je
de sample size nog groter maakt, dan gaat het gemiddelde van de steekproeven nog
dichter liggen bij het populatiegemiddelde. Ook de sd verandert.

6

, ➔ Rechtse foto: als je heel veel gaat samplen, gaat je steekproevenverdeling het echte
populatiegemiddelde ook veel beter benaderen. Dit is bijvoorbeeld het principe achter
bootstrapping (zie later: dit is het herhaaldelijk afnemen van samples waardoor je een
betere schatting krijgt van het populatie gemiddelde).
➔ Dus hoe groter de sample size (n) en hoe groter het aantal steekproeven dat je trekt,
hoe beter de steekproevenverdeling, het populatiegemiddelde benadert.

- Inductieve statistiek: notaties
➔ Populatieparameters kunnen we niet meten. We schatten die adhv
steekproefgrootheden.

7

,HOOFDSTUK 2: Verkennen van de data (eyeballing the data)

1. Grafisch verkennen van de data

- Onderzoek van verdelingen: zie eerste bachelor
➔ Histogram
➔ Stam/blad diagram
➔ Boxplot

- Boxplot
➔ Geeft informatie over positie, spreiding en symmetrie.
➔ Hoe lees je het boxplot?
➢ Maximum outlier: een waarneming die meer dan 1,5 interkwartiel boven
percentiel 75 ligt. Dit is een buitenbeentje.
➢ Hoogste: dit is de hoogste waarde die geen outlier is.
➢ Percentiel 75 tot percentiel 25 wordt weergegeven door een blokje.
➢ Percentiel 50 is de mediaan. We zien dat dat niet valt op het rekenkundig
gemiddelde omdat dit geen boxplot van een normaalverdeling is, anders zou
dit wel zo zijn.
➢ Laagste: dit is de laagste niet-outlier!
➢ Minimum: een waarneming die minstens 1.5 interkwartiel onder percentiel 25
ligt. Dit is een outlier!
➢ Met een sterretje geven we outliers aan die meer dan 3 interkwartielen onder
percentiel 25 liggen. Dit is een extreme outlier.

- Boxplot in SPSS:
➔ Bij de linkse boxplot zien we dat er iets schort aan de
verdeling van de steekproef. We zien namelijk dat de
mediaan overeenkomt met percentiel 25 en dat is raar.

8

,- Boxplot en vorm van de verdeling:
➔ Blauw: de verdeling is positief/rechts
scheef. Dan ziet het boxplot eruit
zoals je daarnaast kan zien.
➔ Groen: als de data normaal verdeeld
zijn, krijgen we een boxplot dat
redelijk symmetrisch is.
➔ Rood: als de verdeling uniform is,
krijg je een heel breed blokje.
➔ Grijs: als de verdeling negatief/links
scheef is, dan zien we bij het boxplot
het spiegelbeeld van het blauwe.
➔ Een boxplot geeft dus al heel veel
info! Zelfs meer dan een histogram.

- Histogram:
➔ Informatie over normaliteit verdeling.
➔ Met een histogram kan je heel snel
zien hoe sterk uw data afwijkt van een
normaalverdeling.
➔ De balken die buiten de
normaalverdeling liggen zijn dus
cijfers die hoger liggen in de
steekproef dan in de populatie. De
balken die lager liggen dan de
normaalverdeling zijn dus cijfers die
lager liggen in de steekproef dan in de
populatie.

- Stem and leaf
➔ Informatie over werkelijke waarden en waarnemingen.
➔ Als je dit een kwartslag omdraait, kan je een soort
histogram zien.
➔ Wordt niet echt meer gebruikt. Werd vooral gebruikt in de
tijd dat men met een typemachine de data grafisch
probeerde weer te geven.

9

, - Grafiek opties
➔ Je moet altijd eerst nadenken over wat je wil doen:
➢ Een vergelijking maken:
➔ Tussen groepen bv.: dan gebruikt men vooral histogrammen.
➔ Over de tijd: circulaire data, line chart, bar charts,...
➢ Relaties tussen vergelijkingen bekijken:
➔ Tussen 2 variabelen: scatterplots
➔ Tussen meer dan 2 variabelen: bubble plot (= een scatterplot waar de
bubbels groter of kleiner zijn. Dit geeft een idee van de grootte van de
groep)
➢ ...
➔ Je moet veel tijd steken in het maken van je grafieken. Ze moeten mooi zijn en
duidelijk leesbaar. Als een andere onderzoeker niet meteen begrijpt wat je bedoelt,
dan haakt die waarschijnlijk af en leest die gewoon een ander artikel.

10

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur amkeweyens. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €8,89. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

80467 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Resume

Samenvatting Multivariate data-analyse

Infos sur le Document

Sujets

École, étude et sujet

13 revues

Vendeur

Avis reçus

Aperçu du contenu

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

L’achat facile et rapide

Focus sur l’essentiel

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Garantie de remboursement : comment ça marche ?

Auprès de qui est-ce que j'achète ce résumé ?

Est-ce que j'aurai un abonnement?

Peut-on faire confiance à Stuvia ?