Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Samenvatting Statistiek IV: Multivariate data-analyse 2023 €4,99   Ajouter au panier

Resume

Samenvatting Statistiek IV: Multivariate data-analyse 2023

 94 vues  6 achats

Samenvatting van de hoorcolleges van het vak 'Statistiek IV: Multivariate data-analyse" gegeven door Prof. dr. Mairesse in het academiejaar 2022/2023. Met deze samenvatting behaalde ik een 17/20 voor het theorie gedeelte.

Aperçu 10 sur 174  pages

  • 19 avril 2024
  • 174
  • 2022/2023
  • Resume
Tous les documents sur ce sujet (11)
avatar-seller
EvaSmet
Statistiek IV



Hoofdstuk 1: Verkennen van data

Waarom data-analyse?

Data-analyse = noodzakelijk voor psychologen

1. Cf. data-analyse in de media
2. Begrip van + kritische instelling tegenover vakliteratuur
3. Kunnen verzamelen/analyseren van data
Statistiek kan levens kosten, door een misbegrip van bepaalde statistische fenomenen of resultaten. Mensen
gaan hierdoor attitudes veranderen, die een voorspelbare waarde kunnen hebben op hun gedrag (bv. grote
aantal antivaxers heeft o.a. te maken met een verkeerde interpretatie van de statistiek)




Bv. misconceptie van ijzergehalte in spinazie (een komma die verkeerd stond, had een enorme
impact). Maar spinazie bevat dus niet meer ijzer dan andere groenten.




Deze data (zoals bv. gemiddelde) vertellen te weinig. Altijd nodig om een idee te hebben van de
spreiding (vb. boogschutters).




Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 1

,Statistiek IV


Data-analyse = noodzakelijk voor psychologen

Het helpt je om:

1. Data te organiseren (grafieken,…)
o Zeer belangrijk
o Visualiseren van data als één van de meest cruciale punten in data-analyse
2. Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten)
3. Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve statistiek,
verklaren)
4. Theorieën te verifiëren en aan te passen



Inductieve statistiek




Inferentiële statistiek: bepaalde parameters (bepaalde dingen die je niet onmiddellijk kan
observeren) moeten schatten.




Begrippen

Theorie --> hypothese --> steekproef --> steekproefgrootheden

Steekproefgrootheid (statistiek, stat. grootheid): maat gebaseerd op de gegevens van de steekproef
(bv. rekenkundig gemiddelde, proportie,…)

Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling --> steekproevenverdeling




Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 2

,Statistiek IV


Stel: random steekproef 1 en we berekenen S1, random steekproef 2 (zelfde n) en we berekenen S2,
etc. tot Sn

S1, S2, S3, S4, …, Sn

De verdeling van deze steekproefgrootheden = steekproevenverdeling

(bootstrapping: permutatie methode, ook om verdeling te krijgen van statistieken (overal
gemiddeldes van hebben wat dan een idee geeft van de verdeling van steekproeven)




• SteekproeFverdeling (sample distribution)
o Frequentieverdeling van de uitkomsten van de steekproef
o Empirisch, gekend
• SteekproeVENverdeling (sampling distribution)
o Kansverdeling van alle mogelijke waarden die een steekproefgrootheid (voor alle
mogelijke verschillende steekproeven) kan aannemen
o Theoretisch, benaderen



Stel: steekproefgrootheid =

Wanneer men herhaaldelijk toevallige steekproeven met grootte n trekt uit een normaal verdeelde
populatie met gemiddelde =  en standaardafwijking =  dan is de steekproeven-verdeling van het
steekproefgemiddelde normaal verdeeld




Centrale limietstelling: Wanneer men herhaaldelijk toevallige steekproeven met grootte n trekt uit
een willekeurig verdeelde populatie met gemiddelde =  en standaardafwijking =  en indien n
voldoende groot (vuistregel: n 30) is, dan benadert de steekproevenverdeling van het
steekproefgemiddelde een normaalverdeling:




Hoe meer je gaat samplen, hoe groter de kans om een normaalverdeling te bekomen.


Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 3

,Statistiek IV




Notaties




Eyeballing data

Grafisch verkennen van data

Onderzoek van verdelingen

• Histogram
• Stam/blad diagram
• Box plot

--> Globaal zicht!



Boxplot: info over positie, spreiding, symmetrie




Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 4

,Statistiek IV




Histogram: info over normaliteit verdeling




Stam en leaf: werkelijke waarden waarnemingen




Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 5

,Statistiek IV




Analyse van ontbrekende data (missing data)

Ontbrekende waarden voor één/meerdere variabelen


Oorzaak?

• Onafhankelijk van respondent
o Procedure (e.g., indien “nee”, ga naar vraag xxx)
o Codeerfouten
• Afhankelijk van de respondent
o Omvang? (veel of weinig)
o Analyse van het profiel van missing data (is er systematiek of random?)


Impact missing data

• Praktische impact
o Reductie steekproefgrootte (listwise deletion; vb. Antartica data)
o Indien te veel: N vergroten of remediëren (zie verder)



Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 6

,Statistiek IV


• Nonrandom missingness
o Bias!
o Specifieke groepen uitgesloten uit analyse (vb. hoge inkomens)
o Merk je pas op als je missing data hebt bestudeerd



• Sommige variabelen met veel missing
data (kolommen)
• Missing data van deelnemers (rijen)
• 10% missing data nog relatief
aanvaardbaar
• 55% van data kwijt, wordt al moeilijker
om nog te remediëren




STAP 1: Bepaal het soort missing data

• Verwaarloosbare missing data
• Niet-verwaarloosbare missing data

Dit bepaalt de juiste remedie!



Verwaarloosbare missing data

= verwacht, deel van de procedure, toegelaten
= random missingness

1. Data van individuen (observatie-eenheden) die niet in de steekproef zitten
2. Skip-patronen in design (e.g. “Rookt u? Zo neen, ga naar item x”)
3. Censored data: niet beschikbaar
o Data die je niet hebt van voor je studie en na je studie (wat voor en na studie gebeurt
heb je niet, dus studie is momentopname)
o Je kan dit wel bevragen, maar waarschijnlijk gebiased (bv. hoe sliep je voor corona?)

--> Niet remediëren!

Denk aan context! Enorm belangrijk voor interpretatie!



GEKENDE niet-verwaarloosbare MD

= te wijten aan procedurele factoren
= weinig controle over

• Codeerfouten, fouten bij ingeven data
• Vragenlijst niet volledig ingevuld (bv. tijdsgebrek)


Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 7

,Statistiek IV


• Sterfte respondent
o ONBEKENDE niet-verwaarloosbare MD
o = moeilijker op te sporen/remediëren
o = gerelateerd aan respondent
• Weigering “gevoelige” items, “geen mening”



STAP 2: Hoeveel data is missing?

• Indien omvang zeer klein is
o < 10% per case
o Voldoende cases zonder missing
o Geen non-randomness --> geen effect op resultaten + elke remedie OK
• Indien groot --> randomness (toeval) onderzoeken



STAP 3: Toeval in missing data onderzoeken!

Missing Completely At Random (MCAR)

• Tussen de subgroepen zijn missing data random gelijk
• De kans dat data missing is, is gelijk voor iedereen in de sample
• De oorzaak van missing data is onafhankelijk van de data
• Elke remedie ok; zeer weinig voorkomend

Missing At Random (MAR)

• Binnen subgroepen zijn missing data random, maar verschillen tussen groepen
• Missing data zijn afhankelijke van andere variabelen
o Vb. studie naar het voorspellen van inkomen op basis van opleiding:
▪ Inkomensgegevens missen bij de groep laagst opgeleiden --> MAR
▪ Inkomensgegevens missen bij de hoogste inkomens / een bepaalde “range”
van data ontbreekt --> MNAR
• Onderzoeken!

Missing Not At Random



Hoe nagaan?

• Visuele inspectie
• Diagnostische tests
o Cases mét missing voor variabele Y vergelijken met cases zonder missing op Y:
verschillen ze op andere variabelen? (bv. t-toets)
o Recoding: geldige respons = 1; missing = 0; vervolgens correlatie berekenen
o Overall test for randomness: MCAR --> theoretisch




Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 8

,Statistiek IV


STAP 4: Omgaan met missing data

• Trachten te vermijden (bv. check vragenlijsten, aandachtig bij coderen,…)
• Standaard listwise deletion (enkel complete cases)
o Enkel complete cases gebruiken introduceert op zich ook bias
o Vnl. veel impact bij kleinere steekproeven
• Cases en/of variabelen verwijderen (als random)
o Een aantal random steekproeven trekken om stabiliteit van data na te gaan
• MAR of MCAR: imputatie (missing data vervangen)

• Alle beschikbare informatie gebruiken (pairwise deletion; vb. 2 aan 2 variabelen, n fluctueert)
• Aanvullen van ontbrekende data: vervangende (vergelijkbare) cases (bv. bij non-respons),
gemiddelde, geschatte waarde door regressie,…)




Kans is vrij klein dat we op het examen een imputatie methode moeten toepassen.

We moeten hier wel weet van hebben voor de toekomst (o.a. masterproef)

Zoeken of er robuustheid bestaat in de techniek die je zou willen gebruiken




Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 9

, Statistiek IV




Gebaseerd op de powerpoints en lessen van Prof. dr. Olivier Mairesse 10

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur EvaSmet. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €4,99. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

72841 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€4,99  6x  vendu
  • (0)
  Ajouter