, Voorkennis
Correlaties
Correlatiecoëfficiënt: Indicator voor de sterkte van een lineare relatie (gestandaardiseerd) -1-1
Regression equation: Doormiddel van de slope kan de stijging van de lijn voorspelt worden
(hoogte/breedte)
Intercept: De plek waar een lijn de Y as snijdt
Y-value=intercept + slope × X-value
y^=b0 + b1x
Error/residual: verschil tussen de verwachte waarde en de geobserveerde waarde
Least squares method: Het kwadrateren van de errors zodat het getal niet op 0 uitkomt
Dit wordt gebruikt om de parameters van het lineare regressie model in te schatten
Σ (y − y^) 2
b1=r × σy / σx
R-squared: hoeveel de data het gevonden resultaat verklaard (Goodness of fit) 0-1
Een hoge r-squared geld voor die sample en is niet per se generaliserend
Bayesian statistics
Null hypothesis significance testing: Het testen of de 0 hypothese waar is en anders deze verwerpen
Publication bias: Het is makkelijker om met significante resultaten gepubliceerd te worden
Sloppy science: questionable research practices (QRP) om alsnog gepubliceerd te worden
Replicatie crisis: Gevonden resultaten konden niet gerepliceerd worden
Oplossing: The bayesian way
Bayes factor: Hoeveel support er is voor een betreffende hypothese in vergelijking tot andere
hypotheses (1> x betekend meer support voor alternatieve hypothese)
1) De fit van de hypothese voor de data
2) De specificiteit van de hypothese
ANOVA (Analysis Of VAriance)
Anova: een toetsingsmanier voor de vergelijking van 2 of meer gemiddelde (2 independent samples
maar ook mogelijkheid tot meer)
T-tests kunnen ook gebruikt worden om 2 gemiddelde te vergelijken: one sample, 2 paired samples
en 2 independent samples
4 assumpties
1) Binnen elke groep zijn de scores voor de afhankelijke variabele normaal verdeeld.
2) Er zijn geen uitbijters in de scores van de mensen op de afhankelijke variabele.
3) De variantie van de scores op de afhankelijke variabele is in elke groep gelijk.
4) De scores van de mensen op de afhankelijke variabele zijn onderling onafhankelijk.
Variantie: Het verschil tussen twee groepen en de populatie
1. Binnen groep variantie: de variantie van scores binnen elke groep gemiddeld over groepen
(residual)
2. Tussen groep variantie: de variantie van de groepsgemiddelde, een maat voor hoe
verschillend ze zijn (explained)
Is de groep variantie groot in vergelijking tot de tussen groep variantie? F-statistic
F= MS between/ MS within
MS= Mean squares
2
, Bonferroni method: deze betreft voor meerdere testen om type I fout te voorkomen. Hierdoor mag
de P niet hoger zijn van 0.5/3 per test
Week 1: Bayes & Multiple linear regression (MLR)
Prior knowledge: Bestaande kennis voor er naar de date gekeken wordt
Probability: de waarschijnlijkheid van een gebeurtenis wordt verondersteld de frequentie te zijn
waarmee het voorkomt (klassiek/frequentie statistiek)
Bayes theorem: P (A given B) = P (B given A) ⋅ P(A) / P(B)
Voorwaardelijke kansen
Assumpties Multiple Linear Regression (MLR)
1) De afhankelijke variabele is een continue maat (interval of ratio)
2) De onafhankelijke variabele zijn continu of dichotoom
3) Er zijn lineaire relaties tussen de afhankelijke variabele en elk van de continue onafhankelijke
variabelen (scatterplot)
1) Er zijn geen uitschieters (transparant zijn over wat je er mee doet! Erin houden, verbeteren,
verwijderen of het gemiddelde plus 2 SD)
Controleren op uitschieters
Casewise diagnostiek
Gestandaardiseerde residuen: waarden tussen de -3.3 dn +3.3 zijn ongeveer normaal (hier buiten
uitschieters)
Cook’s distance: Controle tussen de XY-ruimte, duimregel: onder de 1 is normaal (boven is
uitschieter)
2) Afwezigheid van multicollineariteit
Multicollineariteit: de relatie tussen twee of meer onafhankelijke variabele sterk zijn
Consequenties: de regressie coëfficiënt is onbetrouwbaar, beperkt de grootte van R, het belang van
individuele onafhankelijke variabelen kan niet of nauwelijks worden bepaald
Controleren
Tolerance of VIF (variance inflation factor): waarden kleiner dan .2 kunnen potentieel voor
problemen zorgen, lager dan .1 is er een probleem en groter dan 10
Het variabel dat voor problemen zorgt verwijderen of combineren van variabelen door factor
analyse
3) Homoscedasticiteit
Homoscedasticiteit: Er is een gelijke spreiding over het hele plot (geen trechter figuur)
4) Normaal verdeelde residuen
Controleren
Q-Q plot: dicht aan de lijn is normaal verdeeld
Histogram: normaalverdeling
Een voorspeller of uitkomst verwijderen of veranderen
Wanneer het niet lineair is kan een kwadratische methode gebruikt worden door een nieuwe
variabele te gebruiken -> squared X
Linear: y=B_0+B_1X+ey=B0+B1X+e
Quadratic: y=B_0+B_1X+B_2X^2+ey=B0+B1X+B2X2+e
3
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur stuuudje. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €4,39. Vous n'êtes lié à rien après votre achat.