Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Samenvatting - Data Exploration €7,66   Ajouter au panier

Resume

Samenvatting - Data Exploration

 7 vues  0 fois vendu
  • Cours
  • Établissement
  • Book

Recent en Compleet! Nederlandstalige samenvatting van alle stof en statistische toetsen voor het tentamen van Data Exploration van Data Driven Business. Met uitgewerkte voorbeelden van de interpretatie van de statistische toetsen.

Aperçu 4 sur 40  pages

  • Oui
  • 25 mars 2024
  • 40
  • 2022/2023
  • Resume
avatar-seller
Samenvatting Data Exploration – Data Driven Business
WC 1: NHST en ANOVA
Nul Hypothese Significantie Testen (NHST): een raamwerk waarmee besloten kan worden of de
nulhypothese waar is.

Statistisch significant: onwaarschijnlijk dat het alleen dor toeval of willekeurige factoren
wordt verklaard, oftewel het is betekenisvol (sprake van effect in het onderzoek.

P-waarde: overschrijdingskans of kanswaarde) geeft informatie over de statistische
significantie van een resultaat. In de meeste onderzoeken wordt een p-waarde van 0.05 of
minder als statistisch significant beschouwd, maar deze drempel kan ook hoger of lager zijn.

Door middel van statistische toetsen bepalen we of er sprake is van geen significant effect (H 0 wordt
niet verworpen) of van een significant effect (H 0 wordt verworpen). In de statistiek werken we vaak
op basis van toetsbare hypothesen:
• Nulhypothese (H0): veronderstelt dat er geen effect is.
• De alternatieve hypothese (H1): veronderstelt dat er wel een effect is.

Drie typen veel voorkomende hypothesen en bijbehorende toetsen
• Testen van verschillen in gemiddelden tussen groepen (T-test, ANOVA)
• Testen van relaties tussen variabelen (correlaties, regressie analyse, SEM)
• Testen van verschillen in frequentieverdelingen tussen categorieën (chi-square)

De misconcepties van NHST:
1. Een significant resultaat betekent dat het effect belangrijk is :
Statistische significantie is niet hetzelfde als relevantie, omdat significantie wordt beïnvloed door de
steekproefgrootte. Kleine en niet relevante effecten worden significant in grote steekproeven, terwijl
grote en relevante effecten gemist kunnen worden in te kleine steekproeven. Kijk daarom ook altijd
naar de relevantie, meestal o.b.v. de effect size.

2. Een niet-significant resultaat betekent dat H0 waar is :
Een niet-significant resultaat vertelt ons alleen dat het effect niet groot genoeg is om gevonden te
worden (gegeven onze steekproefgrootte). Het vertelt ons niet dat de effectgrootte gelijk is aan 0.
Daarom moet een niet-significant resultaat nooit geïnterpreteerd worden als ‘er is geen verschil’ of
‘er is geen relatie’. Resultaten moeten altijd geïnterpreteerd worden in relatie tot de data: ‘gegeven
deze steekproef/dataset kan geen relatie/verschil worden aangetoond’.

3. Een significant resultaat betekent dat H0 niet waar is :
Een significant resultaat is gebaseerd op kansberekening. Je hebt hierbij altijd te maken met bias en
onzekerheden, waardoor je nooit met volledige zekerheid kan stellen dat H0 niet waar is.


Effect sizes:
Een belangrijke manier om de problemen met NHST te voorkomen, is het berekenen en
interpreteren van effect sizes: sterkte van het effect. Voor de interpretatie van effect sizes houd je de
volgende richtlijnen aan:
Klein effect: r = .10
Gemiddeld effect: r = .30
Groot effect: r = .50

,Risico’s NHST:
o All-or-nothing thinking:
Als p < .05, dan is het effect significant, als p > .05, dan is het effect niet significant. Dat zou
betekenen dat een p-waarde van .0499 significant is, maar een p-waarde van .0501 niet, terwijl het
verschil tussen beiden nihil is en de effect sizes van beide effecten nagenoeg even groot zijn.

o Researcher degrees of freedom:
Onderzoekers maken keuzes in hun studiedesign en analyses om ervoor te zorgen dat ze gunstige
resultaten verkrijgen. VB: over welke controle variabelen ze wel/niet opnemen in hun model, hoe ze
omgaan met extreme waarden, aantal respondenten, model fit, interpretatie van de alpha-waarde.

o P-hacking:
Onderzoekers publiceren alleen significante resultaten/modellen, terwijl ze veel modellen kunnen
hebben getest die niet significant waren.
Onderzoekers laten variabelen weg uit modellen die geen significante bijdrage hebben, of bewerken
data op verschillende manieren om significante resultaten te genereren.

o HARKing:
In wetenschappelijke artikelen worden hypothesen gepresenteerd die zijn opgesteld nadat data zijn
verzameld en geanalyseerd, in plaats van daarvoor.


Voorkomen van deze risico’s:
Adviezen aan Data Scientist
- Als effecten met p-waarden van bijv. .0501 niet worden geïnterpreteerd door de data
scientist, omdat dit effect ‘niet significant’ is volgens het ‘all or nothing thinking’, vraag de
data scientist dan om toch de effect size te berekenen. Als die betekenisvol is, moet je het
effect wellicht toch meenemen in jouw advies of vervolgstappen.

- Vraag aan data scientists om transparant te zijn over hoe zij zijn omgegaan met extreme
waarden, interpretaties van de alpha etc., zodat je kan beoordelen of er risico’s zijn met
betrekking tot de vrijheden die ze zichzelf hebben toegeëigend.

- Vraag aan data scientists om niet alleen over significante modellen te rapporteren, maar ook
over niet significante modellen.

- Stel samen met data scientists (en de business) vooraf hypothesen op die onderzocht
worden (indien je toetsend onderzoek doet)

Adviezen aan business
- Stel samen met data scientists en de business vooraf hypothesen op die onderzocht worden
(indien je toetsend onderzoek doet).

- Communiceer helder met de business dat significante resultaten gebaseerd zijn op
kansberekening, en dat er dus nooit met volledige zekerheid uitspraken gedaan kan worden
over gevonden verschillen of relaties tussen variabelen.

- Communiceer met de business dat ze acties niet alleen moeten baseren op of een resultaat
significant is, maar ook op effectgroottes. Bij kleine effectgroottes wegen de kosten van
mogelijke acties waarschijnlijk niet op tegen te behalen resultaten.

,ANOVA (variantie analyse) = een lineair model op basis van het vergelijken van groepsgemiddelden.
Voor de verschillende groepen ga je de gemiddelden vergelijken en of de gemiddelden significant
afwijken van elkaar.

Soorten ANOVA’s:
1. One-way-ANOVA: 1 groepsvariabele (land herkomst) en 1 afhankelijke variabele (gewicht)
2. Two-way-ANOVA: 2+ groepsvariabelen (land herkomst en geslacht)
3. Multivariate ANOVA: meerdere afhankelijke variabelen (gewicht en lengte)
4. Repeated measures ANOVA: wanneer je de respondenten meerdere keren onderzoekt


Voorwaarden voor het gebruik van ANOVA
o Drie of meer groepen (bij 2 groepen gebruik je een normale t-toets)
o Iedere groep is normaal verdeeld
o De afhankelijke variabelen is gemeten op ratio- of intervalniveau
o De varianties zijn voor elke groep gelijk (zie homoscedasticiteit)
o De data zijn verzameld via een aselecte steekproef

ANOVA interpreteren:
De volgende stap is de ANOVA-tabel. Met een F-toets kan je bepalen of een significant deel van de
variantie verklaard wordt door de groepsvariabele.
• F-statistic: wordt gebruikt om twee varianties met elkaar te vergelijken. Wijkt het model dus
af van een model zonder predictoren (nulmodel). Oftewel is er sprake van een effect van
jouw model? Moet je de nulhypothese (H 0) wel of niet verwerpen?
Belangrijk: Geeft geen inzicht in welke groepsgemiddelden significant van elkaar
verschillen!

Interpreteren: Als de varianties gelijk zijn dan is de uitkomst 1. Zijn ze verschillend dan is de
uitkomst groter of kleiner dan 1, maar nooit 0. Een hoge f waarde betekent dat het model
wel goed is, de gemiddelden verschillen veel van elkaar.
- Kleine F-statistic (geen significante p-waarde): de group means verschillen niet veel van
elkaar. Een model op basis van de grand mean (gemiddelde over alle groepen heen)
voorspelt de data beter dan een model op basis van group means.  H0 niet verwerpen
- Grote F-statistic (significante p-waarde): de group means verschillen significant van
elkaar (betekenisvol). Het model op basis van group means voorspelt de data beter dan
een model op basis van de grand mean.  H0 verwerpen

• Sum of Squares: dit geeft aan hoeveel variantie tussen en binnen de groepen zit. Hoe meer
variantie, hoe beter de variabele is te voorspellen.

• Significantie: als een verschil significant is dan is het aannemelijk dat het niet op toeval
berust. Er is dus niet toevallig een verschil ontdekt maar er is daadwerkelijk een verschil
tussen de groepen. Een significant verschil is bereikt als de waarde lager is dan 0.05 (dus 5%)

Planned contrast: O.b.v. een hypothese test je verschillen tussen groepen. Deze methode gebruik je
alleen als je van tevoren een hypothese hebt opgesteld waarin je aangeeft dat je verwacht
verschillen tussen groepen te vinden.

, Post hoc test: Je hebt geen hypothese en verkent welke groepsgemiddelden significant verschillen.
Lees bij de post-hoc-tests af tussen welke groepen een significant verschil (minder dan 0.05) is
gevonden.
Voorbeeld (interpreteren) Post Hoc test




- Er zijn significante verschillen tussen de gemiddelden optimisme scores over elektrische
auto’s tussen de drie verschillende leeftijdscategorieën, F(2, 432) = 4.64, p=0.010.
- Als er geen significant verschil zit in de ANOVA tabel, is het niet nodig om verder te zoeken.
- Dit betekent dat ergens tussen de gemiddelden een significant verschil is maar dat is nog niet
duidelijk. Dit kan worden achterhaald met een Post Hoc Test.

Post Hoc Test




- De post-hoc test laat zien dat alleen groep 1 en groep 3 van elkaar verschillen. Het verschil
tussen leeftijdsgroep 1 en leeftijdsgroep 3 (Mean difference = -1.595) is significant, p = 0.007.
De mean difference van -1.595 betekent dat leeftijdsgroep 1 een lagere gemiddelde score op
Optimisme heeft dan leeftijdsgroep 3.
- Leeftijdsgroepen 1 en 2, en 2 en 3 verschillen niet significant van elkaar.


Advies aan de business: Het is belangrijk dat de effectgrootte wordt meegenomen in het
interpreteren van de resultaten en de p-waarde. Hoe relevant zijn de significante uitkomsten nou
eigenlijk.

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur marijnvandaatselaar. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €7,66. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

79202 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€7,66
  • (0)
  Ajouter