Samenvatting van de volgende hoofdstukken van The Practice of Statistics in the Life Sciences: 1 t/m 6, 9, 11 t/m 15, 17 en 18. Gebruikt voor het tentamen van 'Inleiding Statistiek' van de premaster Klinische Gezondheidswetenschappen aan de Universiteit Utrecht. Uiteraard ook voor andere studies me...
Summary Research in Biomedical Sciences (AB_1142) partial exam 1+2
Summary Statistics and Methodology (AB_1201)
Research in Biomedical Sciences (AB_1142): Complete Summary (VU Amsterdam)
Tout pour ce livre (12)
École, étude et sujet
Universiteit Utrecht (UU)
Klinische Gezondheidwetenschappen
Inleiding statistiek
Tous les documents sur ce sujet (2)
3
revues
Par: marjetpoll • 1 année de cela
Par: lotte57 • 2 année de cela
Par: hildequicken • 3 année de cela
Vendeur
S'abonner
aloeffen
Avis reçus
Aperçu du contenu
The Practice of Statistics in the Life Sciences
Hoofdstuk 1: Picturing Distributions with Graphs
Individuen en variabelen
Elke dataset bevat informatie over een groep individuen (een steekproef uit de populatie). Deze
informatie is georganiseerd in variabelen.
- Individuen: de objecten beschreven door een dataset. Dit kunnen mensen, dieren, planten
of dingen zijn.
- Variabelen: karakteristieken van een individu. Kan verschillende waarden voor verschillende
individuen aannemen. Dus de karakteristieken die onderzocht zijn onder de individuen.
In een spreadsheet kunnen de gegevens weergegeven worden. In elke rij staat dan een individu en in
elke kolom een variabele.
Variabelen
- Categorieke variabele: losse categorieën. Niet mee rekenen, maar in woorden. Plaatst een
individu dus in een groep of categorie. Bijv.: aantal muizen met uitzaaiingen categoriek;
wel/geen uitzaaiingen.
Nominaal: puur kwalitatief en in losse categorieën, bijv.: kleur.
Ordinaal: kwalitatief, wel rangorde. Bijv.: opleidingsniveau, Likertschaal. Niet mee te
rekenen. Geen gelijke verschillen tussen groepen.
- Kwantitatieve variabele (interval/ratio): meetgetallen. Hierbij kan bijv. een gemiddelde
berekent worden. Meestal in grootheden, bijv. seconden of kg.
Continue: elke waarde tussen twee getallen is mogelijk.
Discreet: bepaald en beperkt aantal getallen mogelijk, bijv. het aantal bloemblaadjes.
Goed interpreteren! Wel/niet obesitas is categoriek, maar het % obesen in een groep is kwantitatief.
Dus niet meteen door bepaalde woorden conclusies trekken.
Voorbeeld:
Subject Sekse Age PI Bias
1 M 6 -1.00 L
2 F 5 -0.95 L
3 F 4 1.00 R
4 F 1 0.13 A
-Geslacht: categoriek
-Leeftijd: kwantitatief, continue.
-PI (Pawedness Index): getallen tussen -1 en 1 o.b.v. het gebruik van linker of rechter pootje.
Kwantitatief en continue.
-Bias: voorkeurspootje. Links, rechts of beide. Dus categoriek.
Vraag jezelf af:
1. Wie zijn de individuen die zijn bestudeerd? Hoeveel individuen zijn er in de dataset?
2. Wat onderzoeken we? Hoeveel variabelen? Wat zijn de exacte definities, wat zijn de
meetniveaus? Welke grootheden worden er gebruikt?
3. Waarom? Wat is het doel van de data.
,Categorieke variabelen: cirkeldiagram en staagdiagram
Data analyse: verkennende data-analyse (exploreren) met grafieken en spreidings-/centrummaten:
1. Bestudeer eerst elke variabele apart en daarna de relatie tussen de variabelen;
2. Begin met grafieken, dan numerieke maten van specifieke aspecten van de data.
De verdeling van een variabele vertelt ons welke waarden nodig zijn en hoe vaak deze waarden
nodig zijn. De waarden van categorieke variabelen zijn labels voor de categorieën. De verdeling
wordt weergegeven in de categorieën en volgt met een aantal (frequentie) of percentage (relatieve
frequentie) van de individuen dat in iedere categorie valt.
Check op consistentie: kloppen de aantallen met het totaal en zijn de percentages opgeteld 100%? Zo
niet, zijn er afrondings-errors?
Cirkeldiagram
Goede visuele weergave. Kan slechts de categorieën van één variabele weergeven. Nuttig wanneer je
de relatie van elke categorie tot het geheel wil benadrukken.
Staafdiagram
Zijn bijzonder bedreven in het aangeven van de volgorde en het relatieve belang van de verschillende
categorieën. Dit kan bij een cirkeldiagram dus niet.
Kwantitatieve variabelen: histogram, dotplot en timeplot
Histogram
Meest voorkomende grafiek bij de verdeling van één kwantitatieve variabele.
1. Verdeel de data in klassen van gelijke wijdte;
2. Tel de individuen in elke klasse en check de consistentie;
3. Teken de histogram. Op de horizontale as komt de gekozen variabele en op de verticale as de
aantallen of percentages.
4. Wat zie je? Kijk naar het algemene patroon en naar duidelijke afwijkingen van dat patroon.
Het algemene patroon beschrijft je met:
- Vorm: het heeft één top (unimodaal).
Symmetrisch (ongeveer)
Scheef verdeeld naar rechts (positief
scheef)
Scheef verdeeld naar links (negatief scheef)
Maar de vorm kan ook twee toppen hebben, dan is er zowel geen sprake van symmetrie als
van scheefheid. We spreken dan van een bimodale verdeling. Je hebt dan twee clusters, je
moet deze beide clusters dan apart bekijken.
- Centrum: middelpunt
- Spreiding
Duidelijke afwijkingen zijn:
- Uitschieters: zoek bij grote uitschieters naar de oorzaak. Kunnen ook fouten zijn, maar hoeft
niet.
De keuze van de grootte van de klassen kan het uiterlijk van de histogram zodanig beïnvloeden.
Let op: zoek naar grote pieken, duidelijke uitschieters, duidelijke symmetrie of scheefheid. Niet voor
kleine dingen. Niet alle datasets hebben een mooie verdeling, probeer dit ook niet te forceren.
Dotplot
,Geeft iedere waarde uit de dataset weer. Er is slechts één as, met de variabele. Met (bijna) dezelfde
waarde worden opgestapeld. Laat de exacte locatie van iedere waarde zien. Hierdoor kun je de
uitschieters goed zien.
Timeplot
Om verandering in de tijd weer te geven bij variabelen die
gemeten zijn over een tijdsperiode (bijv. groei van
kinderen). Zet de tijd op de horizontale as en de gemeten
variabele op de verticale as. Door de punten kun je een lijn
trekken. Kijk naar een algemeen patroon en naar sterkte
afwijkingen van dit patroon. Je kunt dan veranderingen over
de tijd bekijken en ook cirkels of een trend herkennen:
lange-termijn (gestaag) stijgen of dalen.
Hoofdstuk 2: Describing Quantitative Distributions with Numbers
Numerieke maten zijn spreidings- en centrummaten.
Parameters: wanneer het over de hele populatie gaat;
Statistieken: wanneer het over de steekproef gaat.
Centrummaten
1. Mediaan (M): middelste waarneming. Bij oneven aantal waarnemen neem je het gemiddelde
van de middelste twee waarnemingen.
Locatie van de mediaan: (n + 1) / 2
In SPSS: 50th percentile
Niet gevoelig voor uitschieters.
2. Gemiddelde (X̄): alle waarnemingen optellen en delen door het totaal aantal waarnemingen.
Gevoelig voor uitschieters.
De mediaan en het gemiddelde kunnen allebei nuttig zijn in verschillende situaties.
Spreidingsmaten
1. Range: kleinste waarneming – grootste waarneming (bijv.: 0-250). Deze kunnen echter
uitschieters zijn.
2. Interkwartielafstand: afstand tussen het eerste en derde kwartiel.
Eerste kwartiel ligt op 25%, derde kwartiel op 75%. Dus: het eerste kwartiel (één
waarneming) is groter dan 25% van de waarnemingen en het derde kwartiel van 75%. Het
vijftigste percentiel (tweede kwartiel) is de mediaan. Het eerste kwartiel is eigenlijk de
mediaan van de helft kleinste waarnemingen en het derde kwartiel de mediaan van de helft
grootste waarnemingen (beter gezegd: de 50% rechts van de mediaan). Niet gevoelig voor
uitschieters.
Mediaan (2e kwartiel): 9.3
1e kwartiel: 8.5; 3e kwartiel: 10.9
3. Vijf-nummer maat: minimum – Q1 – M – Q3 – maximum
, 4. Standaarddeviatie (s):
De variantie (s2) is de gemiddelde gekwadrateerde afstand van iedere waarneming tot het
gemiddelde. Hoe groter de variantie, hoe groter de spreiding.
De standaarddeviatie van de steekproef is de wortel uit de variantie, dus de gemiddelde
afstand van iedere waarneming tot het gemiddelde.
Variantie:
Standaardafwijking:
1
s=
√ n−1
Σ ( x i−x )
2
Verschil van iedere observatie van het gemiddelde berekenen en deze vervolgens
kwadrateren. Deze uitkomsten van iedere observatie bij elkaar optellen en delen door n-1
(bij steekproef) dan ben heb je de variantie. Vervolgens trek je de wortel uit de variantie en
dan heb je de standaarddeviatie.
n-1 is het aantal vrijheidsgraden (bij 1 variabele, bij 2 variabelen is het Na+Nb-2).
S meet de afwijking van het gemiddelde en mag alleen gebruikt worden wanneer het
gemiddelde is gebruikt als centrummaat. S is altijd 0 of > 0. Bij 0 is er geen spreiding.
Wanneer de observaties meer verspreid zijn wordt s groter. S heeft dezelfde grootheid als de
observaties (de variantie is in vierkante…). S is niet resistent voor uitschieters en scheefheid.
Het gebruik van kwadratische afwijkingen maakt s nog gevoeliger dan x voor enkele extreme
waarnemingen. Wanneer het gemiddelde toeneemt vanwege een uitschieter, neemt x nog
extra toe.
Voordeel van de vijfnummer maat is dat hij uitschieters kan laten zien.
Grafische weergave van numerieke samenvattingen
Boxplot: grafische weergave van de vijf-nummer maat
Symmetrische verdeling: eerste en derde kwartiel liggen even ver van de mediaan.
Rechts scheef derde kwartiel verder boven de mediaan.
Links scheef eerste kwartiel verder onder de mediaan.
Bij de extremen zelfde principe, is slechts 1 waarneming, zegt minder over de hele verdeling.
Bij uitschieters kan de interkwartielenafstand (IQR) een goede maat zijn.
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur aloeffen. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,49. Vous n'êtes lié à rien après votre achat.