Samenvatting Inleiding Statistiek
Gebaseerd op de hoorcolleges 2019/2020
College 1
Meetniveau
Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we
toewijzen hebben. De niveaus zijn cumulatief: elk niveau heeft de eigenschappen
van de vorige niveaus. Het meetniveau van een random variabele bepaalt wat voor
analyses je er beter wel/niet op kan uitvoeren. Er zijn 4 niveaus:
- Bij nominale variabelen worden mutueel exclusieve getallen toegeschreven aan
mutueel exclusieve uitkomsten 🡪 Geslacht: man, vrouw (0, 1) ; Nationaliteit:
Nederlands, Duits, Grieks, Pools, etc. (0, 1, 2, 3, etc.) ; Teamnaam: rocket, galactic,
magma (0, 1, 2).
- Bij ordinale variabelen is er daarnaast ook een betekenisvolle ordening in de
mogelijke uitkomsten 🡪 Dosering: laag, medium, hoog (0, 1, 2) ; Rangen: 1e plaats,
tweede plaats, derde plaats (0, 1, 2) ; Likert schalen: Zeer oneens, oneens, neutraal,
mee eens, zeer eens (0,1,2,3,4) ; Leeftijdscategorieën: 9-13, 14-18, 19-30, etc.
(0,1,2, etc.).
- Interval variabelen hebben dan ook nog intervallen die betekenisvol en van
dezelfde grootte zijn tussen elk van de geordende uitkomsten 🡪 temperatuur in
graden Celsius.
- Als laatste hebben ratio variabelen ook een absoluut nulpunt: 0 betekent dat de
eigenschap afwezig is 🡪 Dosering drug in milligram: 0 mg, 1 mg, 2 mg, etc. (0 mg =
geen drug) ; Lengte in cm (0 cm = geen lengte) ; Temperatuur op de kelvin schaal (0
graden = geen temperatuur).
Types variabelen
Er zijn twee types random variabelen die bepalen wat voor analyse er beter wel/niet
op uit kunnen worden gevoerd:
- Discrete Random Variabelen: de mogelijke uitkomsten voor de variabelen zijn te
vangen in een eindige, telbare lijst van waarden. Voorbeelden: aantal kinderen per
gezin, dosering categorieën ( laag, medium, hoog), sekse categorieën (man, vrouw),
en categorieën voor haarkleur (blond, bruin, rood, etc.).
- Continue random variabelen: de mogelijke uitkomsten van de variabele kunnen elke
waarde aannemen binnen een bepaald interval. Voorbeelden: leeftijd (geen
categorieën), ml gedronken alcohol, dosering in grammen (geen categorieën),
lengte, sekse schalen (van vrouwelijk tot mannelijk).
Beschrijvende statistiek
Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen
gebruiken we centrummaten.
- Modus: de uitkomst die het vaakst voorkomt, d.w.z., de uitkomst met de hoogste
frequentie. 2, 4, 7, 7, 8 🡪 dus 7
- Mediaan: de waarde die de hoogste helft van de data scheidt van de laagste helft
van de data. 50% van de data ligt boven deze waarde, en 50% ligt onder deze
waarde. 2, 4, 7, 9, 10 🡪 dus 7
- Gemiddelde: tel eerst alle observaties voor variabele X op (neem de som van X).
,Bepaal het totale aantal observaties, we noemen dat N (populatie) of n (steekproef).
Deel de som door het totale aantal observaties van stap. Notatie: μ, voor het
gemiddelde van een populatie en X̄ voor het gemiddelde van een steekproef. De
som van de deviaties (X-𝜇) is altijd 0!
𝑁
𝛴 𝑋𝑖
Formule: X̄ = 𝑖=1
.
𝑁
Spreidingsmaten beschrijven de variatie/spreiding van een variabele.
- Bereik: het verschil tussen de laagste en hoogste waarde van de variabele.
- Variantie: de gemiddelde gekwadrateerde afwijking (deviatie) van het gemiddelde.
Voor elke observatie bereken je de afwijking (deviatie (X-𝜇)) van het gemiddelde.
Kwadrateer alle deviaties die je hebt berekend en neem vervolgens de som van alle
gekwadrateerde deviaties. Bepaal het totaal aantal observaties, we noemen dat
aantal n of N. Deel de som van de gekwadrateerde deviaties door het totaal aantal
observaties. Notatie: σ voor de populatie en s voor de steekproef.
𝑁
𝛴 (𝑋−𝜇)2
De formule: σ2 = 1
bij de steekproef is het dus s en moet de noemer N-1 zijn!
𝑁
- Standaard deviatie, de wortel van de variantie. Handig om te hebben omdat het
uitgedrukt wordt in dezelfde eenheden als de observaties, i.p.v. die kwadraten in de
variantie.
De formule: √σ2
College 2
Kansverdelingen
Frequentieverdelingen tonen hoe vaak een uitkomst is geobserveerd.
Kansverdelingen tonen de relatieve frequentie van de uitkomst; hoe vaak de uitkomst
voorkomt in verhouding tot het totale aantal observaties. Kansverdelingen laten de
kans zien op elke mogelijke uitkomst voor een random variabele. Deze kansen
moeten altijd optellen tot 1! Kansen worden op de y-as gezet en uitkomsten van de
variabele op de x-as. Notatie voor de kans van een bepaalde uitkomst: P(x=uitkomst)
of korter P(uitkomst).
Kansregels discreet
- Een kans is altijd tussen 0 en 1.
- De kansen voor alle uitkomsten voor een variabele tellen samen op tot 1.
- Voor mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B),
bijvoorbeeld:
P(Aas of Heer) = P(Aas) + P(Heer) = 4/52 + 4/52 = 8/52= .153
P(klaveren, ruiten of schoppen) = P(klaveren) + P(ruiten) + P(schoppen) = .25 + .25
+ .25 = .75
- Complementregel: P(A) = 1 -P(NIET A), bijvoorbeeld:
P(harten) = 1 –P(NIET harten) = 1-P(klaveren, schoppen, ruiten)= 1 –.75 = .25
- Voor NIET-mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B) –
P(A én B), bijvoorbeeld:
P(harten of dame)= P(harten) + P(dame) – P(Harten én dame) = 13/52 + 4/52 –1/52
= 16/52
,Kansregels continu
- Een kans is altijd tussen de 0 en 1. De oppervlakte onder de curve is de kans.
- De totale oppervlakte onder de curve is gelijk aan 1.
- De kans op een specifieke uitkomst is gelijk aan 0. P( leeftijd = 25) = 0. We werken
daarom met intervallen van uitkomsten.
P( leeftijd > 35) = .15
P(leeftijd tussen de 25 en 35) = .25
- Voor mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B),
bijvoorbeeld:
P( leeftijd 15 tot 25 of leeftijd 25 tot 35 ) = P(leeftijd 15 tot 25 )+ P(leeftijd 25 tot 35 ) =
0.6+ 0.25= .85
- Complementregel: P(A) = 1 -P(NIET A), bijvoorbeeld:
P(leeftijd > 25) = 1 –P(NIET leeftijd > 25) = 1-P(leeftijd < 25) = 1 –.60 = .40
- Voor NIET-mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B) –
P(A én B), bijvoorbeeld:
P(15 tot 30 of 25 tot 50)= P(15 tot 30) + P(25 tot 50) – P( 25 tot 30) = .75 + .35 –.15
= .95
Deze regels voor discrete variabelen worden gegeven in het tabellen en formule
boekje, het is belangrijk dat je ze snapt, maar je hoeft ze dus niet uit je hoofd te
leren!
De Bernoulli Verdeling
Voor discrete variabelen met 2 uitkomsten (dichotome
variabelen).
- We noemen een uitkomst ‘succes’ en de ander ‘falen’ of
‘geen succes’
- Tilburg = succes, Anders = geen succes
- De vorm van de kansverdeling wordt bepaald door één
parameter “p”
- p is de kans op een succes.
- Als Tilburg succes is, dan: p=.36
Notatie: X ~ Bernoulli(p)
- Woonplaats ~ Bernoulli(.36)
De Normaalverdeling
Voor continue variabelen.
- X loopt van -∞ tot ∞ (-oneindig tot oneindig)
- De oppervlakte onder de curve geeft de
kans weer.
- De totale oppervlakte onder de curve is
gelijk aan 1.
- Perfect symmetrisch, en “bel-vormig”
- HEEL belangrijk in de statistiek.
- Vorm wordt bepaald door 2 parameters: Het
gemiddelde (μ) is het exacte midden en de
standaarddeviatie of variantie (𝜎 𝑜𝑓 𝜎2)
bepaalt de breedte. Notatie: X ~ N(μ, 𝜎2) of X ~ N(μ,𝜎)
, Z-verdeling
De Z-verdeling is een normale verdeling met
gemiddelde 𝜇 = 0 en standaarddeviatie 𝜎 = 1
(en variantie 𝜎2 =1). De kansen voor heel veel
gebieden van de Z-verdeling zijn al uitgewerkt
in statistische tabellen, ook wel tabel B.1 uit
Gravetter. Door normaal verdeelde X scores
te transformeren naar standaard normaal
verdeelde Z-scores, kun je de Z-tabellen
gebruiken voor het berekenen van de kansen
voor X.
Deel van tabel B.1:
Stappenplan om normale scores in Z-scores om te zetten:
Stap 1: Trek van elke observatie X het gemiddelde van X af. Hierdoor wordt het
gemiddelde van de nieuwe scores gelijk aan 0.
Stap 2: Vervolgens deel je elke observatie door de standaarddeviatie van X. Hierdoor
krijgen de nieuwe scores een standaarddeviatie gelijk aan 1.
𝑋−𝜇 𝑋−𝑋
De formule: Populatie: Z = 𝜎 , Steekproef: Z = 𝑠
Een Z-score geeft aan hoeveel standaarddeviaties een observatie af ligt van het
gemiddelde. Bijvoorbeeld Z=3; x ligt 3 standaarddeviaties boven het gemiddelde. z=
0 ; x is gelijk aan het gemiddelde. z= -2 ; x ligt 2 standaarddeviaties onder het
gemiddelde. Om van Z scores weer terug te gaan naar X scores gebruik je de
volgende formule: Populatie: X = μ + Z × 𝜎, Steekproef: X = X̄ × s
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur melissauvt. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €4,49. Vous n'êtes lié à rien après votre achat.