STATISTIEK
H0: Voorwoord
- Drie deuren probleem = Monty Hall Probleem
o Spel, 3 deuren + 1 presentator + 1 speler
o Achter 2 deuren een geit, 1 deur een auto
o Speler kiest deur + presentator ook waarachter geit schuilt => wijzigt speler keuze of
niet?
- Foutenmarge = statistiek laat bij testen altijd een zekere waarschijnlijkheid toe dat er een
foute beslissing wordt genomen
o Type 1 (false positive): detecteren van iets wat er niet is
o Type 2 (false negative): niet-detecteren van iets wat er wel is
o BELANG: afhankelijk van de omstandigheden
H1: Inleiding
- Overzicht cursus
o Beschrijvende statistiek
Univariaat (met 1 veranderlijke): presentatie data + statische parameters
Bivariaat (met 2 veranderlijke): correlatie
Multivariaat (met meerdere veranderlijke)
o Wiskundige statistiek
Combinatieleer
Kansrekening
Distributiefuncties: discreet – continue – steekproeftheorie
o Verklarende statistiek
Betrouwbaarheidsintervallen (verschillende statistische parameters)
Testen van hypothesen: voor verschillende statistische parameter + voor
kansverdelingsfuncties + regressie + ANOVA
- Basisbegrippen
o Data / gegevens = observaties die verzameld werden
o Populatie = de verzameling van ALLE elementen die bestudeerd worden
Parameter / kengetal = numerieke waarde die eig. van populatie beschrijft
o Telling = verzameling van data over alle leden van populatie
o Steekproef = verzameling van data over DEELgroep van populatie
(Steekproef)grootheid = numerieke waarde die eig. van steekproef beschrijft
- Verzamelen van data
o 2 bronnen
Observatie => meten / observeren van eigenschappen van elementen
steekproef (mogelijk vooraf bestaande data) = associatie aantonen
Experiment => meten / observeren van invloed van zekere behandelingen op
eigenschappen van de elementen van steekproef = oorzakelijk verband
o Verwarring = niet in staat onderscheid maken tussen effecten van verschillende
behandelingen in experiment
o Samplen = selecteren van elementen voor steekproef uit populatie volgens strategie
, Strategieën: random + systematisch + geclusterd + groepsgewijze selectie +
“zonder veel moeite” (dia 22)
H2: Data voorstelling
- Veranderlijke (= eig. die kan variëren)
o Kwalitatieve veranderlijke = categorie
o Kwantitatieve = meting of telling
Discrete veranderlijke = eindig (of aftelbaar) aantal waarden aannemen
Continue veranderlijke = alle waarden aannemen in (al dan niet) eindig
interval (zonder sprong tussen waarden)
o Gegevens/date = waarden die veranderlijke aannemen
- Meetniveaus
o Nominaal = gegevens onderscheiden door naam / label / categorie
Geen ordening / geen meeteenheid / geen verhouding
o Ordinaal
Wel ordening / geen meeteenheid / geen verhouding
o Interval
Geen absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / geen verhouding
o Ratio
Wel absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / wel verhouding
- Kwalitatieve data
o Frequentietabel = samenvatting per categorie
Absolute frequenties => tellen (voor elke categorie)
Relatieve/%/cumu. frequenties => absolute frequentie / som alle warden
- Kwantitatieve data
o Frequentietabel
Absolute + relatieve frequenties => nu wel ordening van numerieke
categorieën (soms nood aan groepering datacat.)
o Frequentietabel groeperen van data (dia 20)
Single – value grouping ( 1 aparte klasse per waarde + beperkt aantal)
Limit grouping (onder en bovengrens voor elke klasse, groot aantal gehele)
Klassebreedte = verschil ondergrens klasse en ondergrens volgende
Klassemidden = gemiddelde onder en bovengrens klasse
Cutpoint grouping (elke klasse halfopen interval)
Gesloten onderaan, open bovenaan => elke waarde 1 interval
Ondergrens elke klasse = kleinste waarde
Bovengrens elke klasse = ondergrens volgende klasse
Klassebreedte = verschil boven en ondergrens klasse
Klassemidden = gemiddelde boven en ondergrens klasse
o Grafieken
Histogram (kan voor alle 3) / frequentiepolygoon / ogieve & cumulatieve
frequentiepolygoon / (modified) boxplot / dot-plot / stamdiagram /
scatterplot & spreidingsdiagram
- Vorm van distributie
o Grafiek / tabel / formule die aangeeft x waarden mogelijke observaties voorkomen
, o Eigenschappen
Modaliteit = aantal pieken (modi ) / scheefheid = symmetrisch of met
overwicht van kleine (links scheef) / grote waarden (rechts scheef)
H3: Kerngetallen en grootheden
- Kengetallen voor het centrum
o Gemiddelde: Populatie µ & Steekproef 𝑥 ̅
Berekening voor afzonderlijke waarnemingen
Berekening voor gegroepeerde waarnemingen
Single-value grouping:
Limit grouping of cutpoint grouping:
o Mediaan = waarde voor evenveel grotere observaties als kleinere observaties =>
maat voor midden van data = xme
Vereist (stijgend) gesorteerde data
Berekening voor afzonderlijke waarnemingen
Aantal elementen (N populatie, n steekproef)
o Oneven = middelste waarde
o Even = gemiddelde van de 2 middelste waarden
Berekening voor gegroepeerde waarnemingen
Single value = zelfde afzonderlijke waarnemingen
Limit of cutpoint
o Interpolatie van de ogive => gebruik relatieve cumulatieve
frequenties => waarde waar ogive 50 % bereikt
o Modus
= de observatie die het vaakst voorkomt
Bij een onderverdeling in klassen: modale klasse = klasse met
hoogste frequentie
Bij continue verdeling: lokaal maximum in de distributiefunctie
- Kengetallen voor de spreiding
o Variantie: populatie = 𝜎² & steekproef = 𝜎
Afzonderlijke waarnemingen
Gegroepeerde waarnemingen
Single value grouping
, Limit of cutpoint grouping
o Standaardafwijking: populatie = s² & steekproef = s
= positieve vierkantswortel van variantie
Maat voor afwijking van alle waarden tov. gemiddelde + beïnvloeding door
uitschieters
o Bereik = Max – Min (eindig + gevoelig voor uitschieters)
o Variatiecoëfficiënt
= hoe nauw zitten de data bij ratio-meetniveau rond de typische gemiddelde
waarden
Zinvol voor ratio-meetniveau (dimensieloos)
Vuistregel
CV < 5% => zeer kleine spreiding
CV < 20% => relatief beperkte spreiding
CV > 50% => zeer grote spreiding
o Ruwe regels voor spreiding
- Kengetallen voor relatieve positie
o Percentielen
PK voor k-de percentiel = k% van de waarnemingen zijn kleiner dan Pk en
(100-k%) van waarnemingen groter dan Pk
Berekening dia 50
o Kwartielen
Eerste kwartiel: Q1 = P25
Tweede kwartiel (mediaan): Q2 = P50
Derde kwartiel: Q3 = P75
Interkwartielafstand: IQR = Q3 -Q1
Bevat 50% centrale waarden van de verdeling
o Decielen = opdeling van data in 10 gelijke delen (P10, P20, P30…0
o Kwintielen = opdeling van data in 5 gelijke delen (P20, P40, P60, P80)
o 5 getallen samenvatting
5 getallen: Min – Q1 – Q2 – Q3 – Max
Uiterste grenzen: min, max
Geconcentreerdheid: rond centrum; IQR te klein tov bereik
Scheefheid: Linker of rechterdeel meer of minder uit elkaar
Voorstellen met (gewijzigd) boxplot
- Gestandaardiseerde veranderlijke
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur alinet. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,99. Vous n'êtes lié à rien après votre achat.