volledige samenvatting van het boek m.u.v. JMP (komt niet op het examen) en bewijzen; hiervoor werd plaats gelaten om deze te noteren met verwijzing van de paginanr in het boek
Beschrijvende statistiek
Hoofdstuk 1: Wat is statistiek?
Waarom statistiek?
• Gegevens analyseren → concrete beslissingen
• Voorsprong bij het verzamelen van gegevens
• Six Sigma verbeterprogramma: concrete problemen oplossen die een grote financiële impact
hebben → aantal fouten en defecten maar weinig
o Meer doordachte, wetenschappelijke aanpak van problemen
o Werkwijze:
→ meetfase: verzamelen van gegevens
→ onderzoeken van gegevens door statistische methoden
→ mogelijks interessante inzichten/aanbevelingen
• Datasets met veel gegevens kan niet grondig bestudeerd worden zonder statistische achtergrond
Definitie van statistiek
• Statistiek = numerieke informatie
• Formeel: statistiek = het geheel van methodologieën voor het verzamelen, voorstellen ,analyseren
en interpreteren van data of gegevens
• Statistiek is een hulpwetenschap
• Doel statistiek: gegevens/data verwerken tot bruikbare informatie
Voorbeelden p16
• Luchtvaartmaatschappij
• Vochtigheidsgraad
• Grootwarenhuizen
• Risicograad van beleggen in een bepaald aandeel
Onderwerp van de statistiek
• Populatie = betreffende objecten = doelgroep
• Eigenschappen = variabelen = karakteristieken
→ waarde varieert per element
• Steekproef = deel van de populatie waarvan effectief gegevens worden verzameld
→ verzamelen van gegeven moet kwalitatief gebeuren → GIGO ‘garbage in, garbage out’ = slechte
gegeven zorgen voor niet betrouwbare resultaten
• Verzamelde gegevens kunnen overzichtelijk voorgesteld worden door tabellen en grafieken of door
het berekenen van kenmerkende waarden (=statistieken) bv: gemiddelde
• Beschrijvende = descriptieve statistiek = het voorstellen van steekproefgegevens
o Stap 1: beschrijven van de steekproefgegevens
o Stap 2: analyseren en interpreteren van de steekproefgegevens
1
Shanti Langers
,• Inferentie = het veralgemenen van de conclusies die gemaakt worden o.b.v. de gegevens uit de
steekproef voor de gehele populatie → inferentiële statistiek = wiskundige stat = verklarende stat =
steekproeftheorie
• Veralgemening = zwakte → nooit met zekerheid uitspraken over de gehele populatie
→ graad van betrouwbaarheid uit te drukken door een kans
• Kans op fouten wordt kleiner naarmate er meer kwaliteitsvolle gegeven worden verzameld
Kansrekening
• Kansrekenen = het bestuderen van processen/experimenten met een onzekere uitkomst
→ bestudeerd populaties/processen rechtstreeks
→ statistiek bestudeerd ‘’ via steekproefgegevens
• Voorbeelden: gooien van een dobbelsteen, industrieel vulproces, bestuderen van het belgisch
kiesgedrag
• Zwakke plek kansrekenen: veronderstellingen kunnen fout zijn → ongeldige conclusies
Software
• Maken van overzichtstabellen/grafische weergave van alle gegevens van een steekproef belangrijk
om structuur in berekeningen te hebben
• Statistische softwarepakket: JMP
Hoofdstuk 2: Data en hun voorstelling
Soorten gegevens en meetschalen
• Verschillende soorten meetschalen voor variabelen
o Kwalitatief/kwantitatief
o Nominaal/ordinaal/interval/ratio
Kwalitatieve variabelen (categorische)
• Nominale variabelen: de waarden van de variabele plaatst het element in een bepaalde
klasse/categorie
o Vb: geslacht, postcode, nationaliteit, …
o Zijn cijfercodes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
• Ordinale variabelen: een nominale variabele die op een logische manier geordend kan worden
o Vb: Michelinsterren, opties enquête, …
o Zijn cijfer codes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
o De waarden kunnen geordend worden
Kwantitatieve variabelen
• Intervalschaal: waarden worden uitgedrukt in een vaste meeteenheden maar er is geen natuurlijk
nulpunt (geen ondergrens)
o Vb: tijdstippen, temperatuur in °C, …
o Verhoudingen zijn niet zinvol (bv: 20°C is niet dubbel zo warm als 10°C)
o Verschillen tussen waarden zijn WEL betekenisvol
2
Shanti Langers
,• Ratioschaal: waarden worden uitgedrukt in een vaste meeteenheden en er is een natuurlijk nulpunt
o Vb: lengte, gewicht, tijdsduur, …
o Verhoudingen zijn WEL zinvol (bv: 20 meter is dubbel zo ver als 10 meter)
o Let op: temperatuur in Kelvin heeft wel een absolute ondergrens → ratioschaal
• Discrete variabelen
o Aantallen; geen tussenwaarden
o Bv: aantal studenten, aantal bomen, …
• Continue variabelen
o Oneindig veel tussenwaarden; oneindig nauwkeurig
o Bv: lengte, gewicht, …
Hiërarchie van meetschalen
• Gegevens van een hogere meetschaal kunnen omgevormd worden naar een lagere meetschaal
maar niet andersom
Ratio
De datamatrix Interval
Ordinaal
• Gegevens worden vaak in een
Nominaal
matrix voorgesteld
• Rijen stellen elementen/waarnemingen voor = observatievector
• Kolommen stellen verschillende gemeten variabelen voor
• Univariante voorstelling: 1 variabele
• Bivariante voorstelling: 2 variabelen
• Multivariante voorstellingen: meerdere variabelen
Voorstellen van univariante kwalitatieve variabelen (frequenties)
• Staafdiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen
• Paretodiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen van meest naar minst frequent
o Aandacht vestigen op klassen met hoogte frequenties
o Lijnstuk illustreert de cumulatieve frequenties (schaal op rechter Y-as)
• Taartdiagram, cirkeldiagram, sectordiagram
o Voordeel: verhoudingen zijn duidelijk weergegeven
o Nadeel: onoverzichtelijk bij veel verschillende groepen
Voorstellen van univariante kwantitatieve variabelen
• Stam- en bladdiagram
o Voordeel: geeft beeld van frequenties EN bewaart individuele waarnemingen
o Stam geeft het cijfer voor de komma weer
o Blad geeft telkens 1e cijfer na de komma weer
o Count geeft de frequentie van de waarneming weer
3
Shanti Langers
, • Naalddiagram
o Discrete univariante kwantitatieve variabelen
o Weergeven relatieve/absolute frequentie per waarde
o Vergelijkbaar met staafdiagram
o Nadeel: bij veel mogelijke waarden niet overzichtelijk
• Histogram
o Continue univariante kwantitatieve variabelen
o Interval wordt onderverdeeld in verschillende klassen
o Nadeel: aantal klassen beïnvloed het uitzicht van de histogram
→ te veel klassen: te veel detail, moeilijk conclusie maken
→ te weinig klassen: te weinig informatie, geen accurate conclusie mogelijk
o Standaardregel: √#𝐰𝐚𝐚𝐫𝐧𝐞𝐦𝐢𝐧𝐠𝐞𝐧 = het aantal klassen
o Rechthoeken worden tegen elkaar geplaatst (verschil van naalddiagram en staafdiagram)
→ benadrukken continu karakter van de variabele
• Frequentiepolygoon
o De middens van de toppen van de kolommen van de histogram worden met elkaar
verbonden en het oppervlak onder dit lijnstuk wordt ingevuld
• Empirische cumulatieve verdelingsfunctie
o Discrete en continue kwantitatieve variabelen
o Voordeel: in een enkele oogopslag kan men de kwartielen en de mediaan bepalen
o Vaak gebruikt om na te gaan of de populatie van de steekproefgegevens normaal verdeeld is
Voorstellen van bivariaten variabelen
Kwalitatieve variabelen
• Kruistabel
o Nominale en ordinale gegevens EN kwantitatieve gegevens in klassen
o = soort meervoudig staafdiagram
• Mozaïek plot
o Grafisch alternatief voor kruistabel
• Meervoudig staafdiagram
o Grafisch alternatief voor kruistabel
Kwantitatieve variabelen
• Puntenwolk
o Een puntenconfiguratie die voortkomt door elke waarneming van een steekproef voor te
stellen als een punt
o Geeft beeld van verband tussen de 2 variabelen
o Bubble plot = voor weergave van 3 kwantitatieve variabelen; de grootte van de punten
verschillen
o Gestratificeerde puntenwolk = voor weergave van 2 kwantitatieve en 1 kwalitatieve
variabelen
4
Shanti Langers
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur shantilangers. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €8,99. Vous n'êtes lié à rien après votre achat.