Beschrijvende statistiek en kansrekenen
Hoofdstuk 1: Wat is statistiek?
1.1 Waarom statistiek
Met statistiek kan men data verwerken tot bruikbare informatie
o Vroeg of laar wordt je er (vaak onbewust) mee geconfronteerd
• Bedrijfsleven
• Bachelorproef
• Banken
• …
o Nodig om gegevens te analyseren en beslissingen maken
1.2 Definitie van statistiek
o Statistiek verwijst naar numerieke informatie
• Omtrent bevolking van een land
- Geboorte- en sterftecijfers, immigraties, …
• Omtrent de economie
- Tewerkstelling- en werkloosheidsgraad, investeringen,…
• Omtrent een bedrijf of sector
- Verkoopcijfers, resultaatrekening, groei,…
o Definitie: het geheel van methodologieën voor het verzamelen, voorstellen, analyseren en
interpreteren van data of gegevens
• Algemene hulpwetenschap
• In elke werkomgeving belangrijke rol
o Data zijn in moderne maatschappij massaal aanwezig
• Computerbestanden in bedrijven bevatten bv. verkoopcijfers, kostprijzen,…
• Financiële pagina’s in kranten bevatten bv. aandeelkoersen, wisselkoersen,…
• Federale overheid publiceert vaak info over bv. bevolking, handel,…
• Internet is een bron van datasets
o Ondernemingen verzamelen zelf data
• Uitvoeren experimenten
• Hebben kwaliteitsafdelingen
o Onderzoeksbureaus verzamelen ook data
• Via enquêtes
• Via telefoon
• Via straatinterviews
1.3 Voorbeelden
o Luchtvaartmaatschappij: onderzoek over gedrag passagiers
• Aantal passagiers dat niet komt opdagen -> no-shows
• Gewicht dat passagiers meenemen
• Tijd dat passagiers effectief aankomen voor officiële vertrekuur
- Onderscheid gemaakt tussen economy- en business class
1
, o Productie van koffie: luchtvochtigheid is belangrijk
• Vochtigheid moet binnen bepaalde perken blijven
• Dagelijkse metingen voor beste kwaliteit
= Statistische procescontrole
o Vulmachine voor flessen: meerdere knoppen ->meer in 1 beweging gevuld kunnen worden
• Per uur wegen ze aantal gevulde flessen na
• Gewenste hoeveelheid
o Grootwarenhuizen: verzamelen info dankzij klantenkaarten
• Gespendeerd bedrag per winkelbeurt
• Aantal verkochte artikels
• Betaalwijze
o Financiële analisten: graad risico van beleggen onderzoeken
• Bijhouden maandelijkse rendementen bepaalde aandelen
1.4 Onderwerp van de statistiek
o Populatie: objecten of elementen die onderzocht worden of over een proces dat objecten of
elementen genereert
o Variabelen: eigenschappen of karakteristieken
• Waarde van eigenschap varieert van element tot element
o Steekproef: deel van de populatie/elementen
• Moeilijk te kiezen
• GIGO: garbage in, garbage out
- Kan geen betrouwbare info halen uit slechte kwaliteit
o Voorbeeld: verkiezingen
• Populatie: iedereen die mag stemmen
• Variabelen: geslacht, beroep, politieke overtuiging en leeftijd
o Voorbeeld: opgooien dobbelsteen
• Mogelijke steekproef: dobbelsteen 50x opgooien
• Variabelen: aantal gegooide ogen of aantal niet gegooide ogen
o Extra voorbeelden p 18
o Verzamelde gegevens uit steekproeven overzichtelijk maken en voorstellen
= Beschrijvende of descriptieve statistiek
• Tabellen en grafieken, gemiddelde berekenen,…
o Tweede onderdeel: analyseren en interpreteren steekproefgegevens
• Nodig voor antwoorden op vooraf gestelde vragen
• Conclusies worden veralgemeend naar de populatie = inferentie
= Verklarende- of inferentiële statistiek
o Nadeel statistiek: nooit zekerheid over uitspraak in verband met de populatie bij
veralgemening steekproef, kans dat het niet klopt
1.5 Kansrekening
o Bestudeert processen of experimenten waarbij de uitkomst onzeker is
• Vb. opgooien dobbelsteen, aantal bezoekers op een website,…
o Bestudeert populaties en processen rechtstreeks
• Verschil met statistiek (via steekproefgegevens)
o Vertrekken vanuit aannames omtrent populatie of proces
o Voorbeelden die verschil verduidelijken p 20
2
,1.6 Software
o Om overzichtstabellen, grafische voorstellingen,… te maken
o Noodzakelijk
o JMP: statistisch softwarepakket
Hoofdstuk 2: Data en hun voorstelling
2.1 Soorten gegevens en meetschalen
o Meetschalen: bepalen alles wat we met variabelen kunnen doen
• Vraag die je moet stellen voor je begint: ‘welke meetschaal?’
2.1.1 Categorische of kwalitatieve variabelen
o Nominale variabelen
• Laagst mogelijke meetschaal
• Classificeren/opdelen in groepen van de elementen van de steekproef
- Waarde variabele plaatst element in bepaalde klasse of categorie
- Vb. geslacht, nationaliteit, godsdienst,… -> groepen overlappen niet
• Vaak gebruik maken van cijfercodes
- Labels, codenummers of -letters toekennen aan bepaalde klassen
- Vb. Belg is 1, Nederlander is 2, postcodes, …
• Niet mee rekenen (bv. geen gemiddelde nemen)
• Wel frequentie berekenen
o Ordinale variabelen
• Logische ordening van klassen
• Vaak gebruikt bij enquêtes
- 1 is zeer goed, 2 is goed, … of eens noch eens
- Vb. aantal sterren van restaurant of hotel
• Geen verschil berekenen want geen vaste meeteenheid (weinig zin)
2.1.2 Kwantitatieve variabelen
o Uitdrukbaar in vaste meeteenheden
• Vb. lengte, gewicht, inhoud,…
o Wiskundige berekeningen mogelijk
o Intervalschaal
• Mag onder 0 gaan, geen natuurlijk nulpunt
- Ondergrens is niet zinvol
- Vb. temperatuur in graden of Fahrenheit, tijd,…
o Ratioschaal
• Hoogst mogelijke meetschaal
• Meest bruikbaar -> verhoudingen berekenen
• Absoluut nulpunt
- Vb. lengte, gewicht, temperatuur in Kelvin…
Discrete vs continue variabelen
o Discrete: kan eindig of oneindig aftelbaar verschillende waarden aannemen
• Eindig aantal tellingen
• Vb. passagiers op lijnvlucht, aantal kinderen in gezin, …
o Continue: continuüm van waarden
• Oneindig achter de komma
• Vb. lengte, duurtijd, gewicht, BMI, …
3
, 2.1.3 Hiërarchie van meetschalen
o Hoogste/ meest informatieve meetschaal: ratioschaal
o Dan intervalschaal, ordinale schaal en dan nominale meetschaal
o Gegevens kan je omvormen naar een lagere meetschaal
• Vb. lengte is ook intervalgeschaald, ordinaal en nominaal (p 25)
• Omgekeerd nooit
2.1.4 Meetschalen in JMP
o Softwarepakket maakt onderscheid tussen nominale, ordinale en kwantitatieve variabelen
• Meetschaal: modeling type
• Variabelen: nominal, ordinal en continuous
2.2 De datamatrix
o Voorstelling van gegevens in een matrix
• Rijen: elementen of waarnemingen van een steekproef
- Benaming: observatievector
• Kolommen: verschillende gemeten variabelen
o Univariante variabele: betrekking op 1 variabele
o Bivariate variabele: betrekking op 2 variabelen
o Voorbeeld p 26-27 tabellen begrijpen
meetschalen
2.3 Voorstellen van univariante kwalitatieve variabelen
o Kwalitatieve variabalen laten toe gegevens te categoriseren
• Absolute frequentie:
- Aantal elementen van de steekproef die tot
een klasse behoren
• Relatieve frequentie:
- Verhouding van de klassefrequentie tot totaal
aant waarnemingen/observaties in steekproef
- Bij % -> grootte steekproef vermelden
• Pareto-diagram:
- Klassen herschikken volgens dalende frequentie
- Vervolgens frequentie cumulatief optellen
- Linkse verticale as: staafdiagram
- Rechtse verticale as: cumulatieve frequentie
• Cirkel-, sector- of taartdiagram
2.4 Voorstellen van univariante kwantitatieve variabelen
o Kwantitatieve variabelen kan je het minst mee doen
• Stam- en bladdiagram
- Bewaart ook individuele waarnemingen
- Niet enkel beeld van frequenties
- Stam: geheel getal voor de komma
- Blad: getal na de komma
- Goedkoopste wijnen vb. kosten 2,2;
2,5; 2,6 en 2,7 euro
• Naalddiagram voor discrete variabelen
- Weergeeft absolute of relatieve frequenties weer van
verschillende waarden van een variabele
4