Dit is een uitgebreide samenvatting voor het vak beschrijvende statistiek voor op de UVA (7082S033AY). Naast alle begrippen, worden ook sommige berekeningen toegelicht aan de hand van voorbeelden.
Ik heb hier zelf een 10 mee gehaald en wil graag anderen hierbij helpen.
Hoorcollege 1: Centrummaten
Hoofdstuk 1
Data Informatie die verzameld wordt met experimenten en surveys
Statistiek (nummerical summaries) De kunst en wetenschap van het leren van data
Kunst en wetenschap van het ontwerpen van onderzoeken en het analyseren van gegevens
die de onderzoeken opleveren. Doel: vertalen van data naar kennis en begrip van de wereld
om ons heen
Probability Raamwerk om te kwantificeren hoe waarschijnlijk verschillende mogelijke uitkomsten zijn
(waarschijnlijkheid)
Subjects De entiteiten die we meten in een onderzoek (mensen, scholen, landen, dagen)
(elementen)
Populatie Alle subjecten waar je geïnteresseerd in bent
Sample Deel van de populatie waar je data van hebt verzameld, vaak random
Census Opsomming of telling van alle elementen/subject in de populatie
Random sampling (Aselecte steekproef) Het random selecteren van deelnemers voor je onderzoek vanuit
gehele populatie. Elk subject heeft gelijke kans heeft dezelfde kans om getrokken te worden
met de steekproef
Statistically Wanneer verschil tussen resultaten voor twee behandelingen zo groot is dat het zeldzaam
significant zou zijn om zo'n verschil te zien door gewone willekeurige variatie
Databases Bestaande archiefverzamelingen van databestanden
Simulation Gebruiken van computer om na te bootsen wat er werkelijk zou gebeuren als je een
steekproef zou selecteren en statistieken in het echte leven zou gebruiken
Random assignment (Aselecte toewijzing) Het random toewijzen van deelnemers aan de verschillende condities
(groepen) in je onderzoek
Onderzoeksproces bij statistiek probleem
1. Formuleren statistische vraag
2. Verzamelen data
3. Analyseren data
4. Interpreteren data
Samenvatting van data:
1. Parameter
Numerieke samenvatting van de populatie
Vaak onbekend
Meet je eigenlijk nooit, gebruik je statistic voor
PP- parameter, populatie
Gemiddelde ( μ) en standaard deviatie (σ )
2. Statistic (steekproefwaarde)
Numerieke samenvatting van een steekproef uit de populatie
SS-Statistic, steekproef
Gemiddelde ( x ) en standaard deviatie ( s)
--> Samenvattende waarde, zoals gemiddelde, modus of mediaan
,Componenten statistiek voor beantwoorden van een statistische vraag:
1. Design (ontwerp)
Doel/statistische kwestie van belang aangeven
Plannen hoe gegevens te verkrijgen die hierop betrekking hebben
Hoe betrouwbare informatie verkrijgen?
Bevat vaak nemen van steekproef uit de populatie
2. Typen statische analyse
Description (beschrijvende statistiek)
Samenvatten en analyseren data
Patronen ontdekken
Bestaat meestal uit grafieken en getallen, zoals gemiddelden en percentages
Makkelijker te vergelijken
Bar graph (staafdiagram)
Doel: Verminderen data tot versimpelde samenvatting zonder informatie te
vervormen/verliezen
Bruikbaar als data voor gehele populatie beschikbaar is (bijvoorbeeld census)
Niet altijd voor gehele populatie beschikbaar, dan alleen van steekproef
--> Hierbij geen conclusie voor gehele populatie, dat is inference
Inference (toetsende statistiek)
Beslissingen nemen
Voorspellingen doen
Beantwoorden van de statistische vraag
Resultaten gelden vaak voor grotere groep dan alleen onderzoeksgroep
Kijken wat betekenisvol is
Wordt gebruikt als data alleen beschikbaar is van steekproef, maar wel conclusie willen
trekken voor gehele populatie (generaliseren)
Foutmarge (margin of error):
Verschil tussen de schatting die je vindt in je steekproef en de populatie
Wordt kleiner bij grote willekeurige steekproef; Hoe groter de steekproefgrootte, hoe meer zekerheid
n: aantal proefpersonen in de steekproef
95%-betrouwbaarheidsinterval met behulp van een eenvoudige willekeurige steekproef
Statisch significant (Als resultaten zelden worden waargenomen met alleen gewone willekeurige variatie)
Gallup’s annual environmental survey 2 reported that 60% of Americans favored offshore drilling as a means
to reduce U.S. dependence on foreign oil, 37% opposed offshore drilling, and the remaining 3%
had no opinion. The poll was based on interviews conducted with a random sample of 1021 adults, aged 18
and older, living in the continental United States, selected using random digit dialing.
,Hoofdstuk 2.1-2.3
Variabele Elk kenmerk waargenomen in een onderzoek. Deze kan variëren
Modus Meest voorkomende getal, grootste frequentie. Bij meerdere getallen is er geen
(modal category) modus.
Bij categorische variabelen: modale categorie
Bij kwantitatieve variabelen: modus
Mediaan Van klein naar groot het middelste getal. Bij 2 getallen, dan het gemiddelde van deze 2
Mean Gemiddelde. ( x ¿
∑ ❑=de som, xi=gemeten variabelen. Beginnend bij i=1 (eerste meting) tot n
(steekproefgrootte).
Gemiddelde E=de som. n= steekproef. Fi (frequentie) * xi (gemeten variabelen). Beginnend bij i=1
frequentieverdeling (eerste meting) tot k (aantal verschillende uitkomsten).
Resistance Numerieke samenvatting van de waarnemingen. Outliers hebben weinig/geen invloed
op de waarde. Dit is bij de mediaan het geval
Outlier Waarneming die ver boven/onder het grootste deel van de gegevens valt. Haalt het
gemiddelde erg omhoog/omlaag. Vooral bij weinig metingen. Is afhankelijk van
onderzoeker of die het echt een outlier vindt
Observatie De gegevenswaarden die we waarnemen voor een variabele
Distribution Beschrijft hoe de waarnemingen vallen (verdeeld worden) over het bereik van
mogelijke waarden
Pareto principle Stelt dat een kleine subset van categorieën vaak de meeste waarnemingen bevat
(Android en iOS hebben samen meest verkochte smartphones). Kan een Pareto chart
goed weergeven
Tails De delen van de curve voor de laagste waarden en voor de hoogste waarden
Time-series Een dataset die in de loop van de tijd is verzameld
Beschrijvende statistiek voor 1 variabele:
Grafische weergave
Centrummaten
1 representatieve waarde om variabele weer te geven
Bijv. gemiddelde, mediaan of modus
Spreidingsmaten
Range (bereik): maximum-minimum
Interkwarielafstand (IQR): Q3-Q1
Deviatie: x - x
Standaarddeviatie
, Soorten variabelen:
1. Categorisch (in categorieën):
Waarde zijn categorieën
Kan wel getallen aan gekoppeld zijn en kan je eventueel ordenen
Je kan er geen gemiddelde mee uitrekenen
Centrummaat: Modale categorie
Sekse, religie, haarkleur, ja/nee-antwoorden
Cirkeldiagram, staafdiagram, frequentietabel
Nominale en ordinale variabelen
2. Kwantitatief (Numerical):
Waarde representeert grootte van variabele in de vorm van een getal
Centrummaat: Mediaan en gemiddelde (modus)
Kan je mee rekenen
Histogram, dot plot, stem and leaf (en frequentietabel)
Interval en ratio variabelen
Soorten
a. Discreet:
Gehele, vaste waarden
Aantal huisdieren, aantal kinderen
b. Continue:
Waarden kunnen onbeperkt weinig van elkaar verschillen
Interval
Lengte, gewicht, leeftijd
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur michelle0. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,99. Vous n'êtes lié à rien après votre achat.