Définitions
Statistique descriptive : analyser et résumer de manière quantitative un ensemble (échantillon) de données ou d’info, à l’aide de méthodes simples et souvent
visuelles (graphique, tableau, chiffres-clés) tendances, formes
Statistique inférentielle : permet de tirer des conclusions sur les propriétés une population à partir des données d’un échantillon
Population N : ensbl d’indiv ou d’éléments, partageant une ou pls cara qui les regroupe, sur lequel porte une étude – étud HEG
Échantillon n : sous-ensemble d’une population, sélectionné selon une procédure définie – étudiant 1 ère année HEG
Variable : caractéristique d’une unité – taille, poids, couleur yeux, genre
- Quantitative : valeur qu’elle peut prendre sont des nombres
o Discrète : nombre limité de valeurs (nbr d’enfants)
o Continue : n’importe quelle valeur d’un intervalle (poids)
- Qualitative : caractéristiques ou qualités des sujets
o Ordinale : valeurs peuvent être ordonnées de façon naturelle – qualité : bon, moyen, mvs
o Nominale : on ne peut pas les classer de façon naturelle – genre, groupe sanguin
Variables qualitatives
Fréquence : nombre d’observations dans cette classe
Fréquence relative : fréquence de la classe nombre total d’observation compris entre 0 et 1 ou %
Fréquence cumulée : somme des fréquences (nb d’observations) de toutes les classes qui la précèdent dans l’ordre de classmt
Fréquence relative cumulée : fréquence cumulée de la classe nb total d’observations variables qualit ordinales + quantitatives
Distribution de fréquence : tableau résumant des données en indiquant les fréquences de différentes classes disjointes.
Exemple
Temps d’attente : 2, 5, 10, 12, 4, 4, 5, 17, 11, 8, 9, 8, 12, 21, 6, 8, 7, 13, 18, 3 tot nb val = 20
La somme des fréquences relatives vaut toujours 1.
Distr de fréqu : prendre classes de la var et déterminer fréqu relative
Classes Fréquence Fréquence cumulée Fréquence relative Fréquence relative cumulée
[0, 5[ 4 4 4 20 = 0,20 ou 20% 0,20 ou 20%
[5, 10[ 8 4 + 8 = 12 8 20 = 0,40 0,20 + 0,40 = 0,60
[10, 15[ 5 12 + 5 = 17 5 20 = 0,25 0,60 + 0,25 = 0,85
[15, 20[ 2 17 + 2 = 19 2 20 = 0,10 0,85 + 0,10 = 0,95
[20, 25[ 1 10 + 1 = 20 = total 1 20 = 0,05 0,95 + 0,05 = 1
Diagramme en barre : données qualitatives résumées par une distribution de fréquence absolue, relative ou %. H = classe, V = fréquence les barres sont de
largeur égales, mais de hauteurs proportionnelles à la fréquence.
Diagramme circulaire (camembert) : données qualitatives résumées par une distribution de fréquence relative ou %
Ogive : données qualit ordinales résumées par une distribution de fréquence cumulée absolue, relative ou %. Courbe relie pt
Variables quantitatives
Statistique d’ordre d’un échantillon = valeurs ordonnées par ordre croissant x[1], x[2], x[n]
Regroupement de données :
1. Spécifier le nombre souhaité de classes
2. Spécifier l’amplitude (largeur) de chq classes
3. Spécifier les limites de chq classe
Histogramme : données quantitatives groupées en intervalles et résumées par une
distribution de fréquence absolue, relative ou % . H = densité ≠ diagramme en barre, histogramme pas séparé naturellement entre les rectangles
Ogive : données quantitatives résumées par une distribution de fréquence cumulée absolue, relative ou %. Courbe relie points
Diagramme linéaire : série de valeurs observées dans le temps.
Synthèse numérique Indicateurs de dispersion
Mode = tendance centrale = valeur la plus souvent observée (= la majorité). Si toutes les valeurs sont différentes, pas de mode.
Exemple : choix d’horaires : 7h, 7h30, 8h, 8h30, 9h
Éch horaires choisis : 7h, 8h30, 9h, 8h, 7h30, 7h30, 8h30, 8h30, 7h30, 7h, 8h30, 8h30, 8h, 8h, 7h30, 8h30, 7h, 9h, 8h30, 8h
Tendance centrale qui convient le mieux pour décrire la préférence de la majorité = mode = 8h30
Quel % après 7h15 mais avant 8h15 : 0,20 + 0,20 = 0,40 ou 40%
Moyenne : pour un échantillon = x ̄ , pour une population =
2 éch de taille n1 = 50 et n2 = 30 ont des moy de x ̄ 1 = 100 et x ̄ 2 = 200. Moy nvl éch = n1 x x ̄ 1 + n2 x x ̄ 2 / n1 + n2 = 5'000 +
6'000/80
Médiane x ,̃ 1/2 : valeur au centre des observations. Elle peut être <, = ou > que la moyenne.
Si n impair : valeur du milieu Exemple 38, 39, 43, 43, 45, 46, 52, 54, 55, 56
Si n pair : les deux valeurs centrales 2 médiane impair x ̃ = (45 + 46) 2 = 45,5
Moyenne tronquée : moyenne calculée sur une distribution/échantillon dont les % des plus petites et grandes valeurs sont retirée
Quantile d’ordre Quartiles
Exemple : distribution 11, 23, 35, 54, 21, 93, 46, 25, 13, 43, 25, 34, 31, 42, 18, 20, 41, 44, 27, 28
Statistique d’ordre = 11, 13, 18, 20, 21, 23, 25, 25, 27, 28, 31, 34, 35, 41, 42, 43, 44, 46, 54, 93
Q1 : rang 0,25 x (20 nb obs – 1) + 1 = 5,75, donc Q1 = 21 + 0,75 x (23-21) + 1= 22,5
Q2 = médiane : rang 0,5 x (20 – 1) + 1 = 10,5, donc Q2 = 28 + 0,5 x (31-28)=29,5
Q3 : rang 0,75 x (20 – 1) + 1 = 15,25, donc Q3 = 42 + 0,25 x (43-42) = 42,25
Rang = on prend la valeur à la xe place
Ecart interquartile EIQ : Q3 – Q1. C’est l’étendue de la moitié centrale des données
EIQ = Q3 – Q1 = 42,25 – 22,5 = 19,75
, 5 number summary : 1. Minimum x[1] 2. 1 er quartile
Q1 3. Médiane x ̃ Q 4. 3e quartile Q3
5. Maximum x[n]
Etendue : x[n] – x[1]
Exemple étendue de la distribution 11, 23, 35, 54, 21,
93, 46, 25, 13, 43, 25, 34, 31, 42, 18, 20, 41, 44, 27, 28 :
93 – 11 = 82
Boxplot
Rectangle commence à Q1 et finit à Q3
Mettre la médiane dans le rectangle (≠ centre du rect !)
Moustache : Q1 – 1,5 x EIQ Q3 + 1,5 x EIQ valeur sous/sur ça = val extrême
Mettre valeurs extrêmes
Ecart à la moyenne : xi - x ̄
EM = donnée – moy 5 nombres : 3, 7, 8, 12, 15
Moy des EM = 0 toujours ! EM = 3-9, 7-9, 8-9, etc
Moy des EM = (-6)+(-2)+(-1)+3+6 5 = 0
Variance population 2/échantillon s2 : moyenne des carrés des écarts à la moyenne = val12+val22+ val32+… (- nb val x moy2)
nb valeur (-1 si échantillon)
Ecart type population √2 = /échantillon √s2 = s : √
Exemple échantillon A : 3, 5, 1, 4, 2 Moyenne x ̄ A = 15 5 = 3
échantillon B : 3, 2, 4, 3, 3 Variance s2 A = 33+55+11+42+22 – (5 x 32) = 2,5
5-1
Ecart-type A s = √s2 = 2,5 = 1,58
Coefficient de variation : = écart-type moyenne. x 100, 1. Faire (xi-x) 2 donc (0.92-0.966 qui est la moyenne de toutes les exprimé
Population = ( ) x 100 Echantillon = (s x )̄ x 100 données du 400m, le tout au carré. = (0.92-0.966) 2 etc pour
tous les chiffres. 2. Ensuite faire la somme de tous les résulats
Exercice : Temps pour 400m : 0,92, 0,98, 1,04, 0,9, 0,99 et faire la variance : 1 x 0.1272 (somme des écarts moy.)
=0.00318
Temps pour mile : 4,52, 4,35, 4,6, 4,7, 4,5 2. Faire écart-type.
Indicateurs de forme
Coefficient d’asymétrie « skewness » : mesure d’asymétrie de la distribution. Son calcul utilise la moy et
E.T.
Coefficient d’aplatissement « kurtosis » : mesure de l’aplatissement de la distribution. Son calcul utilise
la moy et E.T.
Données numériques groupées
Classe modale : quand les classes ont toutes la même amplitude, c’est la classe ayant la plus grande fréquence, a la plus forte densité =
fréquence relative amplitude
Exemple classe modale = [7.5, 9[ On peut avoir une classe bi-modale = quand il y a 2 classes avec le même nombre de mode
Classe médiane : après avoir ordonné les classes, c’est la 1ère classe dont la fréquence relative cumulée dépasse 0,5
Exemple : [70, 75[
Médiane de données groupées Q2 : approximée par interpolation linéaire. Si l’une des classes a une fréquence relative cumulée = 0,5, la médiane = borne sup de
cette classe
= limite inf de la classe + (0,5 – fréqu rel cum avant la classe) x amplitude classe où on est
fréq rel cum de notre classe – fréq rel cum avant classe
Exemple :
Moy données groupées = (nb observation x milieu classe) + …
Nb total données
Exemple : (3x57,5) + (2x62,5) + (4x65,5) + (3x72,5) + (7x77,5) + (1x82,5) = 70,1
20
Quartiles données groupées : Construire le tableau de fréquence relative cumulée, ordonner par ordre
croissant les classes
Q1 est dans la 1ère classe dont la fréquence relative cumulée > 25% : Q1 = 0,25
Q3 est dans la 1ère classe dont la fréquence relative cumulée > 75% : Q3 = 0,75
Puis approximation par interpolation linéaire dans la déterminée
Variance données groupées échantillon s2 :
Variance données groupées = ((nb fréq rel x milieu classe2) + …) – (nb observation fréq x moy données groupées2)
nombre observation – 1
Exemple [ (3x57,52) + (2x62,52) + (4x65,52) + (3x72,52) + (7x77,52) + (1x82,52) ] – (20x70,12) = 64,7789
20 – 1
Ecart-type données groupées échantillon √s2 = s : variance données groupées = 61,5789 = 7,8472
Autre exemple
Données groupées dans 3 classes de centre 60, 70 et 80 ∆ classes !
Classe modale = [75, 85[
Moy données groupées = (5x60 + 7x70 + 8x80) 20 = 71,5