Statistiques

Le but de ce TP est de traiter la partie statistique descriptive du programme de 2nd. Les définitions données font donc partie du cours et sont à connaître par coeur.

Statistiques descriptives

Vocabulaire

  • La population d’une série statistique est l’ensemble des éléments appelés individus sur lesquels portent l’étude statistique.
  • Le caractère d’une série statistique est la propriété étudiée sur chaque individu. Un caractère peut être quantitatif (mesurable comme la taille) ou qualitatif (non mesurable comme la couleur des cheveux).
  • L’effectif d’un caractère est le nombre d’individu qui partagent ce caractère.
  • L'effectif total est le nombre total d'individu.
  • La fréquence d’un caractère est égale à l’effectif du caractère divisé par l’effectif total.

Les statistiques descriptives ont pour but de décrire et d'analyser des données (ou série statisque) pour les résumer ou les comparer entre elles.

Voici quelques séries de données sur lesquels nous allons pouvoir travailler. Ces trois séries concernent des caractéristiques différentes des voitures garées sur un parking.

In [1]:
# Nombre de passagers
passagers = [4, 1, 4, 1, 2, 1, 5, 0, 3, 4, 0, 4, 0, 0, 4, 3, 2, 3, 5, 2, 5, 4, 1, 2, 1]
# Kilomètre au compteur
kilometres = [68806, 136429, 67417, 44743, 166108, 63686, 133615,
              97402, 131932, 60947, 166706, 194451, 103493, 71308, 69805]
# Couleur des voitures
couleurs = ['grise', 'noire', 'grise', 'rouge',
             'blanche', 'blanche', 'rouge', 'bleu',
             'bleu', 'grise', 'noire', 'verte',
             'noire', 'rouge', 'grise', 'verte',
             'grise', 'grise', 'verte', 'grise']
  1. Pour chacune des ces séries statistiques, expliquer à quoi correspond la population, les individus, le caractère.
  2. Quel est l'effectif total de chacun de ces séries?

Indicateurs

Les indicteurs suivant vont permettre de résumer les séries statistiques. Ils ne peuvent être calculés que quand le caractère étudié est quantitatif.

  • Etendu est égale à la différence entre le maximum et le minimum.
  • La moyenne, $\bar{x}$, est égale à la somme de toutes les valeurs divisée par l'effectif total.
  • La médiane, Me, est une valeur qui sépare la série en 2 groupes de même effectif:
    • un groupe dont les valeurs sont inférieurs ou égales à la médiane
    • un groupe dont les valeurs sont supérieurs ou égales à la médiane
  • Le premier quartile, $Q_1$, d’une série statistique est la plus petite valeur des termes de la série pour laquelle au moins un quart des données sont inférieures ou égales à $Q_1$.
  • Le troisième quartile, $Q_3$, d’une série statistique est la plus petite valeur des termes de la série pour laquelle au moins trois quarts des données sont inférieures ou égales à $Q_3$.
  1. Pour chaque série, quand c'est possible, calculer les 5 indicateurs.
  2. Ecrire un algorithme expliquant comment calculer chaqu'un de ces indicateurs.
  3. En vous aidant du mémo sur les listes, traduire vos algorithmes en Python

Mémo sur les listes

Quelques précisions autour de la manipulation des listes avec Python

In [11]:
L = [5, 2, 1, 2, 4, 5, 5]
  • len: calculer le nombre d'éléments dans la liste
In [5]:
print(len(L))
7
  • sum: calculer la somme des éléments de la liste
In [6]:
print(sum(L))
24
  • sorted: trier les éléments de la liste
In [13]:
print(sorted(L))
[1, 2, 2, 4, 5, 5, 5]
  • Récupérer le i-ième élément de la liste (/!\ on commence à compter à partir de 0)
In [15]:
# Le premier élément de la liste
print(L[0])
# le 3e élément de la liste
print(L[2])
5
1
  • Faire une boucle sur tous les éléments de la liste
In [16]:
for x in L:
    print(x)
5
2
1
2
4
5
5
In [ ]: