9
Statistique descriptive et éléments de métrologie
La statistique descriptive est l’ensemble des techniques statistiques permettant de synthétiser l’information recueillie au cours d’une enquête ou d’une étude. Elle est souvent assimilée au sens commun du terme statistique. Classiquement, on l’oppose à la statistique inférentielle qui regroupe les méthodes d’estimation statistique et de tests d’hypothèse. La statistique descriptive en est le préalable et peut servir à construire des hypothèses qui seront testées par les méthodes inférentielles. Dans ce chapitre, sont traitées les différentes méthodes de synthèse de l’information numériques et graphiques ainsi qu’une introduction à la métrologie ou science de la mesure.
I De la population à l’échantillon – Comment étudier un phénomène complexe ?
B Population, unité statistique et variable
Ces trois concepts sont indissociables. On peut en effet définir la population comme l’ensemble des unités statistiques, l’unité statistique comme l’unité élémentaire de la population sur laquelle les variables sont observables. Enfin une variable peut être définie comme une caractéristique observable ou mesurable des unités statistiques. Le nombre d’unités statistiques définit la taille de la population. Celle-ci peut être de taille finie ou supposée infinie.
On parle de sous-population quand une caractéristique des unités statistiques permet de partitionner la population globale. Par exemple le sexe d’un individu permet de définir deux sous-populations l’une masculine, l’autre féminine. Les sous-populations comme les populations peuvent être de taille finie ou infinie.
Il existe parfois des regroupements naturels des unités statistiques en grappes (ou clusters en anglais), ces grappes constituant elles-mêmes des unités statistiques d’un niveau supérieur, on peut citer l’exemple des deux reins d’un individu qui lui-même appartient à une famille. Dans le cas d’une maladie génétique, on peut être intéressé par une interprétation au niveau de l’organe, de l’individu ou de la famille.
C Échantillon et échantillonnage
L’échantillon est défini comme un sous-ensemble fini d’une population. Les unités statistiques qui appartiennent à un échantillon sont appelées observations. Le nombre d’observations définit la taille de l’échantillon notée n. À noter qu’une unité statistique peut appartenir à plusieurs échantillons.
L’échantillonnage est le mécanisme qui permet de générer un échantillon à partir de la population. Si la population est de taille infinie, le nombre d’échantillons différents de taille n qui peut être généré est aussi infini.
Un échantillon est constitué d’observations indépendantes quand la probabilité d’appartenance d’une observation à l’échantillon ne dépend pas de l’appartenance d’une ou plusieurs autres observations à ce même échantillon. Prenons l’exemple d’une population ayant une structure en grappes par exemple des patients regroupés en familles. Si l’échantillon est constitué en sélectionnant les familles et leurs membres, le fait qu’un individu appartienne à l’échantillon renseigne sur la sélection de la famille et implique dans ce cas que les tous autres individus de la famille ont aussi été sélectionnés.
Un échantillon est représentatif de la population quand il a des caractéristiques identiques à celle de la population. Imaginons que la population étudiée soit caractérisée par un certain nombre de variables telles que le sexe, l’âge, le poids, la taille. Un échantillon sera représentatif s’il existe la même proportion d’hommes et de femmes, de sujets jeunes et âgés, etc. Cela n’est en fait pas une condition suffisante, car cela porte aussi sur les associations entre les variables, par exemple la proportion d’hommes ou de femmes jeunes ou âgés, petits ou grands. Ce principe de constitution des échantillons est appelé méthode des quotas et est principalement utilisé par les instituts de sondage pour les enquêtes d’opinion. Son principal inconvénient est qu’elle n’assure pas la représentativité de l’échantillon par rapport à des caractéristiques qui n’ont pas été prises en compte initialement, par exemple ici le statut socioprofessionnel.
L’échantillonnage aléatoire, à la différence de la méthode des quotas, est basé sur le principe du tirage au sort des unités statistiques dans la population. On appelle fraction d’échantillonnage, la probabilité d’appartenance d’une unité à l’échantillon. Le tirage au sort est équiprobable quand la fraction est identique et non nulle pour l’ensemble des unités.
II Les différents types de variables
A Les variables qualitatives
Une variable qualitative est définie par un ensemble fini de modalités permettant de caractériser les observations. Les modalités de la variable sont mutuellement exclusives et permettent de décrire l’ensemble de la population. Prenons l’exemple du groupe sanguin ABO. Les modalités possibles sont A, B, AB et O. Par construction, il n’existe pas d’autre modalité possible prise par le groupe ABO et tout individu est caractérisé par une de ses modalités. On distingue plusieurs sous-types de variables qualitatives.
1 Variable qualitative nominale
Une variable qualitative est dite nominale quand les modalités de la variable ne sont pas hiérarchisées ou ordonnées. Le groupe ABO vu précédemment est un exemple de variable nominale, de même que la couleur des yeux (si l’on se limite à des grandes catégories).
2 Variable qualitative binaire
Une variable binaire est une variable qualitative à deux modalités. On parle aussi de variable dichotomique. De nombreuses informations sont représentées par ce type de variable, par exemple le succès ou l’échec d’un traitement, la présence ou l’absence d’un signe. Les deux modalités sont souvent codées 0 et 1, le 1 étant utilisé par convention pour la modalité d’intérêt. Par exemple, pour évaluer l’efficacité d’un traitement, on codera 1 le succès et 0 l’échec. En revanche, pour coder un effet secondaire du traitement, le 1 correspondra à sa présence, 0 à son absence.
3 Variable qualitative ordinale ou semi-quantitative
Une variable ordinale est une variable qualitative dont les modalités sont reliées par une relation d’ordre. Ce type de variable est souvent utilisé pour caractériser des phénomènes complexes et subjectifs représentant la sévérité d’un symptôme, comme la douleur, ou la gravité d’une maladie.
B Variable quantitative
Une variable est dite quantitative quand elle est mesurable. Cette notion sera explicitée dans la partie sur la mesure (§ V. Éléments de métrologie, page 225). Considérons pour l’instant que cette mesure aboutit à une valeur permettant de définir une relation d’ordre entre différentes observations. Par exemple, on utilise un tensiomètre pour mesurer les valeurs de pression artérielle exprimée habituellement en mmHg. Notez qu’une valeur de 140 mmHg est bien deux fois plus grande qu’une valeur de 70 mmHg.
1 Variable quantitative continue
On parle de variable continue quand celle-ci peut prendre une quantité indénombrable de valeurs entre deux valeurs données. Par exemple, il existe une quantité indénombrable de tailles intermédiaires possibles entre deux individus mesurant exactement respectivement 1,79 m et 1,80 m. Même si cela est vrai d’un point de vue théorique, les instruments de mesure ne permettent pas en général d’accéder à l’ensemble de ces valeurs intermédiaires. Par exemple, la mesure de la taille au moyen d’une toise ne permet guère de descendre en dessous du quart de cm, soit trois valeurs intermédiaires entre 1,79 m et 1,80 m.
2 Variable quantitative discrète ou discontinue
À la différence d’une variable continue, une variable discrète ne peut prendre que certaines valeurs, le plus souvent séparées par un intervalle fixe. Prenons l’exemple de la durée d’hospitalisation d’un patient, elle est le plus souvent exprimée en journées entières d’hospitalisation et non pas en jours, heure, minute, seconde, car cette information supplémentaire n’a pas ici d’intérêt. C’est donc souvent l’instrument de mesure (ou la manière de l’utiliser) qui rend une mesure continue discrète. Reprenons l’exemple du temps, s’il est mesuré avec une montre indiquant uniquement les heures et les minutes, celui-ci sera discrétisé par rapport à une mesure avec un chronographe indiquant le temps au centième de seconde.
3 Variable de comptage
On parle de variable de comptage quand la variable représente la valeur d’un processus de comptage. Elle est par nature discrète et bornée à 0. Là aussi, les exemples sont nombreux, cela peut être le nombre de cas d’une pathologie infectieuse (choléra, grippe A…), une numération cellulaire (nombre de globules blancs basophiles dans une numération-formule sanguine). Bien souvent ce nombre est rapporté à une unité de mesure ou à un autre nombre, par exemple le nombre de cellules sera exprimé par mm3 de sang ou un nombre de cellules tumorales sera rapporté au nombre de cellules normales sous la forme d’un pourcentage.
C Tableau de données
La première étape est souvent de regrouper ces informations sous une forme tabulaire appelée tableau de données. Dans ce tableau, les valeurs prises par les différentes variables sont regroupées en fonction des observations. La convention est de représenter les observations en ligne et les variables en colonne (fig. 9.1). Une série statistique est définie par l’ensemble des valeurs prises par une variable, c’est-à-dire en pratique une colonne du tableau. Les tableurs, dont le plus connu est Excel, sont des logiciels fréquemment utilisés pour constituer de tels tableaux.
III Synthèse et représentation des données
A Synthèse de l’information
1 Description d’une série statistique
La première étape de la description d’une série consiste souvent à énumérer les valeurs distinctes de la série. Dans le cas des variables qualitatives, il s’agit simplement des modalités de la variable. Dans le cas quantitatif, cette énumération est facilitée pour les variables discrètes du fait qu’elles sont déjà constituées de valeurs distinctes. En revanche dans le cas continu, il est le plus souvent nécessaire de regrouper les valeurs en classes. Cette opération s’appelle la discrétisation. Enfin si le nombre de classes ou de modalités est trop important, il est parfois nécessaire de procéder à des regroupements de classes.
2 Discrétisation d’une variable quantitative
On discrétise une variable quantitative en découpant son domaine de variation en classes définies par des intervalles de valeur sans discontinuité ni chevauchement. L’amplitude d’un intervalle est définie par la différence entre ses bornes supérieure et inférieure. La convention généralement adoptée est d’inclure la borne inférieure et d’exclure la borne supérieure de l’intervalle. Aux extrémités, les bornes des séries sont généralement définies de façon arbitraire de façon à inclure l’ensemble des valeurs de la série.
3 Effectif
L’effectif total nommé n est le nombre total d’observations de la série. De la même façon, on définit l’effectif de la classe ou modalité i, ni comme le nombre d’observations de la série appartenant à la classe i.
L’effectif cumulé de la classe ou modalité i, Ni est défini comme le nombre d’observations de la série appartenant aux classes inférieures ou égales à i :
4 Fréquence
La fréquence d’une classe est définie comme la proportion d’observations appartenant à la classe ou modalité i par rapport à l’effectif total :
La fréquence cumulée de la classe ou modalité i est, quant à elle, définie comme la somme cumulée des fréquences des classes j inférieures ou égales à i :
5 Densité
La notion de densité n’a réellement de sens que dans le cas des variables quantitatives. On définit la densité di d’une classe i comme le rapport de la fréquence de la classe sur l’amplitude de l’intervalle définissant cette classe :
6 Tableau de répartition
Le tableau de répartition est un tableau regroupant les effectifs et les fréquences par modalité ou par classe. Si la variable est ordonnée, on peut rajouter les effectifs et les fréquences cumulées. Si la variable est quantitative, on peut y faire figurer les densités. À titre d’exemple, les tableaux de répartition A et B pour les variables sexe et âge de la figure 9.2 ont été créés à partir du tableau de données de la figure 9.1.
7 Tableau de contingence
Le tableau de contingence généralise la notion de tableau de répartition à plus d’une variable. On parle de tableau à double entrée quand cela concerne un couple de deux variables. Le principe est alors de ventiler les observations dans les classes définies par le croisement des modalités ou des classes respectives des deux variables. Il en résulte que le nombre de classes obtenues est le produit du nombre de classes ou de modalités de chaque variable du couple. Cette opération de ventilation est appelée tri croisé.
D’un point de vue contenu et organisation, peuvent figurer dans le tableau les effectifs (fig. 9.3A), les fréquences (fig. 9.3B) et les fréquences conditionnelles (fig. 9.4). Le tableau lui-même est organisé en trois parties, la partie conjointe et les marginales lignes et colonne. Par convention, la première variable du couple définit les lignes du tableau et la seconde, les colonnes. Les fréquences conjointes sont obtenues en divisant l’effectif correspondant par le nombre total d’observations n. Les marginales s’obtiennent en faisant le total ligne ou colonne correspondant. À noter que ces marginales sont simplement les effectifs et fréquences obtenus dans les tableaux de répartition.
Fig. 9.3 Organisation d’un tableau de contingence portant sur les effectifs (A) et les fréquences (B).
La partie centrale ou conjointe contient les effectifs conjoints ou les fréquences conjointes. Les marges du tableau (ou marginales) contiennent les effectifs marginaux ou les fréquences marginales. L’effectif total est représenté à l’intersection des deux marginales. La notation • indique que la sommation des effectifs s’effectue suivant l’indice ligne (premier point) ou colonne (second point). Le double point indique que la sommation a lieu sur les deux dimensions.
Les tableaux de contingence portant sur les fréquences conditionnelles sont l’application du concept de probabilité conditionnelle reliant probabilités conditionnelles, conjointe et marginale suivant la relation P(A ∩ B) = P(AB) · P(B). L’idée est de conditionner les fréquences conjointes par les marginales correspondantes. Supposons que l’on veuille obtenir les fréquences conditionnelles de X conditionnellement à Y (fig. 9.4), les fréquences conditionnelles de X
Y s’obtiennent alors en divisant les fréquences conjointes par les fréquences marginales correspondantes de Y. Une autre façon de comprendre ces fréquences conditionnelles est de remarquer qu’elles correspondent aux fréquences de X obtenues en limitant l’échantillon à la classe correspondante de Y, c’est-à-dire l’effectif conjoint divisé par l’effectif marginal de Y. Ces relations impliquent que la somme des fréquences conditionnelles de X
Y par rapport à une modalité de Y est égale à 1.
Fig. 9.4 Tableau de contingence sur les fréquences conditionnelles de XY.
Le tableau de fréquences est conditionné sur Y. On utilise donc les fréquences marginales de Y (le total colonne de la figure 9.3B) comme dénominateurs. Il est facile de voir que la somme en colonne des fréquences conditionnelles est égale à 1.
À titre d’exemple (fig. 9.5), les différents types de tableaux de contingence ont été calculés à partir des données de la figure 9.1. On peut vérifier que les marginales des deux premiers tableaux correspondent aux effectifs et fréquences des tableaux de répartition correspondants, ainsi que les propriétés des fréquences conditionnelles dans les tableaux C et D de la figure 9.5.

Stay updated, free articles. Join our Telegram channel

Full access? Get Clinical Tree

