9: Statistique descriptive et éléments de métrologie

9


Statistique descriptive et éléments de métrologie



La statistique descriptive est l’ensemble des techniques statistiques permettant de synthétiser l’information recueillie au cours d’une enquête ou d’une étude. Elle est souvent assimilée au sens commun du terme statistique. Classiquement, on l’oppose à la statistique inférentielle qui regroupe les méthodes d’estimation statistique et de tests d’hypothèse. La statistique descriptive en est le préalable et peut servir à construire des hypothèses qui seront testées par les méthodes inférentielles. Dans ce chapitre, sont traitées les différentes méthodes de synthèse de l’information numériques et graphiques ainsi qu’une introduction à la métrologie ou science de la mesure.



I De la population à l’échantillon – Comment étudier un phénomène complexe ?


Même si les méthodes de statistique descriptive ne nécessitent pas forcément de définir explicitement les concepts abordés dans cette partie, ils sont importants pour la compréhension de la démarche statistique. Globalement, par rapport à un problème donné, la démarche statistique va consister à définir le champ couvert par le phénomène que l’on cherche à étudier : la population, décomposer cette population en unités élémentaires : les unités statistiques, définir des propriétés qui permettent de caractériser ces unités statistiques : les variables et finalement définir le sous-ensemble de la population pour lequel les propriétés des unités statistiques seront réellement caractérisées : l’échantillon.



A Le contexte


Prenons l’exemple d’une enquête épidémiologique ayant pour objectif d’étudier la situation du diabète en France et plus particulièrement sa prévalence (en épidémiologie, la proportion d’individus malades dans la population). Dans ce cas, on pourrait considérer que la population concernée est l’ensemble de la population vivant en France. L’unité statistique est alors l’individu quel que soit son état (diabétique ou non) qui pourrait être caractérisé par des informations telles que l’âge, le sexe, le poids et la taille, ainsi que des informations sur le fait qu’il soit diabétique ou non et par exemple sa glycémie à jeun, définissant les variables. Reste qu’une telle enquête serait impossible à mener dans des temps et des coûts raisonnables et qu’il est plus réaliste de la réaliser sur une partie de la population. Supposons que cette enquête soit menée chez tous les étudiants inscrits en PAES en France au cours d’une visite médicale, définissant ainsi l’échantillon. Il est facile de voir que les résultats d’une telle enquête poseraient des problèmes d’interprétation du fait qu’elle cible une population particulière en termes de tranche d’âge, de répartition géographique et sociologique. On dit que l’échantillon n’est pas représentatif de la population. Il pourrait l’être éventuellement de la population étudiante, mais cela resterait à prouver.


À noter que si la question posée change, l’ensemble des points précédents nécessite d’être redéfinis. Supposons que l’on s’intéresse maintenant à une complication particulière du diabète, la rétinopathie diabétique. Dans ce cas la population à considérer serait celle des diabétiques, l’unité statistique, le patient diabétique, les variables à considérer des informations sur les caractéristiques du diabète, son ancienneté et son contrôle et bien sûr les examens permettant de rechercher cette complication. Pour des raisons pratiques, l’étude pourrait être menée dans des services hospitaliers de diabétologie, avec là aussi un problème de représentativité, car rien n’assure que ces patients soient représentatifs de l’ensemble de la population des diabétiques.



B Population, unité statistique et variable


Ces trois concepts sont indissociables. On peut en effet définir la population comme l’ensemble des unités statistiques, l’unité statistique comme l’unité élémentaire de la population sur laquelle les variables sont observables. Enfin une variable peut être définie comme une caractéristique observable ou mesurable des unités statistiques. Le nombre d’unités statistiques définit la taille de la population. Celle-ci peut être de taille finie ou supposée infinie.


On parle de sous-population quand une caractéristique des unités statistiques permet de partitionner la population globale. Par exemple le sexe d’un individu permet de définir deux sous-populations l’une masculine, l’autre féminine. Les sous-populations comme les populations peuvent être de taille finie ou infinie.


Il existe parfois des regroupements naturels des unités statistiques en grappes (ou clusters en anglais), ces grappes constituant elles-mêmes des unités statistiques d’un niveau supérieur, on peut citer l’exemple des deux reins d’un individu qui lui-même appartient à une famille. Dans le cas d’une maladie génétique, on peut être intéressé par une interprétation au niveau de l’organe, de l’individu ou de la famille.



C Échantillon et échantillonnage


L’échantillon est défini comme un sous-ensemble fini d’une population. Les unités statistiques qui appartiennent à un échantillon sont appelées observations. Le nombre d’observations définit la taille de l’échantillon notée n. À noter qu’une unité statistique peut appartenir à plusieurs échantillons.


L’échantillonnage est le mécanisme qui permet de générer un échantillon à partir de la population. Si la population est de taille infinie, le nombre d’échantillons différents de taille n qui peut être généré est aussi infini.


Un échantillon est constitué d’observations indépendantes quand la probabilité d’appartenance d’une observation à l’échantillon ne dépend pas de l’appartenance d’une ou plusieurs autres observations à ce même échantillon. Prenons l’exemple d’une population ayant une structure en grappes par exemple des patients regroupés en familles. Si l’échantillon est constitué en sélectionnant les familles et leurs membres, le fait qu’un individu appartienne à l’échantillon renseigne sur la sélection de la famille et implique dans ce cas que les tous autres individus de la famille ont aussi été sélectionnés.


Un échantillon est représentatif de la population quand il a des caractéristiques identiques à celle de la population. Imaginons que la population étudiée soit caractérisée par un certain nombre de variables telles que le sexe, l’âge, le poids, la taille. Un échantillon sera représentatif s’il existe la même proportion d’hommes et de femmes, de sujets jeunes et âgés, etc. Cela n’est en fait pas une condition suffisante, car cela porte aussi sur les associations entre les variables, par exemple la proportion d’hommes ou de femmes jeunes ou âgés, petits ou grands. Ce principe de constitution des échantillons est appelé méthode des quotas et est principalement utilisé par les instituts de sondage pour les enquêtes d’opinion. Son principal inconvénient est qu’elle n’assure pas la représentativité de l’échantillon par rapport à des caractéristiques qui n’ont pas été prises en compte initialement, par exemple ici le statut socioprofessionnel.


L’échantillonnage aléatoire, à la différence de la méthode des quotas, est basé sur le principe du tirage au sort des unités statistiques dans la population. On appelle fraction d’échantillonnage, la probabilité d’appartenance d’une unité à l’échantillon. Le tirage au sort est équiprobable quand la fraction est identique et non nulle pour l’ensemble des unités.


Dans ce cas, l’échantillonnage aléatoire assure statistiquement la représentativité de l’échantillon et l’indépendance des unités statistiques. La représentativité de l’échantillon est statistique, au sens qu’un échantillon donné sera légèrement différent de la population et qu’un autre échantillon en différera aussi, mais que globalement la représentativité est assurée pour les caractéristiques connues de la population, mais aussi inconnues, c’est ce que l’on appelle la variabilité d’échantillonnage. Ces propriétés seront fondamentales pour les méthodes utilisées en statistique inférentielle. Pour la partie descriptive, ces propriétés ne sont pas requises, mais elles sont importantes dans une optique de génération d’hypothèses. Supposons que l’on veuille étudier les caractéristiques de poids et de taille d’une population d’adultes jeunes et que pour cela, il est envisagé d’étudier un échantillon de personnes inscrites à un club sportif de basket-ball. Cet échantillon permettra d’apporter des informations sur les personnes ayant cette pratique sportive, mais probablement pas sur une population plus large.



II Les différents types de variables


Les caractéristiques recueillies sur une population peuvent être de nature très diverse. Il est habituel de distinguer différentes catégories de variables qui guident aussi le type de méthodes utilisées.



A Les variables qualitatives


Une variable qualitative est définie par un ensemble fini de modalités permettant de caractériser les observations. Les modalités de la variable sont mutuellement exclusives et permettent de décrire l’ensemble de la population. Prenons l’exemple du groupe sanguin ABO. Les modalités possibles sont A, B, AB et O. Par construction, il n’existe pas d’autre modalité possible prise par le groupe ABO et tout individu est caractérisé par une de ses modalités. On distingue plusieurs sous-types de variables qualitatives.





3 Variable qualitative ordinale ou semi-quantitative


Une variable ordinale est une variable qualitative dont les modalités sont reliées par une relation d’ordre. Ce type de variable est souvent utilisé pour caractériser des phénomènes complexes et subjectifs représentant la sévérité d’un symptôme, comme la douleur, ou la gravité d’une maladie.



Exemple 9.1


La classification NYHA (tableau 9.I) définit quatre stades de sévérité croissante de l’insuffisance cardiaque en fonction de leur retentissement fonctionnel. Il faut noter que bien que les classes soient ordonnées (ici I < II < III < IV), il n’existe pas forcément de relation linéaire entre les classes. Par exemple, il n’est pas possible de dire que le stade IV soit deux fois plus sévère que le stade II ou quatre fois plus que le stade I. Par ailleurs, les classes extrêmes ont souvent une signification particulière, correspondant soit à la situation normale, soit à un état irréversible.




B Variable quantitative


Une variable est dite quantitative quand elle est mesurable. Cette notion sera explicitée dans la partie sur la mesure (§ V. Éléments de métrologie, page 225). Considérons pour l’instant que cette mesure aboutit à une valeur permettant de définir une relation d’ordre entre différentes observations. Par exemple, on utilise un tensiomètre pour mesurer les valeurs de pression artérielle exprimée habituellement en mmHg. Notez qu’une valeur de 140 mmHg est bien deux fois plus grande qu’une valeur de 70 mmHg.


Les variables physiologiques sont de manière générale bornées à 0, mais il existe des exceptions (par exemple la cavité pleurale où la pression est « négative »). Par ailleurs, il existe souvent des bornes physiologiques correspondant à des états normaux. Au-delà, cela peut correspondre à des états pathologiques ou au contraire à des valeurs extrêmes. Par exemple, on peut voir des individus de très grande taille dans certaines pathologies endocriniennes comme l’acromégalie liée à une sécrétion anormale d’hormone de croissance, mais cela peut se voir aussi en dehors de toute perturbation endocrinienne. Comme pour les variables qualitatives, on peut distinguer plusieurs types de variables quantitatives.




2 Variable quantitative discrète ou discontinue


À la différence d’une variable continue, une variable discrète ne peut prendre que certaines valeurs, le plus souvent séparées par un intervalle fixe. Prenons l’exemple de la durée d’hospitalisation d’un patient, elle est le plus souvent exprimée en journées entières d’hospitalisation et non pas en jours, heure, minute, seconde, car cette information supplémentaire n’a pas ici d’intérêt. C’est donc souvent l’instrument de mesure (ou la manière de l’utiliser) qui rend une mesure continue discrète. Reprenons l’exemple du temps, s’il est mesuré avec une montre indiquant uniquement les heures et les minutes, celui-ci sera discrétisé par rapport à une mesure avec un chronographe indiquant le temps au centième de seconde.




C Tableau de données


La première étape est souvent de regrouper ces informations sous une forme tabulaire appelée tableau de données. Dans ce tableau, les valeurs prises par les différentes variables sont regroupées en fonction des observations. La convention est de représenter les observations en ligne et les variables en colonne (fig. 9.1). Une série statistique est définie par l’ensemble des valeurs prises par une variable, c’est-à-dire en pratique une colonne du tableau. Les tableurs, dont le plus connu est Excel, sont des logiciels fréquemment utilisés pour constituer de tels tableaux.




III Synthèse et représentation des données


Comme indiqué au début de ce chapitre, l’objectif de la statistique descriptive est d’obtenir des résumés de l’information recueillie sur un échantillon. Nous allons aborder dans cette partie les méthodes permettant de décrire et de synthétiser cette information.



A Synthèse de l’information




2 Discrétisation d’une variable quantitative


On discrétise une variable quantitative en découpant son domaine de variation en classes définies par des intervalles de valeur sans discontinuité ni chevauchement. L’amplitude d’un intervalle est définie par la différence entre ses bornes supérieure et inférieure. La convention généralement adoptée est d’inclure la borne inférieure et d’exclure la borne supérieure de l’intervalle. Aux extrémités, les bornes des séries sont généralement définies de façon arbitraire de façon à inclure l’ensemble des valeurs de la série.





4 Fréquence


La fréquence d’une classe est définie comme la proportion d’observations appartenant à la classe ou modalité i par rapport à l’effectif total :


image


La fréquence cumulée de la classe ou modalité i est, quant à elle, définie comme la somme cumulée des fréquences des classes j inférieures ou égales à i :


image


Cela correspond aussi à la proportion d’observations de la série appartenant aux classes inférieures ou égales à i. Comme pour les effectifs cumulés, les fréquences cumulées ne sont interprétables que si la variable est ordonnée. On peut par ailleurs remarquer que la fréquence cumulée de la dernière classe est égale à 1. En effet :


image


Les fréquences peuvent être exprimées aussi sous forme de pourcentages en multipliant par 100 la fréquence correspondante. La fréquence cumulée de la dernière classe est donc par définition de 100 %. À noter que le terme anglo-saxon frequency est un faux-ami du terme français car sa traduction est en fait effectif.





7 Tableau de contingence


Le tableau de contingence généralise la notion de tableau de répartition à plus d’une variable. On parle de tableau à double entrée quand cela concerne un couple de deux variables. Le principe est alors de ventiler les observations dans les classes définies par le croisement des modalités ou des classes respectives des deux variables. Il en résulte que le nombre de classes obtenues est le produit du nombre de classes ou de modalités de chaque variable du couple. Cette opération de ventilation est appelée tri croisé.


D’un point de vue contenu et organisation, peuvent figurer dans le tableau les effectifs (fig. 9.3A), les fréquences (fig. 9.3B) et les fréquences conditionnelles (fig. 9.4). Le tableau lui-même est organisé en trois parties, la partie conjointe et les marginales lignes et colonne. Par convention, la première variable du couple définit les lignes du tableau et la seconde, les colonnes. Les fréquences conjointes sont obtenues en divisant l’effectif correspondant par le nombre total d’observations n. Les marginales s’obtiennent en faisant le total ligne ou colonne correspondant. À noter que ces marginales sont simplement les effectifs et fréquences obtenus dans les tableaux de répartition.



Les tableaux de contingence portant sur les fréquences conditionnelles sont l’application du concept de probabilité conditionnelle reliant probabilités conditionnelles, conjointe et marginale suivant la relation P(A ∩ B) = P(AimageB) · P(B). L’idée est de conditionner les fréquences conjointes par les marginales correspondantes. Supposons que l’on veuille obtenir les fréquences conditionnelles de X conditionnellement à Y (fig. 9.4), les fréquences conditionnelles de XimageY s’obtiennent alors en divisant les fréquences conjointes par les fréquences marginales correspondantes de Y. Une autre façon de comprendre ces fréquences conditionnelles est de remarquer qu’elles correspondent aux fréquences de X obtenues en limitant l’échantillon à la classe correspondante de Y, c’est-à-dire l’effectif conjoint divisé par l’effectif marginal de Y. Ces relations impliquent que la somme des fréquences conditionnelles de XimageY par rapport à une modalité de Y est égale à 1.



À titre d’exemple (fig. 9.5), les différents types de tableaux de contingence ont été calculés à partir des données de la figure 9.1. On peut vérifier que les marginales des deux premiers tableaux correspondent aux effectifs et fréquences des tableaux de répartition correspondants, ainsi que les propriétés des fréquences conditionnelles dans les tableaux C et D de la figure 9.5.


Stay updated, free articles. Join our Telegram channel

May 9, 2017 | Posted by in GÉNÉRAL | Comments Off on 9: Statistique descriptive et éléments de métrologie

Full access? Get Clinical Tree

Get Clinical Tree app for offline access