10
Estimation
Les chapitres précédents nous ont permis de développer un cadre théorique pour représenter les résultats d’une expérience : l’analyse mathématique (chapitres 1 à 4) donne les outils fondamentaux pour modéliser le lien entre différentes grandeurs, par exemple une concentration plasmatique en médicament et le temps après son administration, alors que la théorie des probabilités (chapitres 5 à 9) fournit le cadre permettant de prendre en compte le hasard, inhérent à toute expérience.
• une première situation correspond au cas d’un patient qui se présente en consultation. On veut alors connaître la valeur de sa glycémie, à cet instant précis ;
• une deuxième situation correspond au cas où l’on dispose d’un modèle permettant de prédire la valeur de cette glycémie. On se demande alors quel résultat donnera ce modèle ;
• enfin, une troisième situation correspond au cas où l’on se demande quelle serait la valeur « habituelle » de la glycémie chez un patient en général.
Dans la première situation, il semble très simple d’apporter une réponse : il suffit par exemple de prendre un appareil mesurant la glycémie au doigt du patient, tel que celui illustré figure 10.1. Cet appareil donne une valeur, ici 4,3 g/L, et cela répond à la question. Cependant, quel crédit accorder à cette valeur ? Est-ce que cette valeur affichée correspond bien à la glycémie réelle, d’une part, et d’autre part si l’on refaisait la même mesure avec le même appareil, au même moment, obtiendrait-on nécessairement 4,3 g/L ou une valeur légèrement différente ? Pour répondre à ces questions, outre la connaissance des propriétés physico-chimiques mises en œuvre et qui ne sont pas du ressort de ce cours, c’est la métrologie (étudiée dans le chapitre 9) qui apporte les outils appropriés.
Dans la deuxième situation, ce sont au contraire les outils développés dans les chapitres précédents qui fourniront la réponse. En effet, si l’on imagine que le modèle définit la glycémie comme une fonction du temps (après un repas par exemple), il suffit de calculer cette fonction à l’instant voulu. Si, au contraire, on dit que « chez les patients sains, la glycémie suit une loi de Laplace-Gauss (ou « loi normale ») d’espérance μ = 5 g/L et d’écart-type σ = 1 g/L », les outils probabilistes vus précédemment permettent de donner la probabilité d’observer une glycémie voisine de telle ou telle valeur. La réponse à cette question est alors donnée par un intervalle de valeurs probables. Dans les cas les plus simples, cet intervalle est un intervalle de pari, qui sera présenté dans le chapitre 11. Plus généralement, il s’agit d’un problème de prédiction.
• si la valeur cherchée est directement mesurable expérimentalement, le cadre est celui de la métrologie (chapitre 9) ;
• si l’on dispose d’un modèle, mathématique ou probabiliste, pour calculer la valeur cherchée, le cadre est celui de la prédiction, dont seul le cas le plus simple (intervalles de pari) est au programme (chapitre 11) ;
• si la valeur cherchée est inaccessible à une mesure directe et en l’absence de modèle, cas extrêmement fréquent, le cadre est celui de l’estimation (ce chapitre).
I Principes généraux de l’estimation
Reprenons l’exemple de la glycémie : « Quelle est la valeur habituelle de la glycémie chez une personne saine, en général ? » Aucun appareil ne permettra de répondre à cette question par une simple mesure, en revanche il est tout à fait possible de choisir plusieurs patients réels et d’en mesurer la glycémie, grâce à ces appareils. Il se pose alors deux questions :
• comment choisir les patients ?
• comment relier les valeurs mesurées sur chaque patient à la valeur cherchée ? – estimation proprement dite.
Pour comprendre les réponses apportées à ces deux questions, il faut par ailleurs se donner un cadre mathématique adapté. Pour cela, l’idée est de se dire que les différences de valeurs observées entre patients ne sont dues qu’aux hasards de l’expérience – en fait, à un ensemble de raisons que l’on ne cherche pas à expliciter et qui traduisent la variabilité d’un patient à l’autre. À partir du moment où l’on évoque le hasard, le cadre naturel est celui des probabilités.
Lorsque l’on réalise une mesure chez un individu, la valeur obtenue dépend du patient, de l’instant de la mesure… bref du hasard. C’est donc la conséquence de la réalisation d’un événement aléatoire. Cette idée est exactement celle qui définit une variable aléatoire (chapitre 6) : le modèle considéré est donc que le résultat de l’observation1 chez l’individu i est la réalisation xi d’une variable aléatoire Xi. La loi de cette variable aléatoire dépend de la valeur cherchée, que l’on notera θ. Le problème de l’estimation revient alors à proposer une ou plusieurs valeurs pour θ à partir des réalisations xi, alors que celui du choix des patients revient à s’assurer que les différentes variables aléatoires Xi correspondent bien à la même valeur de θ.
A Choix des patients : notions de population et d’échantillon
Dans la question « quelle est la valeur habituelle de la glycémie chez une personne saine, en général ? » apparaît « une personne saine, en général ». La réponse est donc censée s’appliquer à toutes les personnes saines. Cependant, il n’est pas envisageable de mesurer la glycémie de toutes les personnes saines pour répondre à la question. On choisira donc n personnes, parmi toutes les personnes saines, et l’on mesurera leur glycémie ; à partir de ces valeurs individuelles, on essaiera de remonter à la valeur commune à l’ensemble des personnes saines.
Cette idée est très générale. On appellera population l’ensemble des individus pour lesquels on veut déterminer une valeur2 et échantillon le sous-ensemble des individus pour lesquels on réalisera une observation.
Pour pouvoir parler de la valeur de θ dans la population, il faut qu’elle soit la même pour tous les individus de cette population – comment parler de la valeur habituelle de la glycémie s’il y a dans la population aussi bien des personnes saines que des personnes atteintes du diabète ? En pratique, il est même nécessaire que les lois des variables aléatoires de chaque individu ((Xi)i ∈ {1, 2…, n}) soient identiques. On parlera de population homogène. Choisir une population homogène – ou, façon différente de formuler le problème, définir la population pour laquelle sont valables les résultats que l’on obtiendra – n’est pas simple et demande tout le savoir-faire de l’expérimentateur ou de l’observateur ; c’est cependant une étape fondamentale pour pouvoir interpréter les résultats d’une étude. Ce problème sera évoqué à nouveau dans le chapitre sur les tests statistiques ; pour la suite de ce chapitre, nous admettrons que la population a été correctement définie et nous n’y reviendrons pas – il n’y a, heureusement, pas besoin de connaître la population pour construire et appliquer les méthodes d’estimation.
Une fois la population définie, il faut sélectionner les n patients qui constitueront l’échantillon. Afin de pouvoir appliquer les méthodes probabilistes, cette sélection doit faire intervenir le hasard. Savoir comment tirer au hasard les individus dans la population pour constituer l’échantillon fait l’objet de la randomisation, problème délicat qui n’est pas au programme de cet ouvrage. Nous admettrons donc que cette étape a été réalisée correctement. On obtient alors un échantillon à la fois aléatoire et représentatif de la population étudiée.
Une fois l’échantillon constitué, on peut réaliser sur chacun des individus qui le constitue une observation. Le résultat de cette observation pour le i-ième individu donne une valeur xi, réalisation de la variable aléatoire Xi. On dispose donc de n valeurs x1,…, xn. Comment, à partir de ces n valeurs observées, obtenir une réponse à la question « Combien vaut la valeur θ ? » ?
B Estimation ponctuelle d’une valeur
La réponse la plus naturelle à cette question est une valeur unique, obtenue à partir des n valeurs x1,…, xn. Cette valeur, notée , est appelée une estimation ponctuelle de θ. Dans quelle mesure cette estimation ponctuelle
nous renseigne-t-elle sur la vraie valeur, inconnue et inaccessible, θ ? Pour répondre à cette question, il est nécessaire de formaliser le lien entre
et les valeurs x1,…, xn.
Comme elle est obtenue à partir des xi, on peut toujours écrire = f(x1,…, xn), où f est une fonction de n variables (voir chapitre 4). De plus, les valeurs x1,…, xn étant les réalisations des variables aléatoires X1,…, Xn,
est elle-même la réalisation d’une variable aléatoire,
. Cette variable aléatoire
est appelée un estimateur de θ ; toutes les informations sur la qualité de l’estimation ponctuelle proviennent des caractéristiques de cette variable aléatoire : sa loi, son espérance…
1 Propriétés d’un estimateur ponctuel
Si l’horloge était celle représentée figure 10.2, quelle heure y liriez-vous ? Comme il n’y a qu’une aiguille, celle des heures, la réponse variera beaucoup d’une personne à l’autre : si tous devraient s’accorder à donner une heure comprise entre 12 h 00 et 13 h 00, certains répondront 12 h 25, d’autres 12 h 30, d’autres encore 12 h 35… En revanche, si l’horloge était celle représentée figure 10.3, la réponse serait bien moins variable d’une personne à l’autre : soit 15 h 32, soit 15 h 33. Cet exemple illustre une première propriété importante d’un estimateur : quelle est la dispersion des différentes valeurs qu’il peut donner ? En d’autres termes, quelle est sa précision, au sens usuel du terme ? Puisqu’il s’agit d’un problème de dispersion, de variabilité, l’outil naturel pour mesurer cette précision est la variance, ou l’écart-type, de l’estimateur : un estimateur sera d’autant plus précis que sa variance est faible.
Supposons maintenant que l’horloge soit celle de la figure 10.4. Compte tenu de la question posée, sa précision est parfaite : pour avoir l’heure à la minute près, il n’y a qu’une seule réponse possible. Est-ce pour autant que la valeur donnée est la bonne ? Non, puisqu’il suffit que cette horloge avance, ou retarde, de quelques minutes pour que la valeur proposée, aussi précise soit-elle, soit inexacte. Ceci illustre une autre propriété importante d’un estimateur : quelle valeur « idéale » (c’est-à-dire, si l’on arrivait à ne plus avoir de variabilité, ou encore à avoir une précision infinie) donne-t-il ? L’outil naturel pour savoir cela est l’espérance, qui donne justement la valeur moyenne d’une variable aléatoire (voir chapitre 6). L’écart entre l’espérance de l’estimateur, , et la valeur réelle, θ, mesure l’exactitude de l’estimateur. On appelle biais cet écart :
. On dit qu’un estimateur est sans biais si δ = 0, il donne donc idéalement la valeur cherchée ; si δ ≠ 0, l’estimateur est biaisé.
L’estimateur ponctuel idéal serait à la fois sans biais et de variance minimale. En général, un tel estimateur n’existe pas et l’on devra faire un compromis entre le biais et la variance minimale. Une classe intéressante d’estimateurs est alors celle des estimateurs dont le biais tend vers 0 quand la taille de l’échantillon tend vers l’infini (on dit alors que l’estimateur est asymptotiquement sans biais) ; une autre classe intéressante est celle des estimateurs dont la variance tend vers 0 quand la taille de l’échantillon tend vers l’infini (on dit alors que l’estimateur est convergent). En pratique, beaucoup d’estimateurs sont convergents et asymptotiquement sans biais : c’est ce qui se rapproche le plus de l’estimateur idéal… pour peu que l’on puisse réaliser de grands échantillons.
Construction d’un estimateur ponctuel: Comment trouver la fonction f permettant de définir l’estimateur ponctuel ? L’approche la plus simple est, souvent, de transposer l’idée intuitive de ce que représente la valeur que l’on cherche à estimer : c’est ce que nous ferons dans les exemples ultérieurs. Dans un deuxième temps, si l’estimateur ainsi obtenu n’est pas idéal, on peut l’améliorer en corrigeant ses défauts : c’est ce que nous ferons pour l’estimateur d’une variance, dans la suite de ce chapitre.
Lorsque l’intuition ne donne pas d’estimateur pratique, on peut utiliser une autre approche, plus systématique. Parmi ces approches, une très féconde est celle du maximum de vraisemblance. Dans cette approche, qui sera présentée plus en détail dans les exemples qui suivent, on choisit l’estimateur de telle sorte que la valeur qu’il donne soit celle qui maximise la probabilité d’obtenir les valeurs x1,…, xn qui ont été observées dans l’échantillon. On peut montrer que les estimateurs ainsi obtenus sont asymptotiquement sans biais et convergents.
C Estimation par intervalle
En effet, l’intervalle [a, b] qui servira de réponse est construit, lui aussi, à partir des valeurs observées dans l’échantillon. Ses deux bornes, a et b, sont donc, tout comme , des fonctions de ces valeurs et des réalisations de variables aléatoires, respectivement A et B. « θ ∈ [A, B] » est donc un événement, auquel on peut associer une probabilité (voir chapitre 5). Plus cette probabilité est élevée, plus l’on peut avoir confiance dans la phrase « θ appartient à l’intervalle [a, b] ». On appelle donc confiance cette probabilité, notée 1 – α : P(θ ∈ [A, B]) = 1 − α ; α représente le risque de faire confiance à tort à la phrase « θ appartient à l’intervalle [a, b] ». Par extension, on appelle [A, B] un intervalle de confiance à 1 − α – ainsi que sa réalisation, [a, b].
II Application : estimation d’une proportion
Un service hospitalier réalise, à l’entrée de chaque patient, un examen sanguin comportant, en particulier, une mesure de la concentration plasmatique en fer (sidérémie) qui permet de détecter une éventuelle carence martiale. Au cours des trois derniers mois, parmi 68 patients entrant dans ce service, 30 présentaient effectivement une carence. Le pharmacien attaché au service se demande, pour optimiser l’approvisionnement en traitements, quel est le pourcentage de patients présentant une carence martiale lors de leur entrée dans le service.
La question est donc bien du type : « Quelle est la valeur de… ? », avec une valeur cherchée qui n’est pas directement accessible par une mesure ou une observation, ni par un quelconque modèle théorique. La réponse à la question s’obtient donc bien dans le cadre de l’estimation.
Pour appliquer les idées générales présentées précédemment, il faut considérer les n = 68 patients comme un échantillon extrait, aléatoirement, de la population des patients amenés à être hospitalisés dans ce service ; comme nous l’avons dit, nous ne nous intéresserons pas plus avant à cette étape ni à la définition de la population, et considérerons que ces 68 patients constituent bien un échantillon aléatoire et représentatif.
À chacun de ces patients est associée une variable aléatoire Xi, dont la réalisation est le résultat de l’observation faite sur ce patient. Ici, l’observation réalisée est le fait de présenter, ou non, une carence martiale et Xi est donc une variable aléatoire à deux modalités. Conventionnellement, on dira que Xi = 1 si le patient i était carencé à son entrée dans le service, et que Xi = 0 sinon : Xi suit alors une loi de Bernoulli, de paramètre πi = P(Xi = 1) (voir chapitre 5) : πi est la probabilité que le patient i présente une carence en fer lors de son entrée dans le service. Comme la population est supposée homogène et l’échantillon représentatif, cette probabilité est la même pour tous les patients : ∀ i, πi = π – les variables aléatoires X1,…, Xn sont identiquement distribuées. De plus, l’échantillon ayant été choisi au hasard et en admettant que le même patient n’a pas été hospitalisé deux fois dans le service pendant ces trois mois, elles sont indépendantes.
Pour estimer la valeur cherchée, il faut la relier à la loi de ces variables aléatoires Xi. Comme cette loi ne dépend que d’un seul paramètre, π, la valeur cherchée ne peut être (à une transformation près) que cette valeur : ici, θ = π. La question posée est donc, en réalité, « Quelle est la probabilité qu’un nouveau patient présente une carence martiale à son entrée dans le service » : on cherche à estimer une probabilité. Ce n’est que par abus de langage que l’on parle d’estimation de proportion, voire de pourcentage3…
A Estimation ponctuelle
L’idée intuitive d’une probabilité est le rapport entre le nombre de cas favorables et le nombre de cas possibles (voir chapitre 5). Il est possible de réutiliser cette idée pour construire une estimation ponctuelle de la probabilité cherchée.
Le nombre de cas possibles de carences martiales, parmi les n patients entrant dans le service, est bien évidemment n (68 dans notre exemple). Le nombre de cas « favorables » est ici le nombre de patients présentant effectivement une carence martiale à leur entrée dans le service, k = 30 ici. L’estimation ponctuelle intuitive est donc : on reconnaît la valeur proposée dans l’introduction4. Mais dans quelle mesure est-ce une bonne estimation ?
La valeur de k est aléatoire (dans un autre échantillon de 68 patients, il n’y a aucune raison d’observer à nouveau 30 patients carencés), c’est la réalisation de la variable aléatoire K. Cette variable aléatoire est directement liée aux variables aléatoires Xi observées, par la relation C’est pour avoir cette relation que l’on adopte le codage en variable de Bernoulli… . L’estimateur ponctuel est donc finalement5
. Ce sont ses propriétés qu’il faut étudier pour savoir si l’estimation intuitive est une bonne estimation de π.
2 Propriétés de l’estimateur ponctuel intuitif
Biais: Calculons l’espérance de l’estimateur ponctuel :
On peut donc constater que cet estimateur ponctuel est sans biais.
Précision: Calculons maintenant la variance de cet estimateur ponctuel :
Lorsque n tend vers l’infini, la variance tend vers 0 : l’estimateur ponctuel intuitif est convergent. Ainsi, plus l’échantillon utilisé est grand, plus la précision est importante. Cependant, la précision est mieux représentée par l’écart-type, , qui décroît en
: pour doubler la précision, il faut quadrupler la taille de l’échantillon – et pour gagner un ordre de grandeur (un chiffre significatif), il faut la multiplier par 100. La figure 10.5 représente l’évolution de cette précision pour quelques valeurs de π : si la précision augmente rapidement au début, cette augmentation ralentit beaucoup ensuite…
3 Approche par le maximum de vraisemblance
L’estimateur intuitif est un « bon » estimateur, puisqu’il est sans biais et convergent. On sait cependant que la méthode du maximum de vraisemblance donne aussi de bons estimateurs. Quel estimateur donnerait-elle ici ?
On appelle vraisemblance, notée L (pour likelihood, sa traduction anglaise6), la probabilité d’obtenir les observations expérimentales. Ici, l’observation est que k patients sont carencés à l’entrée dans le service : la vraisemblance est donc , puisque l’on sait que K suit une loi binomiale. La vraisemblance est bien une fonction de la valeur cherchée, π – on la note L(π).
La méthode du maximum de vraisemblance consiste à choisir, comme estimation ponctuelle de π, la valeur qui rend maximale la vraisemblance, c’est-à-dire qui rend maximale la probabilité d’avoir observé k patients carencés parmi les n – on part ainsi du postulat que les observations correspondent aux situations les plus probables. Si la vraisemblance est maximale, son logarithme aussi (puisque c’est une fonction croissante [voir chapitre 1]) ; les calculs sont en général plus simples après avoir pris le logarithme. Ici,
Ainsi, la méthode du maximum de vraisemblance donne le même estimateur que l’approche intuitive.
B Estimation par intervalle
Cette largeur (que l’on aimerait la plus faible possible) dépend de deux facteurs, d’origine complètement différente :
• la précision de l’estimation. Cette précision, directement liée à la variance, ne dépend que de la taille n de l’échantillon et de la valeur π cherchée. Une fois la taille de l’échantillon choisie, il n’y a donc aucun contrôle de cette valeur ;
• la confiance que l’on veut avoir dans l’intervalle que l’on construit. Plus l’on veut être sûr que π soit dedans, plus l’intervalle doit être large… Cet aspect est, lui, complètement du ressort de l’expérimentateur7 et ne dépend pas de l’expérience, ni de la valeur cherchée.
1 Influence de la confiance
Une approche simple consiste à réécrire l’équation ci-dessus en s’intéressant, cette fois, à l’événement complémentaire (qui correspond au fait d’avoir eu tort de faire confiance, à savoir que π n’est pas dans l’intervalle que l’on construit) :
La première équation se réécrit , ou encore
. De la même façon, la seconde équation se réécrit
. Dans les deux cas, on voit que les valeurs f1(α) et f2(α) sont directement liées à la fonction de répartition (donc à la loi) de la variable aléatoire
: on doit en effet avoir, si l’on note FY cette fonction de répartition,
et
. Si l’on connaît la loi de Y, on en déduit les deux valeurs cherchées.
Approximation gaussienne de Y: La loi exacte de Y est un peu délicate à obtenir, d’une part car elle dérive d’une loi binomiale que l’on a transformée et d’autre part (et surtout) car elle dépend de la valeur de π, inconnue. Quoiqu’il soit possible de s’en servir malgré tout, afin d’obtenir un intervalle de confiance dit « exact », ce n’est pas au programme.
En revanche, il a été montré que, dans certaines conditions, on peut approcher une loi binomiale par une loi normale, de même espérance et de même variance (voir chapitre 7). Si ces conditions sont remplies, K suit donc approximativement une loi normale ; par conséquent, aussi. De plus, en se rappelant que
, on peut constater que Y est une variable aléatoire centrée, réduite. En combinant ces deux résultats, on peut donc considérer que Y suit, approximativement, une loi normale centrée, réduite. En d’autres termes, on peut considérer que FY ≈ FU.
Ce résultat permet de trouver les deux valeurs cherchées : . De la même façon, puisque par continuité
,
et, du fait de la symétrie de la loi normale centrée, réduite,
. La valeur
pourra être lue dans les tables de la loi normale centrée réduite, selon la méthode présentée dans le chapitre 7.
Finalement, on obtient donc comme formule (approchée) pour l’intervalle de confiance d’une proportion :
avec toutefois l’important bémol que l’on ne connaît pas (encore) …

Stay updated, free articles. Join our Telegram channel

Full access? Get Clinical Tree


