10: Estimation

10


Estimation



Les chapitres précédents nous ont permis de développer un cadre théorique pour représenter les résultats d’une expérience : l’analyse mathématique (chapitres 1 à 4) donne les outils fondamentaux pour modéliser le lien entre différentes grandeurs, par exemple une concentration plasmatique en médicament et le temps après son administration, alors que la théorie des probabilités (chapitres 5 à 9) fournit le cadre permettant de prendre en compte le hasard, inhérent à toute expérience.


Ce cadre reste cependant très théorique. Pour pouvoir exploiter les résultats d’une expérience (au sens large) ou d’une série d’observations, il faut compléter ce cadre par les statistiques, qui utilisent les résultats des mathématiques et de la théorie des probabilités pour extraire l’information contenue dans les observations (statistiques descriptives) et en tirer des conclusions (statistiques inférentielles). C’est ce cadre qui sera introduit dans ce chapitre et tous les suivants – dans les cas les plus simples.


Afin d’illustrer l’importance des statistiques et la façon dont elles peuvent être utilisées, nous allons dans cette première partie nous intéresser à une question qui paraît simple : « Combien vaut… ? ». Comme souvent, cette apparente simplicité cache en réalité plusieurs situations et la première étape de la démarche consiste à préciser le contexte de cette question.


De façon un peu grossière, on peut distinguer trois grandes variantes de cette question. Pour les illustrer, considérons la question « Combien vaut la glycémie ? » :



Dans la première situation, il semble très simple d’apporter une réponse : il suffit par exemple de prendre un appareil mesurant la glycémie au doigt du patient, tel que celui illustré figure 10.1. Cet appareil donne une valeur, ici 4,3 g/L, et cela répond à la question. Cependant, quel crédit accorder à cette valeur ? Est-ce que cette valeur affichée correspond bien à la glycémie réelle, d’une part, et d’autre part si l’on refaisait la même mesure avec le même appareil, au même moment, obtiendrait-on nécessairement 4,3 g/L ou une valeur légèrement différente ? Pour répondre à ces questions, outre la connaissance des propriétés physico-chimiques mises en œuvre et qui ne sont pas du ressort de ce cours, c’est la métrologie (étudiée dans le chapitre 9) qui apporte les outils appropriés.



Dans la deuxième situation, ce sont au contraire les outils développés dans les chapitres précédents qui fourniront la réponse. En effet, si l’on imagine que le modèle définit la glycémie comme une fonction du temps (après un repas par exemple), il suffit de calculer cette fonction à l’instant voulu. Si, au contraire, on dit que « chez les patients sains, la glycémie suit une loi de Laplace-Gauss (ou « loi normale ») d’espérance μ = 5 g/L et d’écart-type σ = 1 g/L », les outils probabilistes vus précédemment permettent de donner la probabilité d’observer une glycémie voisine de telle ou telle valeur. La réponse à cette question est alors donnée par un intervalle de valeurs probables. Dans les cas les plus simples, cet intervalle est un intervalle de pari, qui sera présenté dans le chapitre 11. Plus généralement, il s’agit d’un problème de prédiction.


Dans la troisième situation, les deux méthodologies précédentes ne sont pas applicables. En effet, on ne dispose pas a priori de modèle de la glycémie habituelle si l’on se pose cette question : les outils mathématiques et probabilistes de la deuxième situation ne sont donc pas utilisables. Par ailleurs, la valeur cherchée n’est pas directement accessible expérimentalement : aucun appareil ne pourra donner une valeur habituelle chez un patient en général. Cette question est cependant cruciale : comment proposer les valeurs de μ et σ de la deuxième situation, par exemple, sans y avoir répondu ? Nous allons voir dans ce chapitre les principes qui permettent de répondre à ce type de question et donner, pour quelques cas simples et classiques, la démarche à suivre. Le cadre général est celui de la théorie de l’estimation.




En résumé, la question « Combien vaut… ? » correspond à trois grands types de situations, pour lesquelles la réponse est apportée par des outils différents :




I Principes généraux de l’estimation


Reprenons l’exemple de la glycémie : « Quelle est la valeur habituelle de la glycémie chez une personne saine, en général ? » Aucun appareil ne permettra de répondre à cette question par une simple mesure, en revanche il est tout à fait possible de choisir plusieurs patients réels et d’en mesurer la glycémie, grâce à ces appareils. Il se pose alors deux questions :



Pour comprendre les réponses apportées à ces deux questions, il faut par ailleurs se donner un cadre mathématique adapté. Pour cela, l’idée est de se dire que les différences de valeurs observées entre patients ne sont dues qu’aux hasards de l’expérience – en fait, à un ensemble de raisons que l’on ne cherche pas à expliciter et qui traduisent la variabilité d’un patient à l’autre. À partir du moment où l’on évoque le hasard, le cadre naturel est celui des probabilités.


Lorsque l’on réalise une mesure chez un individu, la valeur obtenue dépend du patient, de l’instant de la mesure… bref du hasard. C’est donc la conséquence de la réalisation d’un événement aléatoire. Cette idée est exactement celle qui définit une variable aléatoire (chapitre 6) : le modèle considéré est donc que le résultat de l’observation1 chez l’individu i est la réalisation xi d’une variable aléatoire Xi. La loi de cette variable aléatoire dépend de la valeur cherchée, que l’on notera θ. Le problème de l’estimation revient alors à proposer une ou plusieurs valeurs pour θ à partir des réalisations xi, alors que celui du choix des patients revient à s’assurer que les différentes variables aléatoires Xi correspondent bien à la même valeur de θ.



A Choix des patients : notions de population et d’échantillon


Dans la question « quelle est la valeur habituelle de la glycémie chez une personne saine, en général ? » apparaît « une personne saine, en général ». La réponse est donc censée s’appliquer à toutes les personnes saines. Cependant, il n’est pas envisageable de mesurer la glycémie de toutes les personnes saines pour répondre à la question. On choisira donc n personnes, parmi toutes les personnes saines, et l’on mesurera leur glycémie ; à partir de ces valeurs individuelles, on essaiera de remonter à la valeur commune à l’ensemble des personnes saines.


Cette idée est très générale. On appellera population l’ensemble des individus pour lesquels on veut déterminer une valeur2 et échantillon le sous-ensemble des individus pour lesquels on réalisera une observation.


Pour pouvoir parler de la valeur de θ dans la population, il faut qu’elle soit la même pour tous les individus de cette population – comment parler de la valeur habituelle de la glycémie s’il y a dans la population aussi bien des personnes saines que des personnes atteintes du diabète ? En pratique, il est même nécessaire que les lois des variables aléatoires de chaque individu ((Xi)i ∈ {1, 2…, n}) soient identiques. On parlera de population homogène. Choisir une population homogène – ou, façon différente de formuler le problème, définir la population pour laquelle sont valables les résultats que l’on obtiendra – n’est pas simple et demande tout le savoir-faire de l’expérimentateur ou de l’observateur ; c’est cependant une étape fondamentale pour pouvoir interpréter les résultats d’une étude. Ce problème sera évoqué à nouveau dans le chapitre sur les tests statistiques ; pour la suite de ce chapitre, nous admettrons que la population a été correctement définie et nous n’y reviendrons pas – il n’y a, heureusement, pas besoin de connaître la population pour construire et appliquer les méthodes d’estimation.


Une fois la population définie, il faut sélectionner les n patients qui constitueront l’échantillon. Afin de pouvoir appliquer les méthodes probabilistes, cette sélection doit faire intervenir le hasard. Savoir comment tirer au hasard les individus dans la population pour constituer l’échantillon fait l’objet de la randomisation, problème délicat qui n’est pas au programme de cet ouvrage. Nous admettrons donc que cette étape a été réalisée correctement. On obtient alors un échantillon à la fois aléatoire et représentatif de la population étudiée.


Une fois l’échantillon constitué, on peut réaliser sur chacun des individus qui le constitue une observation. Le résultat de cette observation pour le i-ième individu donne une valeur xi, réalisation de la variable aléatoire Xi. On dispose donc de n valeurs x1,…, xn. Comment, à partir de ces n valeurs observées, obtenir une réponse à la question « Combien vaut la valeur θ ? » ?



B Estimation ponctuelle d’une valeur


La réponse la plus naturelle à cette question est une valeur unique, obtenue à partir des n valeurs x1,…, xn. Cette valeur, notée image, est appelée une estimation ponctuelle de θ. Dans quelle mesure cette estimation ponctuelle image nous renseigne-t-elle sur la vraie valeur, inconnue et inaccessible, θ ? Pour répondre à cette question, il est nécessaire de formaliser le lien entre image et les valeurs x1,…, xn.


Comme elle est obtenue à partir des xi, on peut toujours écrire image = f(x1,…, xn), où f est une fonction de n variables (voir chapitre 4). De plus, les valeurs x1,…, xn étant les réalisations des variables aléatoires X1,…, Xn, image est elle-même la réalisation d’une variable aléatoire, image. Cette variable aléatoire image est appelée un estimateur de θ ; toutes les informations sur la qualité de l’estimation ponctuelle proviennent des caractéristiques de cette variable aléatoire : sa loi, son espérance…



1 Propriétés d’un estimateur ponctuel


Pour comprendre quelles propriétés doit posséder un estimateur ponctuel pour être intéressant en pratique, considérons un exemple très simple : on se demande quelle heure est-il, à la minute près, et l’on dispose pour cela d’une horloge que l’on montre à différentes personnes.


Si l’horloge était celle représentée figure 10.2, quelle heure y liriez-vous ? Comme il n’y a qu’une aiguille, celle des heures, la réponse variera beaucoup d’une personne à l’autre : si tous devraient s’accorder à donner une heure comprise entre 12 h 00 et 13 h 00, certains répondront 12 h 25, d’autres 12 h 30, d’autres encore 12 h 35… En revanche, si l’horloge était celle représentée figure 10.3, la réponse serait bien moins variable d’une personne à l’autre : soit 15 h 32, soit 15 h 33. Cet exemple illustre une première propriété importante d’un estimateur : quelle est la dispersion des différentes valeurs qu’il peut donner ? En d’autres termes, quelle est sa précision, au sens usuel du terme ? Puisqu’il s’agit d’un problème de dispersion, de variabilité, l’outil naturel pour mesurer cette précision est la variance, ou l’écart-type, de l’estimateur : un estimateur sera d’autant plus précis que sa variance est faible.




Supposons maintenant que l’horloge soit celle de la figure 10.4. Compte tenu de la question posée, sa précision est parfaite : pour avoir l’heure à la minute près, il n’y a qu’une seule réponse possible. Est-ce pour autant que la valeur donnée est la bonne ? Non, puisqu’il suffit que cette horloge avance, ou retarde, de quelques minutes pour que la valeur proposée, aussi précise soit-elle, soit inexacte. Ceci illustre une autre propriété importante d’un estimateur : quelle valeur « idéale » (c’est-à-dire, si l’on arrivait à ne plus avoir de variabilité, ou encore à avoir une précision infinie) donne-t-il ? L’outil naturel pour savoir cela est l’espérance, qui donne justement la valeur moyenne d’une variable aléatoire (voir chapitre 6). L’écart entre l’espérance de l’estimateur, image, et la valeur réelle, θ, mesure l’exactitude de l’estimateur. On appelle biais cet écart : image. On dit qu’un estimateur est sans biais si δ = 0, il donne donc idéalement la valeur cherchée ; si δ ≠ 0, l’estimateur est biaisé.



L’estimateur ponctuel idéal serait à la fois sans biais et de variance minimale. En général, un tel estimateur n’existe pas et l’on devra faire un compromis entre le biais et la variance minimale. Une classe intéressante d’estimateurs est alors celle des estimateurs dont le biais tend vers 0 quand la taille de l’échantillon tend vers l’infini (on dit alors que l’estimateur est asymptotiquement sans biais) ; une autre classe intéressante est celle des estimateurs dont la variance tend vers 0 quand la taille de l’échantillon tend vers l’infini (on dit alors que l’estimateur est convergent). En pratique, beaucoup d’estimateurs sont convergents et asymptotiquement sans biais : c’est ce qui se rapproche le plus de l’estimateur idéal… pour peu que l’on puisse réaliser de grands échantillons.




Construction d’un estimateur ponctuel: Comment trouver la fonction f permettant de définir l’estimateur ponctuel ? L’approche la plus simple est, souvent, de transposer l’idée intuitive de ce que représente la valeur que l’on cherche à estimer : c’est ce que nous ferons dans les exemples ultérieurs. Dans un deuxième temps, si l’estimateur ainsi obtenu n’est pas idéal, on peut l’améliorer en corrigeant ses défauts : c’est ce que nous ferons pour l’estimateur d’une variance, dans la suite de ce chapitre.


Lorsque l’intuition ne donne pas d’estimateur pratique, on peut utiliser une autre approche, plus systématique. Parmi ces approches, une très féconde est celle du maximum de vraisemblance. Dans cette approche, qui sera présentée plus en détail dans les exemples qui suivent, on choisit l’estimateur de telle sorte que la valeur image qu’il donne soit celle qui maximise la probabilité d’obtenir les valeurs x1,…, xn qui ont été observées dans l’échantillon. On peut montrer que les estimateurs ainsi obtenus sont asymptotiquement sans biais et convergents.



C Estimation par intervalle


Une estimation ponctuelle répond à la question « Quelle est la valeur de θ ? »  par une valeur, image, dont on pense qu’elle n’est « pas trop différente  » de θ si l’estimateur a de bonnes propriétés. Quoique ce soit déjà une réponse intéressante, ce n’est qu’une réponse très incomplète : qu’est-ce que veut dire « pas trop différente » ?


Afin de donner une réponse à cette question, une autre approche est utilisée. Au lieu de donner comme réponse une seule valeur, on cherche à donner un ensemble de valeurs réalistes. La réponse prendra donc la forme d’un intervalle, et l’on dira « θ appartient très certainement à cet intervalle ». Il reste encore à quantifier ce « très certainement » ; pour cela, nous allons utiliser encore une fois l’approche probabiliste.


En effet, l’intervalle [a, b] qui servira de réponse est construit, lui aussi, à partir des valeurs observées dans l’échantillon. Ses deux bornes, a et b, sont donc, tout comme image, des fonctions de ces valeurs et des réalisations de variables aléatoires, respectivement A et B. « θ ∈ [A, B] » est donc un événement, auquel on peut associer une probabilité (voir chapitre 5). Plus cette probabilité est élevée, plus l’on peut avoir confiance dans la phrase « θ appartient à l’intervalle [a, b] ». On appelle donc confiance cette probabilité, notée 1 – α : P(θ ∈ [A, B]) = 1 − α ; α représente le risque de faire confiance à tort à la phrase « θ appartient à l’intervalle [a, b] ». Par extension, on appelle [A, B] un intervalle de confiance à 1 − α – ainsi que sa réalisation, [a, b].


En général (mais ce n’est pas obligatoire), les bornes de l’intervalle de confiance seront construites à partir de l’estimation ponctuelle ; cette dernière n’étant normalement pas très différente de la vraie valeur, il est logique qu’elle appartienne à l’intervalle de confiance et l’on aura donc image et image – ou encore, si l’on raisonne en termes de variables aléatoires, image et image.


Maintenant que le cadre général est construit, nous allons voir comment l’appliquer dans certaines situations classiques. La première concerne les variables qualitatives et permet d’estimer une probabilité par une proportion ; la seconde concerne les variables quantitatives et permet d’estimer une espérance par une moyenne, ainsi qu’une variance.



II Application : estimation d’une proportion


Un service hospitalier réalise, à l’entrée de chaque patient, un examen sanguin comportant, en particulier, une mesure de la concentration plasmatique en fer (sidérémie) qui permet de détecter une éventuelle carence martiale. Au cours des trois derniers mois, parmi 68 patients entrant dans ce service, 30 présentaient effectivement une carence. Le pharmacien attaché au service se demande, pour optimiser l’approvisionnement en traitements, quel est le pourcentage de patients présentant une carence martiale lors de leur entrée dans le service.


Au sens strict, le pourcentage est d’obtention immédiate : il vaut image ≈ 0,441 soit 44,1 %. Cependant, cette valeur représente le pourcentage de patients carencés parmi ceux entrés dans le service les trois mois précédents ; ce qui intéresse le pharmacien, c’est le pourcentage parmi ceux qui entreront dans le service, qui n’a aucune raison d’être rigoureusement celui-ci.


La question est donc bien du type : « Quelle est la valeur de… ? », avec une valeur cherchée qui n’est pas directement accessible par une mesure ou une observation, ni par un quelconque modèle théorique. La réponse à la question s’obtient donc bien dans le cadre de l’estimation.


Pour appliquer les idées générales présentées précédemment, il faut considérer les n = 68 patients comme un échantillon extrait, aléatoirement, de la population des patients amenés à être hospitalisés dans ce service ; comme nous l’avons dit, nous ne nous intéresserons pas plus avant à cette étape ni à la définition de la population, et considérerons que ces 68 patients constituent bien un échantillon aléatoire et représentatif.


À chacun de ces patients est associée une variable aléatoire Xi, dont la réalisation est le résultat de l’observation faite sur ce patient. Ici, l’observation réalisée est le fait de présenter, ou non, une carence martiale et Xi est donc une variable aléatoire à deux modalités. Conventionnellement, on dira que Xi = 1 si le patient i était carencé à son entrée dans le service, et que Xi = 0 sinon : Xi suit alors une loi de Bernoulli, de paramètre πi = P(Xi = 1) (voir chapitre 5) : πi est la probabilité que le patient i présente une carence en fer lors de son entrée dans le service. Comme la population est supposée homogène et l’échantillon représentatif, cette probabilité est la même pour tous les patients : ∀ i, πi = π – les variables aléatoires X1,…, Xn sont identiquement distribuées. De plus, l’échantillon ayant été choisi au hasard et en admettant que le même patient n’a pas été hospitalisé deux fois dans le service pendant ces trois mois, elles sont indépendantes.


Pour estimer la valeur cherchée, il faut la relier à la loi de ces variables aléatoires Xi. Comme cette loi ne dépend que d’un seul paramètre, π, la valeur cherchée ne peut être (à une transformation près) que cette valeur : ici, θ = π. La question posée est donc, en réalité, « Quelle est la probabilité qu’un nouveau patient présente une carence martiale à son entrée dans le service » : on cherche à estimer une probabilité. Ce n’est que par abus de langage que l’on parle d’estimation de proportion, voire de pourcentage3



A Estimation ponctuelle



1 Approche intuitive


L’idée intuitive d’une probabilité est le rapport entre le nombre de cas favorables et le nombre de cas possibles (voir chapitre 5). Il est possible de réutiliser cette idée pour construire une estimation ponctuelle de la probabilité cherchée.


Le nombre de cas possibles de carences martiales, parmi les n patients entrant dans le service, est bien évidemment n (68 dans notre exemple). Le nombre de cas « favorables » est ici le nombre de patients présentant effectivement une carence martiale à leur entrée dans le service, k = 30 ici. L’estimation ponctuelle intuitive est donc image: on reconnaît la valeur proposée dans l’introduction4. Mais dans quelle mesure est-ce une bonne estimation ?




La valeur de k est aléatoire (dans un autre échantillon de 68 patients, il n’y a aucune raison d’observer à nouveau 30 patients carencés), c’est la réalisation de la variable aléatoire K. Cette variable aléatoire est directement liée aux variables aléatoires Xi observées, par la relation image C’est pour avoir cette relation que l’on adopte le codage en variable de Bernoulli… . L’estimateur ponctuel est donc finalement5 image. Ce sont ses propriétés qu’il faut étudier pour savoir si l’estimation intuitive est une bonne estimation de π.



2 Propriétés de l’estimateur ponctuel intuitif


Comme les Xi sont indépendantes et identiquement distribuées, K suit par définition une loi binomiale de paramètres n et π. Ainsi, E(K) = nπ et V(K) = nπ(1 − π).







Précision: Calculons maintenant la variance de cet estimateur ponctuel :


image



Lorsque n tend vers l’infini, la variance tend vers 0 : l’estimateur ponctuel intuitif est convergent. Ainsi, plus l’échantillon utilisé est grand, plus la précision est importante. Cependant, la précision est mieux représentée par l’écart-type, image, qui décroît en image : pour doubler la précision, il faut quadrupler la taille de l’échantillon – et pour gagner un ordre de grandeur (un chiffre significatif), il faut la multiplier par 100. La figure 10.5 représente l’évolution de cette précision pour quelques valeurs de π : si la précision augmente rapidement au début, cette augmentation ralentit beaucoup ensuite…




3 Approche par le maximum de vraisemblance


L’estimateur intuitif est un « bon » estimateur, puisqu’il est sans biais et convergent. On sait cependant que la méthode du maximum de vraisemblance donne aussi de bons estimateurs. Quel estimateur donnerait-elle ici ?


On appelle vraisemblance, notée L (pour likelihood, sa traduction anglaise6), la probabilité d’obtenir les observations expérimentales. Ici, l’observation est que k patients sont carencés à l’entrée dans le service : la vraisemblance est donc image, puisque l’on sait que K suit une loi binomiale. La vraisemblance est bien une fonction de la valeur cherchée, π – on la note L(π).


La méthode du maximum de vraisemblance consiste à choisir, comme estimation ponctuelle de π, la valeur image qui rend maximale la vraisemblance, c’est-à-dire qui rend maximale la probabilité d’avoir observé k patients carencés parmi les n – on part ainsi du postulat que les observations correspondent aux situations les plus probables. Si la vraisemblance est maximale, son logarithme aussi (puisque c’est une fonction croissante [voir chapitre 1]) ; les calculs sont en général plus simples après avoir pris le logarithme. Ici,


image



La fonction g(π) est continue, dérivable sur ]0 ; 1[ ; elle tend vers – ∞ quand π tend vers 0 ou 1 : elle admet donc au moins un maximum ; de plus, lorsqu’elle est maximale, sa dérivée doit s’annuler : cherchons quand s’annule sa dérivée ; ce point servira d’estimation ponctuelle.


image



Donc :


image



Ainsi, la méthode du maximum de vraisemblance donne le même estimateur que l’approche intuitive.



B Estimation par intervalle


L’estimation ponctuelle est correcte, puisque l’estimateur ponctuel est sans biais et convergent. Mais pour savoir plus précisément quelles peuvent être les valeurs de π, réaliser une estimation par intervalle est préférable.


Nous avons vu que, dans ce cas, on cherche un intervalle (aléatoire) [A, B] tel que Pr(π ∈ [A, B]) = 1 − α, où α est le risque que l’on est prêt à prendre de faire confiance à tort au résultat que l’on obtiendra. Comme image est une bonne estimation, elle doit être dans l’intervalle ainsi obtenu. Pour en être sûr, le plus simple est de poser image et image, avec δ1 et δ2 positifs. On obtiendra ainsi un intervalle de confiance de largeur δ1 + δ2.


Cette largeur (que l’on aimerait la plus faible possible) dépend de deux facteurs, d’origine complètement différente :



Pour bien différencier ces deux origines différentes, on réécrit image et image, avec image qui donne l’influence de la précision de l’estimation sur la largeur de l’intervalle et f1(α) et f2(α) qui donnent celle de la confiance.



1 Influence de la confiance


Admettons pour l’instant que nous connaissions l’influence de la précision, image. Il faut alors trouver les deux valeurs f1(α) et f2(α), à partir de la seule équation


image



Une équation pour deux inconnues, cela ne permet pas de trouver les deux valeurs et il y a donc une infinité d’intervalles de confiance possible. Pour n’en construire qu’un seul, il faut se donner des conditions supplémentaires.


Une approche simple consiste à réécrire l’équation ci-dessus en s’intéressant, cette fois, à l’événement complémentaire (qui correspond au fait d’avoir eu tort de faire confiance, à savoir que π n’est pas dans l’intervalle que l’on construit) :


image



Ainsi, il y a deux façons d’avoir tort de faire confiance (soit que π soit plus petit que la plus petite valeur proposée, soit qu’il soit plus grand que la plus grande) et il faut répartir la probabilité correspondante entre ces deux façons. Or, il n’y a a priori aucune raison de craindre une façon plutôt que l’autre. Cela conduit donc à répartir cette probabilité de façon équitable, soit :


image



La première équation se réécrit image, ou encore image. De la même façon, la seconde équation se réécrit image. Dans les deux cas, on voit que les valeurs f1(α) et f2(α) sont directement liées à la fonction de répartition (donc à la loi) de la variable aléatoire image: on doit en effet avoir, si l’on note FY cette fonction de répartition, image et image. Si l’on connaît la loi de Y, on en déduit les deux valeurs cherchées.




Approximation gaussienne de Y: La loi exacte de Y est un peu délicate à obtenir, d’une part car elle dérive d’une loi binomiale que l’on a transformée et d’autre part (et surtout) car elle dépend de la valeur de π, inconnue. Quoiqu’il soit possible de s’en servir malgré tout, afin d’obtenir un intervalle de confiance dit « exact », ce n’est pas au programme.


En revanche, il a été montré que, dans certaines conditions, on peut approcher une loi binomiale par une loi normale, de même espérance et de même variance (voir chapitre 7). Si ces conditions sont remplies, K suit donc approximativement une loi normale ; par conséquent, image aussi. De plus, en se rappelant que image, on peut constater que Y est une variable aléatoire centrée, réduite. En combinant ces deux résultats, on peut donc considérer que Y suit, approximativement, une loi normale centrée, réduite. En d’autres termes, on peut considérer que FY ≈ FU.


Ce résultat permet de trouver les deux valeurs cherchées : image. De la même façon, puisque par continuité image, image et, du fait de la symétrie de la loi normale centrée, réduite, image. La valeur image pourra être lue dans les tables de la loi normale centrée réduite, selon la méthode présentée dans le chapitre 7.


Finalement, on obtient donc comme formule (approchée) pour l’intervalle de confiance d’une proportion :


image



avec toutefois l’important bémol que l’on ne connaît pas (encore) image

Stay updated, free articles. Join our Telegram channel

May 9, 2017 | Posted by in GÉNÉRAL | Comments Off on 10: Estimation

Full access? Get Clinical Tree

Get Clinical Tree app for offline access