11
Théorie générale des tests d’hypothèses, intervalles de pari
I Introduction
Tout d’abord Ronald Fisher (1890–1962), biologiste et statisticien britannique, il débuta ses travaux en agronomie. En raison de sa mauvaise vue, il travaillait les mathématiques sans papier ni crayon ce qui a développé sa capacité à visualiser des problèmes en termes géométriques. Il était intéressé par l’application et la popularisation des méthodes statistiques. Son livre Statistical Methods for Research Workers, publié en 1925, a promu l’utilisation des statistiques dans de nombreux domaines d’étude. En 1935, dans son Design of Experiments, fondé sur des exemples pratiques, il montre comment concevoir et analyser des expériences d’un point de vue statistique. R. Fisher a introduit de nombreux concepts clés dans le domaine des statistiques. En plus d’être un des grands fondateurs de la statistique d’aujourd’hui, il est également un des fondateurs de la génétique moderne en particulier grâce à son utilisation des méthodes statistiques pour la génétique des populations.
William Gosset (1876–1937) est anglais. Après une formation de chimiste il entre comme brasseur chez Guinness. Il travaillait alors sur la qualité de l’orge pour fabriquer la bière. Toutefois, deux difficultés gênaient l’analyse : la variabilité et la petite taille des échantillons d’étude. C’est à ces questions théoriques que Gosset s’est attaché et pour lesquelles il a apporté des solutions. Guinness avait interdit à ses employés de publier les documents quelle que soit leur nature afin d’éviter la divulgation de secrets de fabrication. Cependant, Gosset parvint à convaincre les responsables de la brasserie que ses conclusions philosophiques et mathématiques n’étaient d’aucune utilité pratique pour les brasseurs concurrents. Il fut alors autorisé à publier ses travaux, mais sous un pseudonyme. Il choisit celui de « Student ». Ainsi sa réalisation la plus célèbre porte-t-elle le nom de distribution T de Student.
Jerzy Neyman (1894–1981) est né dans une famille polonaise à Bendery, en Bessarabie alors située en Russie impériale, descendant d’une longue lignée de nobles polonais et héros militaires. Après avoir lu les Leçons sur l’intégration et la recherche des fonctions primitives d’Henri Lebesgue, il fut captivé par la mesure et l’intégration. Il étudia les statistiques avec Karl Pearson à Londres et Emile Borel à Paris. Son travail sur les tests d’hypothèses, les intervalles de confiance et sur l’échantillonnage ont révolutionné les statistiques. Il a publié de nombreux ouvrages dont une partie de ses travaux avec Egon Pearson. Dès 1923 il proposa la réalisation d’essais randomisés. Ses méthodes ont été retenues par la Food and Drug Administration (FDA) aux États-Unis pour les modalités d’évaluation des nouveaux médicaments.
Egon Pearson (1895–1950) est le fils du statisticien britannique Karl Pearson. Il est mathématicien et statisticien. Il fut professeur de statistique au University College de Londres et éditeur de Biometrika, un journal de statistique théorique. Deux de ses principales contributions en statistiques ont été publiées avec Jerzy Neyman. En 1928, c’est la présentation du test du rapport de vraisemblance et en 1933, la démonstration que ce test est le plus puissant de niveau alpha. Il est responsable de nombreuses et importantes contributions aux problèmes de l’inférence statistique. Il a joué un rôle prépondérant dans la diffusion des méthodes statistiques en particulier dans l’industrie.
II Intervalle de pari
A Généralités
Un intervalle de pari ne rentre pas dans le contexte des estimations (à ne pas confondre avec intervalle de confiance). La base de sa construction est même en quelque sorte opposée à celle d’une estimation par intervalle. On suppose ici connaître la loi d’une variable aléatoire c’est-à-dire non seulement sa famille (normale, Student…) mais aussi ses paramètres (espérance et écart-type pour la loi normale, degré de liberté pour la loi de Student…).
B Intervalle de pari d’une mesure
• a et b sont des constantes, seule X est aléatoire.
• Le ou les paramètres de la loi de X sont entièrement connus.
• On cherche un intervalle où on fait le pari que X soit dedans au risque α de se tromper.
• Cet intervalle est symétrique en probabilité soit :
• Si la loi de X est symétrique autour d’une valeur θ0, on choisira un intervalle symétrique. ⇒ [a, b] = [θ0 − c, θ0 + c]. Dans ce cas, il suffit de trouver c (c ≥ 0).
2 Exemple avec une loi symétrique
Dans cet exemple, on s’intéresse aux performances d’une balance. Pour cela, la variable aléatoire considérée sera l’erreur de mesure faite par cette balance. Les trois questions posées sont les suivantes :
• on pense que l’erreur de mesure X de cette balance suit une loi normale de moyenne 0 et d’écart-type 1 gramme. Dans quel intervalle de valeurs puis-je faire le pari (au risque 1 % de me tromper) de trouver mon erreur de mesure ?
• on sait que l’erreur de mesure X de cette balance suit une loi normale de moyenne μ et d’écart-type 1 gramme. Si μ = 0,5 g, dans quel intervalle de valeurs puis-je faire le pari (au risque 1 % de me tromper) de trouver mon erreur de mesure ?
• le résultat de l’expérience est x = 3 g, que peut-on en déduire ?
Deux intervalles de pari de X au risque de α = 1 % ont été ainsi obtenus :
[− 2,58 ; 2,58] quand X ~ (0 ; 1) et [− 2,08, 3,08] quand X ~
(0,5 ; 1).
3 Exemple avec une loi non symétrique
Pour cet exemple, la variable aléatoire d’intérêt Y suit une loi du khi-deux à 5 degrés de liberté. On aimerait trouver un intervalle de valeurs dans lequel on ait 95 % de chance de trouver la réalisation de Y.
Comme Y suit la loi du khi-deux à 5 degrés de liberté (Y ~), la loi de Y n’est donc pas symétrique. L’intervalle recherché [a, b] est, d’après l’énoncé, un intervalle tel que P(a ≤ Y ≤ b) = 0,95. Le risque α de se tromper est donc de 5 %. Pour déterminer un tel intervalle, nous faisons le choix de partager équitablement le risque α en deux. Ainsi, la probabilité de trouver une valeur « à gauche » de l’intervalle est fixée à α/2 = 0,025 et celle de trouver une valeur « à droite » de l’intervalle est fixée à α/2 = 0,025. Cette phrase est illustrée figure 11.1 et se traduit par les deux égalités suivantes : P(Y < a) = α/2 = 2,5 % et P(Y > b) = α/2 = 2,5 %.
C Intervalle de pari d’une moyenne empirique
On se place ici dans la situation où différentes mesures sont faites de manière indépendante et suivant la même loi de probabilité. La moyenne empirique est alors estimée et on aimerait trouver un intervalle de pari non plus sur une seule mesure mais sur le résultat de cette moyenne.
Il faut commencer par centrer et réduire pour se ramener à la loi (0 ;1).
Rappelons que comme ~
alors U =
~
(0 ; 1). On en déduit :
où FU est la fonction de répartition de (0 ; 1).
Comme FU(− x) = 1 − FU(x) alors,
D’après la table des quantiles de la loi normale centrée réduite, on trouve :
Il est alors simple d’obtenir : .
L’intervalle de pari de la moyenne empirique au risque α est donc,
D Intervalle de pari d’une proportion
On cherche un intervalle de pari pour la proportion observée d’une caractéristique dans un échantillon de taille n. Par exemple, si cette caractéristique est le fait d’être atteint d’une certaine maladie M, alors l’intervalle recherché est l’intervalle de valeurs où la proportion observée de personnes atteintes de la maladie M parmi n personnes est dans cet intervalle, avec une probabilité de 1 − α. On note π la probabilité qu’une personne choisie au hasard dans la population concernée, ait cette caractéristique. X est le nombre de personnes possédant cette caractéristique parmi les n personnes, Po la proportion observée et po sa réalisation. La loi de X est la loi binomiale de paramètres n et π, X ~ (n, π) et Po = X/n.
Rappelons que si nπ > 5 et n(1 − π) > 5, la loi de Po peut être alors approchée par la loi normale .
E Intervalle de pari de l’estimateur de la variance
La variable aléatoire d’intérêt dans cette partie est la variance estimée S2. On se place à nouveau dans la situation où différentes mesures sont faites de manière indépendante et suivant la même loi de probabilité. La variance est alors estimée et on aimerait trouver un intervalle de pari du résultat de cet estimateur.
Si σ est connu, la variable aléatoire est donc entièrement définie.
L’intervalle de pari [a, b] de la variance au risque α est tel que P(a ≤ S2 ≤ b) = 1 − α où .
Or, il est simple de montrer que :
La loi du khi-deux à n − 1 degré de liberté n’est pas symétrique et donc les deux bornes de l’intervalle doivent être recherchées (contrairement au cas où seule la valeur de la demi-largeur est à trouver quand la loi est symétrique). Le risque α est équitablement partagé de par et d’autre de l’intervalle, c’est-à-dire :

Stay updated, free articles. Join our Telegram channel

Full access? Get Clinical Tree

