11: Théorie générale des tests d’hypothèses, intervalles de pari

11


Théorie générale des tests d’hypothèses, intervalles de pari




I Introduction


Le principe des tests statistiques est récent. Il date du début du XXe siècle. Quatre grandes personnalités ont joué un rôle déterminant dans son élaboration.


Tout d’abord Ronald Fisher (1890–1962), biologiste et statisticien britannique, il débuta ses travaux en agronomie. En raison de sa mauvaise vue, il travaillait les mathématiques sans papier ni crayon ce qui a développé sa capacité à visualiser des problèmes en termes géométriques. Il était intéressé par l’application et la popularisation des méthodes statistiques. Son livre Statistical Methods for Research Workers, publié en 1925, a promu l’utilisation des statistiques dans de nombreux domaines d’étude. En 1935, dans son Design of Experiments, fondé sur des exemples pratiques, il montre comment concevoir et analyser des expériences d’un point de vue statistique. R. Fisher a introduit de nombreux concepts clés dans le domaine des statistiques. En plus d’être un des grands fondateurs de la statistique d’aujourd’hui, il est également un des fondateurs de la génétique moderne en particulier grâce à son utilisation des méthodes statistiques pour la génétique des populations.


William Gosset (1876–1937) est anglais. Après une formation de chimiste il entre comme brasseur chez Guinness. Il travaillait alors sur la qualité de l’orge pour fabriquer la bière. Toutefois, deux difficultés gênaient l’analyse : la variabilité et la petite taille des échantillons d’étude. C’est à ces questions théoriques que Gosset s’est attaché et pour lesquelles il a apporté des solutions. Guinness avait interdit à ses employés de publier les documents quelle que soit leur nature afin d’éviter la divulgation de secrets de fabrication. Cependant, Gosset parvint à convaincre les responsables de la brasserie que ses conclusions philosophiques et mathématiques n’étaient d’aucune utilité pratique pour les brasseurs concurrents. Il fut alors autorisé à publier ses travaux, mais sous un pseudonyme. Il choisit celui de « Student ». Ainsi sa réalisation la plus célèbre porte-t-elle le nom de distribution T de Student.


Jerzy Neyman (1894–1981) est né dans une famille polonaise à Bendery, en Bessarabie alors située en Russie impériale, descendant d’une longue lignée de nobles polonais et héros militaires. Après avoir lu les Leçons sur l’intégration et la recherche des fonctions primitives d’Henri Lebesgue, il fut captivé par la mesure et l’intégration. Il étudia les statistiques avec Karl Pearson à Londres et Emile Borel à Paris. Son travail sur les tests d’hypothèses, les intervalles de confiance et sur l’échantillonnage ont révolutionné les statistiques. Il a publié de nombreux ouvrages dont une partie de ses travaux avec Egon Pearson. Dès 1923 il proposa la réalisation d’essais randomisés. Ses méthodes ont été retenues par la Food and Drug Administration (FDA) aux États-Unis pour les modalités d’évaluation des nouveaux médicaments.


Egon Pearson (1895–1950) est le fils du statisticien britannique Karl Pearson. Il est mathématicien et statisticien. Il fut professeur de statistique au University College de Londres et éditeur de Biometrika, un journal de statistique théorique. Deux de ses principales contributions en statistiques ont été publiées avec Jerzy Neyman. En 1928, c’est la présentation du test du rapport de vraisemblance et en 1933, la démonstration que ce test est le plus puissant de niveau alpha. Il est responsable de nombreuses et importantes contributions aux problèmes de l’inférence statistique. Il a joué un rôle prépondérant dans la diffusion des méthodes statistiques en particulier dans l’industrie.


Ce chapitre se décompose en trois parties. La première présente les intervalles de pari qui sont indispensables pour la mise en œuvre des tests statistiques. La deuxième partie expose le principe des tests d’hypothèses en insistant sur les notions d’hypothèses et de risques. Enfin, la démarche détaillée d’un test est expliquée dans la dernière partie avec en particulier, la description des différentes étapes à suivre.



II Intervalle de pari


Le pari est utilisé régulièrement dans notre vie courante. Nous allons parier sur quel cheval va gagner lors d’une course, nous allons parier sur quels numéros vont être tirés au loto… Il est clair qu’un pari se fait donc avant l’événement qui nous intéresse et que son résultat n’est pas certain. La notion d’intervalle de pari en statistique reprend ces deux caractéristiques. Le contexte est de faire le pari du résultat d’une expérience en supposant connaître parfaitement la loi de la variable aléatoire sous-jacente. Si le résultat de l’expérience ne correspond pas à notre pari, il y a alors deux possibilités : soit les suppositions faites au préalable sur la loi de la variable aléatoire sont fausses, soit les suppositions faites au préalable sur la loi de la variable aléatoire sont justes mais les fluctuations aléatoires ont malgré tout donné un résultat discordant. Ces intervalles de pari seront en particulier très utiles lors des tests d’hypothèses. En effet, on supposera l’une des deux hypothèses testées vraies, un pari en découlera puis le résultat de l’expérience remettra en cause ou pas l’hypothèse supposée, mais ceci toujours avec un risque de se tromper.



A Généralités


Un intervalle de pari ne rentre pas dans le contexte des estimations (à ne pas confondre avec intervalle de confiance). La base de sa construction est même en quelque sorte opposée à celle d’une estimation par intervalle. On suppose ici connaître la loi d’une variable aléatoire c’est-à-dire non seulement sa famille (normale, Student…) mais aussi ses paramètres (espérance et écart-type pour la loi normale, degré de liberté pour la loi de Student…).


Avant de faire l’expérience, peut-on construire un intervalle où le résultat de l’expérience a de grandes chances de se trouver ?


Dans cette question, la partie « grandes chances » suggère qu’un risque doit être fixé au préalable. Nous appellerons α ce risque, qui est bien sûr compris entre 0 et 1 et qui doit être petit. Les valeurs les plus couramment rencontrées pour ce risque sont 0,1, 1 et 5 %. Une fois la valeur de α fixée, 1 − α est donc la probabilité que le résultat de l’expérience soit dans cet intervalle si la loi sous-jacente est bien la loi supposée au départ.


Cet intervalle s’appelle un intervalle de pari car on peut vérifier après avoir déterminé cet intervalle si l’on a gagné ou pas : il suffit de faire l’expérience.



B Intervalle de pari d’une mesure




2 Exemple avec une loi symétrique


Dans cet exemple, on s’intéresse aux performances d’une balance. Pour cela, la variable aléatoire considérée sera l’erreur de mesure faite par cette balance. Les trois questions posées sont les suivantes :



Dans le cas de la première question, la loi de l’erreur de mesure est supposée être la loi normale image (0 ; 1), donc symétrique autour de 0. Le risque α étant de 1 % d’après l’énoncé, l’intervalle de pari est de la forme [− c, + c] tel que P(− c ≤ X ≤ c) = 1 − α = 0,99. La valeur de c est recherchée. Comme X ~ image(0 ; 1), alors P(− c ≤ X ≤ c) = FU(c) − FU(− c) où FU est la fonction de répartition de image(0 ; 1). D’après la symétrie de la loi normale centrée réduite, FU(− c) = 1 − FU(c). On en déduit que P(− c ≤ X ≤ c) = 2 FU(c) − 1 = 0,99. Il est alors simple de montrer que FU(c) = (1 + 0,99)/2 = 0,995. c est donc le quantile de la loi normale centrée réduite d’ordre p = 0,995. D’après la table des quantiles de la loi normale centrée réduite, c = 2,58 (avec arrondi). L’intervalle de pari de X au risque α = 1 % est donc :


image


quand X ~image(0 ; 1).


La seule différence entre la première question et la deuxième question est la valeur de l’espérance de la loi normale supposée suivie par l’erreur de mesure. Ici, X est maintenant supposée suivre une loi normale d’espérance 0,5 g et d’écart-type 1 g soit X ~image(0,5 ; 1), symétrique autour de 0,5. Le risque α étant toujours fixé à 1 % d’après l’énoncé, l’intervalle de pari est de la forme [0,5 − c, 0,5 + c] tel que P(0,5 − c ≤ X ≤ 0,5 + c) = 1 − α = 0,99. La valeur de c est à nouveau recherchée. Comme X ~image(0 ;5, 1), alors P(0,5 − c ≤ X ≤ 0,5 + c) = P(− c ≤ X − 0,5 ≤ + c) = FU(c) − FU(− c) où FU est la fonction de répartition de image(0 ; 1). Par le même raisonnement, P(− c ≤ X − 0,5 ≤ + c) = 2 FU(c) − 1 = 0,99. À nouveau, c est donc le quantile de la loi normale centrée réduite d’ordre p = 0,995. D’après la table des quantiles de la loi normale centrée réduite, c = 2,58 (avec arrondi). L’intervalle de pari de X au risque α = 1 % est donc :


image


quand X ~image(0,5, 1).


Deux intervalles de pari de X au risque de α = 1 % ont été ainsi obtenus :


[− 2,58 ; 2,58] quand X ~image (0 ; 1) et [− 2,08, 3,08] quand X ~image(0,5 ; 1).


Suite à une expérience, l’erreur de mesure vaut 3 g. Le résultat de cette expérience n’est pas dans le premier intervalle mais est dans le second. Ainsi, cette expérience remet en question le fait de supposer que la loi de l’erreur de mesure est la loi image (0 ; 1) mais pas le fait de supposer que la loi de l’erreur de mesure est la loi image (0,5 ; 1).



3 Exemple avec une loi non symétrique


Pour cet exemple, la variable aléatoire d’intérêt Y suit une loi du khi-deux à 5 degrés de liberté. On aimerait trouver un intervalle de valeurs dans lequel on ait 95 % de chance de trouver la réalisation de Y.


Comme Y suit la loi du khi-deux à 5 degrés de liberté (Y ~image), la loi de Y n’est donc pas symétrique. L’intervalle recherché [a, b] est, d’après l’énoncé, un intervalle tel que P(a ≤ Y ≤ b) = 0,95. Le risque α de se tromper est donc de 5 %. Pour déterminer un tel intervalle, nous faisons le choix de partager équitablement le risque α en deux. Ainsi, la probabilité de trouver une valeur « à gauche » de l’intervalle est fixée à α/2 = 0,025 et celle de trouver une valeur « à droite » de l’intervalle est fixée à α/2 = 0,025. Cette phrase est illustrée figure 11.1 et se traduit par les deux égalités suivantes : P(Y < a) = α/2 = 2,5 % et P(Y > b) = α/2 = 2,5 %.



Afin de travailler avec la fonction de répartition de la loi du khi-deux à 5 degrés de liberté, ces deux égalités peuvent également s’écrire : P(Y < a) = 2,5 % et P(Y < b) = 97,5 %. Si FY est la fonction de répartition de image alors FY (a) = 0,025 et FY (b) = 0,975. D’après la table des quantiles de la loi du khi-deux en choisissant la ligne correspondant au degré de liberté 5 (ligne ν = 5), on trouve a = 0,83 (quantile d’ordre p = 0,025) et b = 12,83 (quantile d’ordre p = 0,975). L’intervalle de pari de Y au risque α = 5 % est donc : [0,83 ; 12,83].



C Intervalle de pari d’une moyenne empirique



1 Définition


On se place ici dans la situation où différentes mesures sont faites de manière indépendante et suivant la même loi de probabilité. La moyenne empirique est alors estimée et on aimerait trouver un intervalle de pari non plus sur une seule mesure mais sur le résultat de cette moyenne.



Si l’espérance μ et l’écart-type σ sont connus, alors la loi de image est entièrement connue. En effet, comme (X1,…, Xn) sont n variables aléatoires iid de loi image(μ, σ) alors image ~imageimage. La loi de image est donc symétrique autour de μ. L’intervalle recherché [a, b] est l’intervalle de la forme [μ − c, μ + c] avec P(μ − cimage ≤ μ + c) = 1 − α. La seule valeur à déterminer est ici la valeur de c.


Il faut commencer par centrer et réduire pour se ramener à la loi image(0 ;1).


Rappelons que comme image ~image image alors U = image ~ image(0 ; 1). On en déduit :


image


où FU est la fonction de répartition de image(0 ; 1).


Comme FU(− x) = 1 − FU(x) alors,


image.


On en déduit : image.


D’après la table des quantiles de la loi normale centrée réduite, on trouve :


image.


Il est alors simple d’obtenir : image.


L’intervalle de pari de la moyenne empirique image au risque α est donc,


image




3 Exemple


Nous reprenons l’exemple concernant les performances d’une balance mais cette fois-ci nous supposons avoir n = 10 pesées et donc n = 10 évaluations de l’erreur de mesure de cette balance. L’erreur de mesure X d’une balance est toujours supposée suivre une loi normale de moyenne μ et d’écart-type 1 gramme. Dans quel intervalle symétrique de valeurs puis-je faire le pari (au risque 5 % de me tromper) de trouver la moyenne des 10 erreurs de mesure si μ = 0 ? L’expérience donne une moyenne observée des erreurs de 0,9 g, que peut-on en déduire ?


Comme l’erreur de mesure X d’une balance suit une loi normale de moyenne μ et d’écart-type 1 gramme, d’après le théorème précédent, l’intervalle de pari recherché est de la forme :


image


D’après la table des quantiles de la loi normale centrée réduite, image = u0,975 = 1,96. L’intervalle de pari de la moyenne est donc ici :


image


L’expérience donne une moyenne observée des erreurs de 0,9 g. Cette valeur n’appartient pas à l’intervalle. On peut donc remettre en cause la valeur de l’espérance μ = 0 (au risque α = 5 % de se tromper).



D Intervalle de pari d’une proportion



1 Théorème


On cherche un intervalle de pari pour la proportion observée d’une caractéristique dans un échantillon de taille n. Par exemple, si cette caractéristique est le fait d’être atteint d’une certaine maladie M, alors l’intervalle recherché est l’intervalle de valeurs où la proportion observée de personnes atteintes de la maladie M parmi n personnes est dans cet intervalle, avec une probabilité de 1 − α. On note π la probabilité qu’une personne choisie au hasard dans la population concernée, ait cette caractéristique. X est le nombre de personnes possédant cette caractéristique parmi les n personnes, Po la proportion observée et po sa réalisation. La loi de X est la loi binomiale de paramètres n et π, X ~ image (n, π) et Po = X/n.


Rappelons que si nπ > 5 et n(1 − π) > 5, la loi de Po peut être alors approchée par la loi normale imageimage.




2 Exemple


Un contrôle de la production de médicaments est mis en place. Pour cela, n = 300 médicaments sont prélevés aléatoirement et le nombre de médicaments défectueux est noté. On appelle π la probabilité qu’un médicament soit défectueux. Si π = 0,02, quel est l’intervalle de pari de la proportion observée de médicaments défectueux parmi 300 médicaments au risque 5 % ? On a finalement observé 3 % de médicaments défectueux dans ce lot de 300, que peut-on en déduire ?


Nous sommes dans la situation où n = 300 et π = 0,02. Comme nπ = 6 et n(1 − π) = 294, l’approximation de la loi de la proportion observée Po par la loi normale est ici raisonnable.


D’après le théorème ci-dessus, l’intervalle de pari de la proportion observée au risque α = 5 % est de la forme :


image


image est le quantile d’ordre image de la loi image(0 ; 1).


Comme α = 5 % d’après l’énoncé, image = u0,975 = 1,96. L’intervalle recherché est donc :


image ; 0,02 + 1,96image = [0,02 – 0,016 ; 0,02 + 0,016] = [0,004 ; 0,036].


La proportion observée de médicaments défectueux sur l’échantillon est de 3 %. Cette proportion est dans l’intervalle de pari. L’hypothèse de départ qui était que π = 2 % n’est donc pas contestée par l’expérience.



E Intervalle de pari de l’estimateur de la variance



1 Définition


La variable aléatoire d’intérêt dans cette partie est la variance estimée S2. On se place à nouveau dans la situation où différentes mesures sont faites de manière indépendante et suivant la même loi de probabilité. La variance est alors estimée et on aimerait trouver un intervalle de pari du résultat de cet estimateur.



Ici, l’espérance μ n’est pas supposée connue. Nous rappelons que si (X1,…, Xn) sont n variables aléatoires iid de loi image(μ, σ) alors image.


Si σ est connu, la variable aléatoire image est donc entièrement définie.


L’intervalle de pari [a, b] de la variance au risque α est tel que P(a ≤ S2b) = 1 − α où image.


Or, il est simple de montrer que :


image


La loi du khi-deux à n − 1 degré de liberté image n’est pas symétrique et donc les deux bornes de l’intervalle doivent être recherchées (contrairement au cas où seule la valeur de la demi-largeur est à trouver quand la loi est symétrique). Le risque α est équitablement partagé de par et d’autre de l’intervalle, c’est-à-dire :


image


Afin d’utiliser la table des quantiles de la loi du khi-deux, les deux égalités précédentes peuvent s’exprimer sous la forme de fonction de répartition et sont équivalentes à :


image


Ainsi la première égalité correspond au quantile d’ordre image de la loi du khi-deux à n − 1 degrés de liberté et la seconde égalité correspond au quantile d’ordre image de la loi du khi-deux à n − 1 degrés de liberté. Si xp,(n− 1) est le quantile d’ordre p de la loi du khi-deux à n − 1 degrés de liberté, des deux égalités précédentes, on déduit :


image


Il est alors simple de montrer que : image.

Stay updated, free articles. Join our Telegram channel

May 9, 2017 | Posted by in GÉNÉRAL | Comments Off on 11: Théorie générale des tests d’hypothèses, intervalles de pari

Full access? Get Clinical Tree

Get Clinical Tree app for offline access