9: L’examen psychométrique

Chapitre 9 L’examen psychométrique




9.1 Introduction



L’application d’une méthode quantitative aux sciences de l’homme a vu le jour à la fin du XIXe siècle. La psychométrie a été définie, en 1879, par F. Galton comme « l’art d’imposer aux opérations de l’esprit la mesure et le nombre ». Elle comprend les tests mentaux, les échelles d’évaluation et, de développement plus récent, les listes de critères diagnostiques. Dans la situation de test un stimulus rigoureusement standardisé est présenté au sujet examiné ; sa réaction, c’est-à-dire sa réponse, est comparée à celle d’une population de référence, population générale ou population atteinte d’une pathologie définie. La comparaison permet un classement (quantitatif ou typologique) du sujet par rapport à la population de référence (P. Pichot).


Les principaux tests mentaux sont ceux qui apprécient les fonctions cognitives et les tests de personnalité : questionnaires (inventories ou self rating-scales) et tests projectifs. Les questionnaires d’autoévaluation sont très utilisés en psychiatrie, soit pour dépister un trouble, soit pour suivre une évolution sous traitement.


Certains questionnaires explorent la psychopathologie générale, d’autres une pathologie déterminée comme les questionnaires de dépression ou d’anxiété. De façon encore plus spécifique, certaines épreuves psychométriques explorent sous forme de questions posées aux sujets les phobies, les obsessions, l’impulsivité ou l’inhibition, la tendance aux addictions, les habitudes alimentaires, etc.


Les listes à cocher ou check-lists sont, selon les cas, remplies par les patients ou par des tiers. Lorsqu’elles le sont par les patients, elles sont assimilées aux questionnaires comme la Symptom Check-List de L.R. Derogatis et al. dont la forme à 90 items, révisée en 1977, reste très utilisée à ce jour et fait toujours l’objet de très nombreuses publications internationales (SCL-90). Lorsque les listes à cocher sont remplies par un tiers observateur, elles s’apparentent aux échelles d’appréciation. Il en est ainsi des « échelles-critères » qui ont connu un développement très important depuis 30 années.



9.2 Les échelles d’évaluation


J.-D. Guelfi


Les échelles d’évaluation de la symptomatologie psychiatrique ont connu un développement important depuis la fin des années 1950, initialement aux États-Unis. L’auteur des premières échelles appliquées à la psychiatrie publiées en 1955 est un psychologue américain : J.R. Wittenborn. L’objectif principal de la démarche était alors d’apprécier le changement symptomatique lors d’un traitement psychotrope. Les échelles ont permis par la suite d’innombrables recherches en psychopathologie. Certaines d’entre elles ont été aussi conçues pour avoir un intérêt d’ordre diagnostique [1, 35].


Il n’est pas justifié de distinguer — en les opposant — l’approche clinique et l’approche psychométrique. Les échelles d’évaluation ne représentent rien d’autre qu’un jugement clinique codifié, sollicité à propos d’un nombre plus ou moins important de variables cliniques : les items que l’instrument cherche à évaluer.


Une échelle de dépression, par exemple, est en règle générale constituée d’une série d’items dont l’intitulé représente les principaux symptômes cliniques d’un syndrome dépressif, soit ceux qui sont les plus fréquemment observés au cours des états dépressifs, soit ceux qui paraissent les plus spécifiques de dépression. Les items sont généralement gradués en plusieurs notes d’intensité croissante. Certaines échelles sont construites de manière à ce que la somme des notes soit un reflet de l’intensité globale du syndrome dépressif. D’autres outils psychométriques ont été développés dans le but de servir au dépistage des syndromes dépressifs, d’autres encore à l’évaluation de la sévérité générale du syndrome dépressif ou à celle du changement symptomatique sous traitement. Selon les objectifs poursuivis il peut être, en fonction des cas, important de ne retenir que des items suffisamment spécifiques de dépression ; ailleurs, parmi les symptômes de la dépression, ceux qui témoignent le mieux de la gravité d’ensemble du tableau clinique et qui s’avèrent suffisamment sensibles au changement.



Les différents types d’échelles


Les échelles diffèrent par leur objectif principal, leur contenu, leur mode de cotation ou le domaine de la pathologie qu’elles apprécient [1, 35].


Selon son contenu, une échelle peut permettre d’enregistrer la symptomatologie actuelle ; c’est le cas le plus fréquent. Mais certains instruments évaluent : l’état somatique, le comportement, les antécédents personnels ou familiaux, l’adaptation sociale, les conditions et la qualité de vie. Ils peuvent aussi, selon les cas, avoir été conçus pour être remplis par un médecin, un infirmier, un psychologue ou un travailleur social.


Selon le mode de cotation, on distingue les échelles dichotomiques, cotées par exemple en présent – absent et les échelles graduées selon l’intensité symptomatique. Les graduations les plus communément utilisées vont de 0 à 4 ou de 0 à 7, de « absent » à « extrêmement important ». Pour quantifier une fréquence ou une intensité on peut utiliser soit une gamme d’adjectifs : léger, moyen, important, soit un choix à effectuer entre diverses propositions définissant chaque degré.


Selon la nature de la pathologie explorée, on distingue les échelles d’appréciation globale, les inventaires généraux de la symptomatologie et les échelles dites spécifiques d’une pathologie déterminée : échelles d’anxiété, de dépression, de psychose, etc.


Selon le type de mesures qu’elles autorisent, on distingue aussi les échelles selon la nature des analyses statistiques pratiquées sur leurs résultats numériques. Lorsque des chiffres sont utilisés pour désigner des catégories on parle d’échelles nominales ; lorsqu’ils indiquent un classement, il s’agit d’échelles ordinales ; si l’intervalle entre deux chiffres de cotation est constant on parle d’échelles d’intervalles, on calcule généralement les fréquences des différentes catégories et l’on compare ces fréquences à l’aide du testdu χ 2 du χ2 ; on peut étudier les relations entre différentes échelles nominales grâce à des analyses statistiques multivariées.


Dans les échelles ordinales les variables cliniques peuvent être classées selon un degré d’intensité croissante, par exemple, l’humeur triste, de 0 (absence) à 4 : intensité maximale, l’humeur légèrement triste étant cotée 1, l’humeur moyennement triste cotée 2, l’humeur nettement triste cotée 3.


Les analyses statistiques adaptées à ces données sont des méthodes non paramétriques ne nécessitant pas de connaissance de la distribution des variables dans la population étudiée.


La grande majorité des échelles d’évaluation utilisées en psychiatrie sont de simples échelles ordinales, qui sont, pour la plupart, employées comme si elles étaient, aussi, des échelles d’intervalle. La vérification de cette dernière qualité est en réalité très rarement effectuée. Au classement par ordre de gravité croissante, l’échelle d’intervalle ajoute une propriété d’équidistance : la même différence d’intensité existe entre les degrés 1 et 2 qu’entre 2 et 3 ou 3 et 4. Lorsque c’est le cas, des statistiques paramétriques deviennent utilisables. Il est alors possible de déterminer, par exemple, à partir de quelle différence de note globale une différence de note devient cliniquement significative d’une amélioration ou d’une aggravation.



Les qualités métrologiques


Pour qu’un questionnaire ou une échelle d’évaluation soit utile en clinique, il est nécessaire qu’il ou elle revête un certain nombre de qualités de mesure, les qualités métrologiques [2]. Les principales de ces qualités sont la sensibilité, la fidélité, et la validité. Le terme de fiabilité désigne le plus souvent le fait qu’il existe une bonne adéquation entre l’instrument d’évaluation et les objectifs poursuivis lors de son emploi avec, notamment, une fidélité suffisante.




Fidélité


En matière de questionnaires, c’est surtout une bonne fidélité temporelle ou fidélité test-retest qui est recherchée (un test appliqué deux fois de suite à un sujet dont l’état ne s’est pas modifié entre les deux passations doit donner approximativement le même résultat). Avec les échelles d’évaluation, c’est surtout une bonne fidélité interjuges qui est recherchée et qui doit être vérifiée. Elle s’apprécie par un coefficient de concordance intercotateurs (coefficient kappa variant entre 0 et 1).


Une bonne fidélité intercotateurs s’obtient lorsque l’intitulé des items de l’échelle est précis, dénué d’ambiguïtés sémantiques et limité à des termes dont le sens est approximativement le même pour tous les utilisateurs.


On apprécie généralement la fidélité interjuges lors de séances d’entraînement en commun à la cotation, au cours desquelles différents évaluateurs cotent simultanément l’échelle utilisée chez une série de patients examinés.


Lorsque l’échelle est de bonne qualité, la répétition de l’exercice avec d’autres patients, l’explicitation des raisons à l’origine d’une certaine diversité initiale des appréciations permettent le plus souvent d’atteindre une homogénéité suffisante des jugements cliniques.


Le strict respect de consignes de cotation détaillées est aussi indispensable pour parvenir à une concordance interjuges suffisamment bonne. Pour certains outils d’évaluation, des consignes sont même fournies à propos des modalités mêmes de l’entretien qui permet la cotation. Plusieurs échelles ou listes de critères ne sont ainsi remplies par l’évaluateur qu’à l’issue d’entretiens « semi-structurés » voire entièrement structurés. C’est dans ces conditions que les meilleures performances sont obtenues en matière de fidélité interjuges, du moins pour les patients qui peuvent se plier sans trop de gêne à cette situation (caractère intrusif de certaines questions, risques de réticence voire de refus ou d’aggravation symptomatique). Les entretiens structurés sont le plus souvent utilisés lors d’investigations systématiques : des antécédents du sujet, dans les études épidémiologiques ou lors d’entretiens centrés sur la personnalité, comme dans l’International Personality Disorder Examination de A. Loranger et al. [6] ou le Structured Clinical Interview for Diagnosis selon le DSM-IV, ou encore le Structured Interview for DSM-IV Personality Disorders (SIDP-IV) de B. Pföhl et al [8].



Validité


C’est la qualité métrologique la plus complexe à étudier. Un instrument d’évaluation est dit valide lorsqu’il mesure effectivement ce qu’il est censé mesurer. Or, comme nous l’avons déjà évoqué, la validité du diagnostic même en psychiatrie reste aujourd’hui un problème largement irrésolu. On peut dire, à propos des échelles d’évaluation, qu’une certaine validité est assurée pour une variable donnée par sa formulation même. Il s’agit d’une validité apparente, de face, de type descriptif, subjective (face validity).


En général la validation d’une échelle se fait surtout, dans un premier temps, en se référant à un critère externe à l’instrument lui-même (criterium validity). Si l’on pense, par exemple que la note totale à une échelle de dépression est un bon reflet de l’intensité globale de la dépression, on doit vérifier qu’il existe une très bonne corrélation statistique entre les notes totales obtenues sur l’échelle et les jugements cliniques d’experts à qui l’on a demandé d’explorer la sévérité globale de l’état dépressif des patients examinés.


On peut aussi vérifier que les notes attribuées varient bien de façon suffisante et satisfaisante lors d’un traitement dont l’efficacité sur la pathologie explorée a au préalable été montrée.


On peut enfin confronter les résultats obtenus entre une nouvelle échelle et ceux fournis par un instrument plus ancien, aux vertus déjà éprouvées. Cette validité concourante (en anglais concurrent validity) est très employée. Elle ne suffit cependant pas à établir — à elle seule — que le nouvel instrument expérimental offre un avantage quelconque par rapport aux outils psychométriques plus anciens.


Aussi est-il nécessaire — lors d’une étude complète de validation — d’utiliser conjointement des méthodes dites structurales de validation, d’étudier la cohérence ou consistance interne de l’échelle, sa structure et sa stabilité. La consistance interne d’une échelle est le reflet de l’homogénéité des différents items qui la constituent. On apprécie communément celle-ci par l’étude des corrélations entre chaque item et la note totale (coefficient alpha de Cronbach).


La structure interne d’une échelle est généralement étudiée par des procédés mathématiques qui ressortent de l’analyse factorielle : le regroupement de plusieurs items en « facteurs » suffisamment indépendants les uns des autres est fonction des inter-corrélations trouvées entre les notes des différents items. Ces corrélations dégagent en quelque sorte les relations naturelles existant entre les variables et mettent en lumière les quelques dimensions fondamentales sous-jacentes à la symptomatologie. Certains outils n’explorent en réalité qu’une seule dimension, un facteur général unique expliquant la majeure partie des variations des notes.


Pour les outils multidimensionnels, la stabilité de la structure de l’échelle d’un échantillon de patients à l’autre, au sein d’un même pays et dans des pays différents, est un critère important de qualité. C’est cette stabilité de structure qui est incontestablement à l’origine du succès durable de l’échelle BPRS (Brief Psychiatric Rating Scale de J.E. Overall et D.R. Gorham [7]). Cette échelle développée aux États-Unis en 1962, puis traduite et validée en français par P. Pichot et al. en 1969 est une échelle globale simple de 18 items cotés de 0 à 7 [9] ; elle explore cinq facteurs principaux de la pathologie psychiatrique manifeste que sont les facteurs : délirant-hallucinatoire (on dit aujourd’hui facteur « positif » de schizophrénie), hébéphrénique (ou « négatif », déficitaire), dépressif (ou mélancolique), paranoïaque (ou hostilité-méfiance) et psychotique aigu.


La même stabilité factorielle a pu être trouvée dans l’échelle d’anxiété de M. Hamilton (Hamilton Anxiety Rating Scale) de 14 items publiée en 1959, permettant de calculer une note globale d’anxiété, une note d’anxiété psychique et une note d’anxiété somatique.


De très nombreuses échelles d’évaluation n’ont en revanche pas montré la même stabilité de leur structure factorielle dont l’échelle de dépression de M. Hamilton, ou l’échelle de dépression de Montgomery et Asberg (MADRS) très largement utilisée pour apprécier le changement chez les patients déprimés traités.


L’instabilité de la structure factorielle d’une échelle, d’un échantillon de patients à l’autre, lorsque la même technique d’analyse est employée, illustre les limites de l’application de l’échelle en question.




Les échelles-critères


Cet autre aspect de la psychopathologie quantitative a été introduit, d’abord en recherche clinique en raison des imperfections du diagnostic en psychiatrie, par les écoles américaines de St Louis avec J.P. Feighner et de New York avec R. Spitzer. Il répond à la nécessité d’améliorer la concordance entre les diagnostics des cliniciens et de rendre plus homogènes les groupes de malades étudiés. Le système dit des critères diagnostiques a été généralisé à l’ensemble des catégories diagnostiques et à la pratique clinique quotidienne aux États-Unis, à partir de 1980, année de la publication de la troisième édition du manuel diagnostique et statistique des troubles mentaux (DSM-III) ; le principe général en est le suivant : toute catégorie diagnostique doit être définie par une série de critères d’inclusion et d’exclusion précis, non ambigus et suffisamment spécifiques.


La construction des listes de critères repose sur l’hypothèse dite du scaling. Il existe de multiples équivalences symptomatiques et le diagnostic peut être conçu selon un modèle additif comme l’existence conjointe d’un nombre suffisant de manifestations cliniques, une note seuil permettant de délimiter l’appartenance à une catégorie donnée. Il en est ainsi de la formulation suivante : Au moins quatre sur les huit manifestations suivantes doivent être réunies pour que l’on considère le critère comme présent. Ce seuil correspond au nombre d’éléments qui permet la meilleure discrimination possible des patients quant à la présence ou à l’absence du diagnostic. Le meilleur seuil est celui qui conduit au plus petit nombre d’erreurs diagnostiques, soit par excès : les « faux positifs », soit par défaut : les « faux négatifs ».


La difficulté de la méthode tient au meilleur niveau de sélectivité des critères. Si l’on ne retient que des critères très sélectifs, les groupes de patients ainsi constitués seront peut-être suffisamment homogènes pour des recherches cliniques mais la grande majorité d’entre eux seront rejetés dans des catégories résiduelles.


Si, à l’inverse, les critères ne sont pas suffisamment sélectifs, la majorité des patients seront classés dans des catégories diagnostiques mais ces groupes resteront hétérogènes.


Dans certains travaux de recherche il est possible d’utiliser des listes complexes qui permettent une approche polydiagnostique comme les listes intégrées de critères d’évaluation taxinomique ou LICET développées par C.B. Pull [10] pour la dépression notamment permettant de formuler le diagnostic conjointement selon plusieurs systèmes nosographiques. Le système des LICET a pu aussi être utilisé avec profit dans de nombreuses recherches cliniques ayant inclus des patients psychotiques.



Applications


En pratique clinique, l’emploi des échelles peut avoir comme objectif premier le dépistage ou l’aide au diagnostic, mais, le plus souvent c’est l’observation de l’évolution sous traitement qui est principalement visée.


En recherche clinique, l’emploi des échelles sert surtout à constituer des groupes de patients suffisamment homogènes. Les échelles peuvent aussi être appliquées à l’étude de stéréotypes diagnostiques ou à l’établissement de types cliniques empiriques. Un stéréotype diagnostique est établi lorsqu’on demande à un groupe d’experts d’une pathologie déterminée de remplir un instrument d’évaluation non pas à partir des symptômes d’un patient donné mais en fonction de la représentation qu’ils ont d’un cas typique de la pathologie. La moyenne des jugements définit alors le stéréotype empirique de la pathologie. Le degré de ressemblance d’un patient donné avec la description prototypique d’une pathologie déterminée se développe actuellement dans plusieurs sections de la psychopathologie, notamment dans les troubles de la personnalité.


Les types syndromiques empiriques correspondent à l’identification — au sein d’un groupe hétérogène de patients — de certains profils psychopathologiques retrouvés avec une fréquence plus importante que ne le voudrait le hasard. Ces procédés sont à l’origine de diverses méthodes de diagnostics automatiques. On peut comparer le profil d’un patient donné à divers profils types établis préalablement et définir, avec la notion de distance et de proximité, le diagnostic le plus vraisemblable.


Une autre application intéressante concerne l’identification de groupes de patients qui se distinguent les uns des autres par leur réactivité thérapeutique ; on peut ainsi comparer les profils moyens des bons répondeurs et des mauvais répondeurs à un traitement donné. On peut tenter de prédire de la sorte quel type de traitement a les meilleures chances d’être efficace chez quel type de patients. On doit cependant garder à l’esprit qu’il ne faut pas confondre indices statistiques de prédiction établis au sein de groupes de patients et prédiction individuelle !





9.3 La mesure de la subjectivité1



Si la mesure de la subjectivité a été essentiellement initiée par les psychologues et les pédagogues au tout début du xxe siècle (notamment par le biais des mesures d’intelligence), la médecine est aujourd’hui le domaine où ce type de questionnement est le plus actif. En effet, l’épanouissement de la recherche médicale s’est réalisé de façon tellement évidente au contact des sciences « presque dures » (biophysique, biochimie, biologie, etc.), que l’on en est parfois venu à oublier l’objet même de la médecine : le sujet souffrant, pour qui douleur ou angoisse de mort sont bien souvent les premiers maux dont il souhaite se voir soulager. C’est à partir de cette constatation qu’un courant social, politique et médical s’est constitué à partir des années 1970–1980 pour rappeler que la médecine s’adresse tant au sujet pensant (souffrant, anxieux) qu’au sujet vivant (dont le corps est malade).


Pour répondre à cette dualité, notamment dans le cadre des recherches scientifiques, de nouveaux types de mesure ont dû voir le jour : autoévaluation du niveau de douleur ressentie, évaluation de la « qualité de la vie », échelles d’anxiété ou de dépression. Nombreux sont, cependant, ceux à s’interroger sur la légitimité de ce type d’évaluation : il s’agit en effet de mesures subjectives et non objectives, comme on en a l’habitude. Or, peut-on envisager de réaliser un travail scientifique portant sur l’évaluation de caractéristiques subjectives ?


Sans vouloir apporter de réponse définitive, nous allons essayer de poser ici les bases d’une réflexion autour de ce sujet. Nous commencerons par d’indispensables définitions, nous nous pencherons ensuite sur les différences et les similitudes pouvant exister entre mesures subjectives et mesures objectives, puis viendra le temps de la conclusion.



Définitions


S’interroger autour du thème de la mesure de la subjectivité implique de définir deux termes : subjectivité et mesure. Ces deux mots apparaissent au premier abord d’un niveau de compréhension différent. Cela se vérifie bien, à la réflexion, la surprise venant néanmoins du terme facile à définir et de celui au sens plus délicat…


Selon le dictionnaire Le Robert, le terme « subjectif » est défini comme : « ce qui concerne le sujet en tant qu’être conscient ». On oppose ainsi classiquement la subjectivité (relative au sujet pensant), à l’objectivité (relative à l’objet pensé). Tout est dit en ces quelques mots.


On constatera notamment que le subjectif n’est pas réductible à l’objectif. Certains pourraient, en effet, être tentés de résoudre la question des mesures subjectives en cherchant une mesure objective pouvant faire office de mesure de référence, cela n’est pourtant pas aussi simple. Prenons l’exemple de la somnolence. La somnolence est un authentique attribut subjectif et il existe des questionnaires (nous en verrons un plus loin) permettant d’interroger un sujet sur son niveau de somnolence. Il est, en outre, possible d’envisager une mesure objective de somnolence en ayant recours à la mesure d’une latence d’endormissement objectivée par un électroencéphalogramme (EEG). En fait, les deux mesures s’intéressent à des entités différentes : le questionnaire évalue le niveau de somnolence ressenti par le patient (mesure subjective), alors que la latence d’endormissement évalue la rapidité d’endormissement (mesure objective, on s’intéresse ici au cerveau et non au sujet « pensant »). On ne peut donc pas véritablement considérer qu’une de ces deux mesures puisse servir de référence (même si l’existence d’une corrélation forte entre les deux sera, bien sûr, très intéressante en pratique).


Curieusement, les difficultés sont bien plus grandes quand on s’interroge sur la définition d’une mesure, et cela n’est pas propre au domaine des mesures subjectives. Ainsi, les physiciens des particules reconnaissent souvent qu’il leur est impossible de définir véritablement ce qu’est une mesure, tout en précisant, cependant, que cela ne les empêche nullement d’en réaliser [1].


Il existe bien une définition courante comme, par exemple : « une mesure, c’est la quantification de l’attribut d’un objet (ou d’un sujet en ce qui nous concerne) ». Ainsi, dire d’un sac qu’il pèse 10 kg, c’est bien quantifier (attribuer un nombre) l’attribut (la masse) d’un objet (le sac). Cette définition est pourtant bien peu satisfaisante : à quoi correspond cette quantification ? (Tout est là). Quelle est la « réalité » de l’attribut d’un objet ou d’un sujet ? (Qu’est-ce qu’une masse ? Quelle est la réalité de la tristesse d’un sujet ? Masse et tristesse sont-elles plus que des mots ? Assurément, mais en quoi ? )


En fait, plusieurs tentatives de définition du concept de mesure ont pu être proposées, chacune ayant des implications épistémologiques différentes. Dans le domaine de la subjectivité, trois grandes approches sont souvent présentées [2, 5] :



l’approche classique, c’est-à-dire celle des physiciens. Dans ce cas, la mesure est un nombre, qui va pouvoir être manipulé au moyen de formules et ce, afin de construire des lois, permettant d’expliquer et de prédire les phénomènes que l’on observe (si l’on sait mesurer une longueur et une durée, il est possible d’élaborer une théorie de la gravitation, qui permettra de prédire la survenue d’éclipses, de fortes marées, etc.). Mais comment espérer raisonnablement écrire des équations incluant des paramètres comme la tristesse ? ;


l’approche opérationnelle dépasse, en abstraction, le point de vue classique. La mesure devient une simple opération, un processus qui conduit à un nombre (je me refuse à comprendre la nature du temps et de l’espace, j’utilise simplement les valeurs numériques que me donnent mes instruments — horloges, balances, etc. — dans le but d’élaborer des théories, purement formelles, dont l’unique intérêt est de me permettre de construire des ponts, d’aller dans la lune, etc.). Poussée à l’extrême, une telle approche aboutit à se priver de toute possibilité d’interprétation : si j’explore la tristesse d’un sujet au moyen d’instruments de mesure subjective, mes conclusions ne pourront pas, en principe, porter sur les sentiments ressentis par le sujet, mais seulement sur les valeurs numériques fournies par les instruments. Alors à quoi sert l’expérience ? … Car ce qui nous intéresse, c’est bel et bien ce que ressent le sujet et non les scores obtenus à des instruments dont on ne peut interpréter le sens intrinsèque. S’interdire le recours à toute interprétation peut, certes, parfois avoir un sens en physique. L’infiniment petit ou l’infiniment grand a bien peu de signification pour un être humain ; en physique des particules, l’interprétation naît ainsi directement du formalisme mathématique (ce sont les modèles mathématiques qui permettent au physicien de se représenter la réalité qu’il tente d’appréhender). C’est en revanche une attitude difficile à admettre dans des disciplines dont l’objet est la subjectivité ;


une troisième approche du concept de mesure est l’approche représentationnelle, pour laquelle [1] : « la mesure est la représentation numérique de faits empiriques ». La mesure est donc avant tout une commodité, un outil qui permet de mieux se représenter les faits que l’on étudie. Cette définition, séduisante par sa simplicité, a néanmoins l’inconvénient de recourir au terme de « représentation », dont le sens est pour le moins vague ; mais peut-être est-il difficile de faire autrement ?


S’il fallait retenir une définition du mot « mesure », c’est peut-être cette dernière que nous choisirions. Elle a, en effet, le grand mérite de nous rappeler qu’une mesure n’est pas une fin en soi, qu’elle a pour simple but de faciliter la compréhension de phénomènes trop complexes pour être appréhendés directement. Dans le domaine des mesures subjectives en particulier, la mesure a ainsi pour ultime ambition de s’effacer afin de permettre la révélation du concept qu’elle représente.



Mesures subjectives et mesures objectives : les différences


Au premier abord, les différences entre ces deux types de mesure conduisent à la même conclusion pessimiste : une mesure subjective, contrairement à une mesure objective, ne peut raisonnablement pas accéder à un statut scientifique. Curieusement, cependant, dès que l’on examine les arguments pouvant nous venir à l’esprit en faveur de cette impression, le point de vue n’apparaît plus aussi tranché :


1er argument : « un attribut subjectif ne correspond à rien de concret, tout juste à un mot, qui plus est au sens généralement imprécis ». Il serait donc illusoire d’espérer en obtenir une mesure scientifiquement acceptable. Prenons l’exemple de la tristesse. Il est vrai que, curieusement, il est difficile d’en obtenir une définition2, mais est-ce pour cela que le sens de ce mot est imprécis ? Bien au contraire. La tristesse est un sentiment élémentaire que tout être humain a déjà éprouvé. Il suffit, en fait, que je dise : « je suis triste… » pour que n’importe quelle personne sache exactement ce que je ressens. Pour le moins, on ne peut voir ici aucune imprécision.


2e argument : « par définition, un élément subjectif est relatif à ce que ressent un individu, or il est impossible d’avoir la moindre preuve qu’une personne ressent bel et bien ce qu’elle dit ressentir » (si tant est que « ressentir bel et bien quelque chose » ait un sens). Il serait donc de nouveau impossible d’espérer obtenir une mesure scientifiquement acceptable de l’élément subjectif en question. Trois objections peuvent néanmoins être formulées à l’encontre de cet argument :



la première est classique mais peu satisfaisante : on pourrait ne travailler que sur ce que dit l’individu et non pas sur ce qu’il est censé ressentir. Nous retrouvons ici une attitude proche de celle préconisée par les tenants de la théorie opérationnelle de la mesure, théorie que nous avons écartée plus haut : cela ne sert à rien de demander à quelqu’un s’il est triste, si c’est pour discuter du seul contenu de son discours et s’interdire de faire la moindre interprétation des sentiments qu’il dit éprouver ;


la seconde objection à opposer au manque de crédibilité d’un sujet dont on étudie certains paramètres subjectifs est pratique. Pour des questions sans véritable enjeu, si la réponse est recueillie dans un environnement de confiance, il est peu probable que le sujet exprime quelque chose de véritablement différent de ce qu’il éprouve ;


la troisième objection consiste en un artifice méthodologique, celui de l’hétéroévaluation (terme signifiant que la mesure sera effectuée à partir de l’observation d’un tiers et non à partir de l’évaluation du sujet par lui-même). Le principe d’une mesure subjective obtenue par hétéroévaluation repose sur une aptitude humaine largement partagée : l’empathie. Quand deux personnes discutent suffisamment longtemps, en toute confiance, dans un environnement calme et sécurisant, elles parviennent chacune, plus ou moins consciemment, à ressentir intérieurement, a minima, ce que l’autre ressent. Pour évaluer une caractéristique subjective de l’une, il peut suffire, alors, d’interroger l’autre ; si cette dernière fait en outre partie des expérimentateurs, on peut alors espérer que ce qu’elle rapporte est un fidèle reflet de ce qu’elle perçoit. Le biais du manque de crédibilité du sujet exploré est ainsi, en théorie, en grande partie éliminé. On pourra remarquer qu’un tel type de mesure, s’il peut paraître surprenant (le sujet exploré étant, a priori, le plus apte à rapporter ce qu’il ressent), est parfois particulièrement adapté aux mesures effectuées en médecine : en psychiatrie c’est souvent une évidence (un patient mélancolique et délirant aura bien du mal à se représenter et à rapporter avec justesse la qualité de ses émotions) ; plus généralement, le fait même d’être malade est susceptible de biaiser l’appréciation que le sujet porte sur certains de ses états propres subjectifs. À titre d’anecdote, on remarquera que le principe d’une mesure obtenue seulement de façon indirecte — comme c’est le cas dans une hétéroévaluation — se retrouve souvent dans le cadre des mesures physiques. Il en est, ainsi, notamment du fonctionnement du thermomètre à mercure : par contact, l’objet à mesurer et le mercure arrivent à la même température, c’est finalement la température du mercure qui sera mesurée en évaluant l’importance de sa dilatation. Enfin, une mesure effectuée par hétéroévaluation bénéficie d’une propriété scientifique fondamentale : la possibilité d’en estimer la variabilité et donc de disposer d’un ordre de grandeur de l’erreur de mesure. En pratique, cette variabilité est estimée au moyen d’un protocole où plusieurs expérimentateurs évaluent le même sujet. Il est très difficile — voire impossible — d’obtenir une telle estimation de l’erreur de mesure dans le cadre d’une autoévaluation.


3e argument susceptible d’opposer les mesures subjectives aux mesures objectives : « quelle qu’en soit la cause, les mesures subjectives ne disposeront jamais d’un niveau de précision comparable à celui de la physique, par exemple ; l’écart est tel qu’aucune discipline de la subjectivité ne pourra espérer atteindre un stade véritablement scientifique ».


Il est vrai que le niveau actuel de précision des mesures subjectives (en santé tout particulièrement), quand on peut le déterminer, est souvent médiocre ou mauvais. Mais cela est-il rédhibitoire quant à la scientificité des disciplines de la subjectivité ? Rien n’est moins sûr, et ce d’autant plus que l’on observe une évolution parallèle des paradigmes3 de mesure dans les disciplines de la subjectivité et dans les sciences les plus « objectives », la physique notamment.



Mesures subjectives et mesures objectives : les convergences


Dans ce qui suit, nous allons voir comment les méthodes de mesure objectives ou subjectives traduisent au départ une simple impression, on peut alors parler de mesure « impression ». Ces méthodes évoluent ensuite en recourant à un étalonnage, on peut parler ici de mesure « étalon ». Finalement, la méthode de mesure s’intègre dans un système théorique où l’on ne peut plus différencier les processus de mesure des concepts à mesurer ; d’où, cette fois, le terme de mesure « théorie ».


Imaginons l’expérience suivante : on vous présente un sac rempli d’objets divers. Vous le soupesez et devez vous prononcer sur sa lourdeur. Si l’on vous interdit de vous référer même indirectement à une unité de poids, comme le kilogramme, vous allez devoir vous contenter d’expressions du type : « c’est très lourd », « peu lourd », etc. En fin de compte, cela ne vous éloignera pas beaucoup de certains instruments de mesure subjective couramment utilisés dans le domaine de la santé ; c’est le cas, par exemple, d’une échelle d’impression clinique globale comme la CGI (Clinical Global Impression [3]). Dans le cas de la dépression, cette échelle prend la forme présentée dans l’encadré 9.1.



Revenons à notre expérience imaginaire de pesée. Pour se prononcer sur la lourdeur du sac, on peut, dans le but de préciser notre impression, indiquer qu’il est lourd « comme deux ou trois gros dictionnaires ». Cependant, on introduit alors implicitement l’ébauche d’un système d’étalonnage, ce qui constitue un saut qualitatif indéniable dans la conceptualisation de la notion de mesure : cette dernière n’est plus la simple appréciation d’une impression du type « c’est très lourd », « peu lourd », etc., mais une comparaison avec la lourdeur d’objets de référence. Si l’on conçoit le stade de l’étalonnage4 comme un nouveau paradigme de mesure, on remarquera que les mesures subjectives ne manquent pas d’y recourir. À titre d’exemple, on peut citer un questionnaire de mesure de la somnolence : le Stanford Sleepiness Scale (ou questionnaire SSS [4, 6]), se présentant comme indiqué dans l’encadré 9.2.



Chacune des modalités de réponse de cet instrument peut être considérée comme la référence d’un certain niveau de somnolence, cela correspond bien au principe d’un d’étalonnage. Ce dernier, il est vrai, est assez limité. Un expérimentateur désireux de l’améliorer pourrait multiplier le nombre de références, on comprend néanmoins que cela risque d’être rapidement difficile. Qui plus est, un certain niveau d’indécision apparaît généralement si l’on augmente le nombre de modalités de réponse : il devient en effet difficile de déterminer avec certitude le niveau qui correspond le mieux à notre sentiment intérieur quand les échelons sont trop peu différents.


Dans un même ordre d’idée, on remarquera que les physiciens ont rencontré des difficultés avec le paradigme d’étalonnage (pour des niveaux de précision radicalement différents, bien entendu) : le mètre, défini en 1799 au moyen d’un prototype unique déposé au pavillon de Breteuil, a, au fil des ans, posé des problèmes de reproductibilité rendant difficiles certaines expériences de physique de haute précision. Une nouvelle définition a été adoptée en 1983, le mètre devient alors « la longueur du trajet parcouru dans le vide par la lumière pendant une durée de 1/299792458 de seconde ». Cette nouvelle définition marque une rupture épistémologique majeure en métrologie : l’étalon n’est plus un simple niveau de référence auquel on peut comparer l’objet que l’on souhaite mesurer, mais fait partie intégrante d’une théorie au sens fort du terme. En effet, cette définition du mètre implique que la vitesse de la lumière dans le vide est une constante, ce qui est un postulat tellement peu anodin qu’il est en totale contradiction avec le sens commun. La vitesse d’un objet n’a, en effet, de sens que par rapport à un observateur donné : une voiture roule à 100 km/h par rapport à un observateur immobile sur la route, alors que la vitesse de cette même voiture est nulle par rapport à l’un de ses passagers. Il est donc nécessaire de montrer que la vitesse de la lumière est une constante ; mais cela ne peut se faire que très indirectement, par exemple en observant, dans des conditions expérimentales précises, les franges d’interférence d’une lumière monochromatique (expérience de Michelson). Or l’interprétation d’une telle expérience n’est possible qu’en acceptant le fait que la lumière présente, au moins pour certains de ses aspects, un caractère ondulatoire ; ce qui, de nouveau, doit être prouvé, etc. Qui plus est, ces expériences nécessitent toutes la mesure de distances, ce qui implique en particulier de disposer d’une définition du mètre !


En fin de compte, actuellement, la validité de la méthode de référence utilisée pour mesurer une longueur, voire le concept de longueur lui-même, est totalement dépendante de la validité de la théorie physique contemporaine dans son ensemble. Nous sommes donc en présence d’un nouveau type de paradigme de mesure, fondé sur une théorie de la grandeur que l’on souhaite mesurer. De nombreux instruments de mesures subjectives relèvent d’un tel paradigme, c’est notamment le cas des instruments à plusieurs items, dépendant étroitement d’une théorie définitoire (celle qui a présidé au choix des items constituant l’instrument).



Conclusion


Quand on s’interroge sur la notion de mesure subjective, il est surprenant de constater que le terme « subjectif » est d’un sens à la fois immédiat et non ambigu alors que le concept de mesure, pourtant utilisé quotidiennement par tout scientifique, est d’une complexité totalement déroutante…


À l’encontre, peut-être, de certaines idées reçues, nous avons en outre constaté qu’il était illusoire d’imaginer régler la question des mesures subjectives en espérant les voir substituées, un jour, par des mesures objectives. Si l’on s’intéresse au patient en tant que sujet pensant (est-il triste, anxieux, fatigué, douloureux, etc.), alors la mesure sera subjective, par définition. Les mesures objectives ont un rôle essentiel en clinique (poids, pression artérielle, glycémie, virémie, etc.), car elles peuvent apporter une information diagnostique ou pronostique souvent inégalable. Elles ne peuvent cependant prétendre décrire un patient dans son intimité psychique. Or c’est bien en tant que sujet pensant que le patient est ce partenaire incontournable dans le choix thérapeutique, ou l’arbitre définitif du succès d’une prise en charge.


À l’encontre de certaines idées reçues, toujours, nous avons aussi constaté qu’il était bien difficile de trouver une différence de nature fondamentale entre les mesures subjectives et les mesures objectives. Elles évoluent d’ailleurs toutes sur un plan historique, suivant des paradigmes identiques.


Bien sûr nous n’avons rien dit sur la méthodologie de validation de telles mesures, peut-être bien différente, elle, de la méthodologie de validation d’une mesure objective. Mais il s’agit là d’un tout autre chapitre…




9.4 La psychométrie des fonctions cognitives



La psychométrie des fonctions cognitives comprend d’une part les tests mentaux d’aptitude et d’intelligence qui visent une évaluation des potentialités intellectuelles, d’autre part l’examen des différentes fonctions cognitives dans un but de dépistage d’une symptomatologie démentielle.




Concepts – intérêts et limite de l’évaluation de l’intelligence


La construction d’un test repose sur un modèle théorique et son application permet d’en situer les limites. L’évolution des tests d’intelligence témoigne d’une évolution parallèle, grâce à des remises en question successives des théories de l’intelligence.


Souvent synonyme du mot intelligence, le terme de QI recouvre deux entités distinctes. Chez l’enfant, le QI (W. Stern, 1912) représente un quotient de deux termes avec au numérateur l’âge mental, c’est-à-dire le niveau de maturation ou d’acquisition apprécié par le test, et au dénominateur, l’âge réel de l’enfant. Il représente la vitesse moyenne à laquelle le sujet est parvenu au niveau enregistré au moment du test. Le développement intellectuel connaît un plafond car il existe un âge, variable selon les tests, au-delà duquel les résultats moyens ne s’accroissent plus. C’est pourquoi l’emploi du terme de QI au sens de Stern perd toute signification chez l’adulte. D. Wechsler en 1925 a établi une autre définition : le QI repère la position relative d’un sujet par rapport aux sujets du même âge. Il s’agit donc de classer un individu par rapport à un groupe de référence, avec la convention que dans le groupe d’étalonnage (constitué par un échantillon représentatif), la moyenne statistique est égale à 100 et l’écart type à 15.


La notion d’intelligence est source de confusion parce qu’elle désigne souvent à la fois un vaste ensemble de cognitions et l’efficacité avec laquelle elles sont mises en œuvre. Il n’existe pas de consensus sur une définition de l’intelligence et sur les situations qui en relèvent. Elle est le plus couramment définie comme la capacité d’un individu à modifier son comportement de manière à l’adapter aux contraintes environnementales. Cela implique donc d’une part une flexibilité des processus cognitifs sur laquelle il y a en général accord. Cette capacité adaptative doit avoir d’autre part un degré assez élevé de généralité et se manifester dans des situations différentes. C’est sur cette notion de généralité que le consensus est loin d’être établi et que deux courants se dégagent. Selon le premier, le plus ancien, il existe une intelligence unique, générale, présente dans les différents domaines de la cognition. Le second postule qu’il existe au contraire différentes formes d’intelligence, indépendantes les unes des autres.


L’examen psychométrique de l’intelligence doit répondre à un certain nombre de conditions qui garantissent la qualité de l’évaluation. Dans le temps préparatoire consacré à la sélection des tests utilisés, la connaissance des théories sous-jacentes et la vérification des qualités métrologiques des épreuves envisagées sont des préalables indispensables. Le motif précis de l’examen, l’entretien avec le sujet et l’intégration des diverses données cliniques (anamnèse, facteurs de personnalité et leur rôle dans l’exploitation des potentialités intellectuelles, état thymique, anxiété, déficit attentionnel, observations qualitatives en cours d’examen, etc.) permettent l’élaboration des hypothèses. Le travail d’interprétation des résultats sera d’autant plus précis et fiable qu’il englobera un grand nombre de données. Le chiffre du QI doit être considéré comme un point de repère qui donne des indications sur l’efficience du sujet et non sur les processus cognitifs mis en jeu.



Les différentes catégories de tests d’intelligence



La psychométrie classique


La Wechsler Adult Intelligence Scale (WAIS) fait partie des instruments actuellement les plus utilisés. Son auteur, D. Wechsler, conçoit l’intelligence comme une entité globale reflétant l’adaptation et se manifestant plus par la manière dont les différentes capacités sont orchestrées que par la performance dans un domaine particulier. Son échelle est composée de situations variées (11 subtests) représentatives d’un échantillon des capacités d’un individu ; elle doit permettre d’évaluer l’intelligence de tous les individus. L’utilisation du langage pouvant constituer pour certains un handicap, il existe, à côté d’une échelle verbale, une échelle de performance où la capacité est évaluée uniquement par la manipulation d’un matériel concret. Avec l’âge, l’efficience tend à diminuer inégalement dans les différents subtests ; c’est pourquoi les QI calculés sont un indicateur de la position qu’occupe le sujet dans la distribution des scores de son groupe d’âge et non de l’ensemble de la population adulte.


Conçue en 1939, la WAIS a connu plusieurs révisions. La WAIS III (1997) a été adaptée et étalonnée sur la population française de 16 à 89 ans [20]. Outre différentes modalités de fonctionnement intellectuel (pensée conceptuelle, stock verbal, acquis culturels, raisonnement logique et abstrait), elle permet d’apprécier des domaines plus spécifiques, tenant compte des apports de la psychologie cognitive : mémoire de travail, organisation perceptive, vitesse de traitement de l’information, compréhension verbale. La WAIS est traditionnellement utilisée dans l’évaluation d’un retard mental et la détection des sujets intellectuellement précoces ; elle peut également contribuer au diagnostic différentiel entre trouble neurologique et psychiatrique. La dernière révision de la WAIS date de 2008.



Approche factorielle de l’intelligence


La conception unitaire de l’intelligence selon laquelle l’ensemble des conduites intellectuelles est sous-tendu par un facteur commun remonte à C. Spearman en 1904 [19]. L’analyse factorielle montre que les différents tests d’intelligence ont entre eux des corrélations positives. Pour expliquer celles-ci, on peut faire appel à trois ordres de facteurs : un facteur général (facteur g), commun à tous les tests, des facteurs de groupe (par exemple facteur verbal, facteur spatial), chaque facteur étant commun à un certain nombre de tests, et des facteurs spécifiques, chacun étant particulier à un test. Le but des tests d’intelligence est d’appréhender le facteur g puisqu’il intervient dans toutes les opérations mentales.


Ce schéma factoriel ne s’est pas révélé entièrement exact et d’autres modèles ont été proposés. Les travaux de L.L. Thurstone (1938) ont notamment remis en cause la conception unitaire en utilisant une autre méthode d’analyse factorielle et en l’appliquant à des ensembles de tests plus larges. Plusieurs facteurs indépendants les uns des autres correspondent à autant de formes d’intelligence. Aujourd’hui, les progrès de l’analyse factorielle ont permis de tester l’adéquation des différents modèles et ainsi de comprendre un certain nombre de contradictions. Le débat entre caractère général ou multiple de l’intelligence s’est résolu par l’intégration des deux conceptions dans un modèle dit « hiérarchique ». Le modèle hiérarchique à trois strates de J.B. Carroll (méta-analyse intégrant plus de 460 analyses factorielles, l’ensemble portant sur près de 130 000 personnes) est celui qui réunit actuellement le plus large consensus [4]. Toutes les structures factorielles trouvées sont compatibles avec un modèle hiérarchique à trois niveaux ;



La présence de ces multiples facteurs rend compte du fait qu’il est possible d’être performant dans l’une des formes d’intelligence sans l’être automatiquement dans les autres. Il existe cependant une tendance statistique à ce que les sujets les plus performants dans l’une de ces formes le soient également dans les autres, ce dont rend compte le facteur général. Les tests mettant en jeu l’intelligence fluide sont généralement non verbaux, font appel à la perception visuelle et mettent en jeu le raisonnement logique et abstrait (Progressive Matrices de J. Raven, D 48 de Anstey et sa dernière version le D2000). L’intelligence cristallisée qui fait référence aux capacités acquises peut être évaluée par des tests de compréhension verbale (proverbes) ou de connaissances lexicales comme les tests de vocabulaire (Binois et Pichot, subtest de vocabulaire de la WAIS).


D’autres théories remettent en cause l’existence du facteur g et distinguent des formes multiples d’intelligence. La théorie la plus diffusée actuellement est celle de H. Gardner [9] qui différencie au moins neuf formes d’intelligence, indépendantes les unes des autres et qui doivent être évaluées non par des tests mais par l’observation des sujets en milieu naturel.


Les idées sur l’intelligence ont beaucoup évolué dans les cinquante dernières années ; l’élargissement du concept intègre désormais différents aspects de l’adaptation cognitive, comme la connaissance de soi et des autres ou l’intelligence émotionnelle, non prises en compte dans les tests classiques. Cette évolution devrait avoir des répercussions sur les pratiques selon que l’on cible une intelligence considérée comme unitaire, générale, mesurée par le QI ou bien des formes d’intelligence différentes, relativement indépendantes dont chacune requiert une forme d’évaluation particulière. En France, si quelques progrès ont été réalisés dans l’évaluation de l’intelligence de l’enfant, il n’y a pas eu de véritable renouvellement des méthodes d’évaluation chez l’adulte. Les tests les plus utilisés ont certes été révisés, adaptés en fonction de l’évolution sociale et réétalonnés, mais ils sont de conception très ancienne.



De l’évaluation des performances au diagnostic cognitif et à l’évaluation dynamique


L’observation du sujet réalisant les différentes tâches proposées dans une échelle composite comme la WAIS incite le clinicien à s’interroger sur la façon dont ces performances sont obtenues, sur la qualité et l’efficacité du fonctionnement cognitif. De nombreuses études ont montré qu’une même performance peut être obtenue avec des stratégies différentes d’un individu à l’autre, stratégies elles-mêmes sous-tendues par des processus cognitifs différents. Dans la performance obtenue à un test, interviennent la manière dont l’information est prise en compte, l’utilisation des connaissances, les compétences, les préférences dans le traitement de l’information et les stratégies élaborées pour faire face aux exigences de la situation. On en arrive ainsi à la notion de « diagnostic cognitif » qui privilégie l’étude des processus sous-jacents à la performance.


Les recherches réalisées à l’intersection de la psychologie cognitive et de la psychologie différentielle paraissent être actuellement les plus prometteuses dans la mesure où elles précisent à la fois les connaissances sollicitées par le test et les stratégies mobilisées par le sujet. Parmi les travaux récents, on remarque plus particulièrement l’évaluation dynamique qui se propose de modéliser la dynamique du traitement de l’information. L’élaboration de ce modèle se propose d’identifier les processus sous-jacents à la performance en s’appuyant sur l’observation en temps réel du sujet en train de résoudre une tâche complexe. Ces nouvelles approches devraient contribuer à faire évoluer les tests existants.

Stay updated, free articles. Join our Telegram channel

May 13, 2017 | Posted by in MÉDECINE INTERNE | Comments Off on 9: L’examen psychométrique

Full access? Get Clinical Tree

Get Clinical Tree app for offline access