Chapitre 9 L’examen psychométrique
L’application d’une méthode quantitative aux sciences de l’homme a vu le jour à la fin du XIXe siècle. La psychométrie a été définie, en 1879, par F. Galton comme « l’art d’imposer aux opérations de l’esprit la mesure et le nombre ». Elle comprend les tests mentaux, les échelles d’évaluation et, de développement plus récent, les listes de critères diagnostiques. Dans la situation de test un stimulus rigoureusement standardisé est présenté au sujet examiné ; sa réaction, c’est-à-dire sa réponse, est comparée à celle d’une population de référence, population générale ou population atteinte d’une pathologie définie. La comparaison permet un classement (quantitatif ou typologique) du sujet par rapport à la population de référence (P. Pichot).
Les principaux tests mentaux sont ceux qui apprécient les fonctions cognitives et les tests de personnalité : questionnaires (inventories ou self rating-scales) et tests projectifs. Les questionnaires d’autoévaluation sont très utilisés en psychiatrie, soit pour dépister un trouble, soit pour suivre une évolution sous traitement.
Les listes à cocher ou check-lists sont, selon les cas, remplies par les patients ou par des tiers. Lorsqu’elles le sont par les patients, elles sont assimilées aux questionnaires comme la Symptom Check-List de L.R. Derogatis et al. dont la forme à 90 items, révisée en 1977, reste très utilisée à ce jour et fait toujours l’objet de très nombreuses publications internationales (SCL-90). Lorsque les listes à cocher sont remplies par un tiers observateur, elles s’apparentent aux échelles d’appréciation. Il en est ainsi des « échelles-critères » qui ont connu un développement très important depuis 30 années.
9.2 Les échelles d’évaluation
Les échelles d’évaluation de la symptomatologie psychiatrique ont connu un développement important depuis la fin des années 1950, initialement aux États-Unis. L’auteur des premières échelles appliquées à la psychiatrie publiées en 1955 est un psychologue américain : J.R. Wittenborn. L’objectif principal de la démarche était alors d’apprécier le changement symptomatique lors d’un traitement psychotrope. Les échelles ont permis par la suite d’innombrables recherches en psychopathologie. Certaines d’entre elles ont été aussi conçues pour avoir un intérêt d’ordre diagnostique [1, 3–5].
Les différents types d’échelles
Les échelles diffèrent par leur objectif principal, leur contenu, leur mode de cotation ou le domaine de la pathologie qu’elles apprécient [1, 3–5].
Selon le type de mesures qu’elles autorisent, on distingue aussi les échelles selon la nature des analyses statistiques pratiquées sur leurs résultats numériques. Lorsque des chiffres sont utilisés pour désigner des catégories on parle d’échelles nominales ; lorsqu’ils indiquent un classement, il s’agit d’échelles ordinales ; si l’intervalle entre deux chiffres de cotation est constant on parle d’échelles d’intervalles, on calcule généralement les fréquences des différentes catégories et l’on compare ces fréquences à l’aide du testdu χ 2 du χ2 ; on peut étudier les relations entre différentes échelles nominales grâce à des analyses statistiques multivariées.
Les qualités métrologiques
Pour qu’un questionnaire ou une échelle d’évaluation soit utile en clinique, il est nécessaire qu’il ou elle revête un certain nombre de qualités de mesure, les qualités métrologiques [2]. Les principales de ces qualités sont la sensibilité, la fidélité, et la validité. Le terme de fiabilité désigne le plus souvent le fait qu’il existe une bonne adéquation entre l’instrument d’évaluation et les objectifs poursuivis lors de son emploi avec, notamment, une fidélité suffisante.
Sensibilité
Elle désigne la finesse discriminative. Une échelle est dite sensible si elle permet de différencier un nombre suffisant de degrés distincts d’une même variable, chacun ayant une signification clinique particulière. La sensibilité est partiellement liée aux nombres d’items, les échelles longues étant plus sensibles que les échelles courtes.
Fidélité
En matière de questionnaires, c’est surtout une bonne fidélité temporelle ou fidélité test-retest qui est recherchée (un test appliqué deux fois de suite à un sujet dont l’état ne s’est pas modifié entre les deux passations doit donner approximativement le même résultat). Avec les échelles d’évaluation, c’est surtout une bonne fidélité interjuges qui est recherchée et qui doit être vérifiée. Elle s’apprécie par un coefficient de concordance intercotateurs (coefficient kappa variant entre 0 et 1).
Le strict respect de consignes de cotation détaillées est aussi indispensable pour parvenir à une concordance interjuges suffisamment bonne. Pour certains outils d’évaluation, des consignes sont même fournies à propos des modalités mêmes de l’entretien qui permet la cotation. Plusieurs échelles ou listes de critères ne sont ainsi remplies par l’évaluateur qu’à l’issue d’entretiens « semi-structurés » voire entièrement structurés. C’est dans ces conditions que les meilleures performances sont obtenues en matière de fidélité interjuges, du moins pour les patients qui peuvent se plier sans trop de gêne à cette situation (caractère intrusif de certaines questions, risques de réticence voire de refus ou d’aggravation symptomatique). Les entretiens structurés sont le plus souvent utilisés lors d’investigations systématiques : des antécédents du sujet, dans les études épidémiologiques ou lors d’entretiens centrés sur la personnalité, comme dans l’International Personality Disorder Examination de A. Loranger et al. [6] ou le Structured Clinical Interview for Diagnosis selon le DSM-IV, ou encore le Structured Interview for DSM-IV Personality Disorders (SIDP-IV) de B. Pföhl et al [8].
Validité
C’est la qualité métrologique la plus complexe à étudier. Un instrument d’évaluation est dit valide lorsqu’il mesure effectivement ce qu’il est censé mesurer. Or, comme nous l’avons déjà évoqué, la validité du diagnostic même en psychiatrie reste aujourd’hui un problème largement irrésolu. On peut dire, à propos des échelles d’évaluation, qu’une certaine validité est assurée pour une variable donnée par sa formulation même. Il s’agit d’une validité apparente, de face, de type descriptif, subjective (face validity).
On peut enfin confronter les résultats obtenus entre une nouvelle échelle et ceux fournis par un instrument plus ancien, aux vertus déjà éprouvées. Cette validité concourante (en anglais concurrent validity) est très employée. Elle ne suffit cependant pas à établir — à elle seule — que le nouvel instrument expérimental offre un avantage quelconque par rapport aux outils psychométriques plus anciens.
Aussi est-il nécessaire — lors d’une étude complète de validation — d’utiliser conjointement des méthodes dites structurales de validation, d’étudier la cohérence ou consistance interne de l’échelle, sa structure et sa stabilité. La consistance interne d’une échelle est le reflet de l’homogénéité des différents items qui la constituent. On apprécie communément celle-ci par l’étude des corrélations entre chaque item et la note totale (coefficient alpha de Cronbach).
La structure interne d’une échelle est généralement étudiée par des procédés mathématiques qui ressortent de l’analyse factorielle : le regroupement de plusieurs items en « facteurs » suffisamment indépendants les uns des autres est fonction des inter-corrélations trouvées entre les notes des différents items. Ces corrélations dégagent en quelque sorte les relations naturelles existant entre les variables et mettent en lumière les quelques dimensions fondamentales sous-jacentes à la symptomatologie. Certains outils n’explorent en réalité qu’une seule dimension, un facteur général unique expliquant la majeure partie des variations des notes.
Pour les outils multidimensionnels, la stabilité de la structure de l’échelle d’un échantillon de patients à l’autre, au sein d’un même pays et dans des pays différents, est un critère important de qualité. C’est cette stabilité de structure qui est incontestablement à l’origine du succès durable de l’échelle BPRS (Brief Psychiatric Rating Scale de J.E. Overall et D.R. Gorham [7]). Cette échelle développée aux États-Unis en 1962, puis traduite et validée en français par P. Pichot et al. en 1969 est une échelle globale simple de 18 items cotés de 0 à 7 [9] ; elle explore cinq facteurs principaux de la pathologie psychiatrique manifeste que sont les facteurs : délirant-hallucinatoire (on dit aujourd’hui facteur « positif » de schizophrénie), hébéphrénique (ou « négatif », déficitaire), dépressif (ou mélancolique), paranoïaque (ou hostilité-méfiance) et psychotique aigu.
La même stabilité factorielle a pu être trouvée dans l’échelle d’anxiété de M. Hamilton (Hamilton Anxiety Rating Scale) de 14 items publiée en 1959, permettant de calculer une note globale d’anxiété, une note d’anxiété psychique et une note d’anxiété somatique.
De très nombreuses échelles d’évaluation n’ont en revanche pas montré la même stabilité de leur structure factorielle dont l’échelle de dépression de M. Hamilton, ou l’échelle de dépression de Montgomery et Asberg (MADRS) très largement utilisée pour apprécier le changement chez les patients déprimés traités.
Les échelles-critères
Cet autre aspect de la psychopathologie quantitative a été introduit, d’abord en recherche clinique en raison des imperfections du diagnostic en psychiatrie, par les écoles américaines de St Louis avec J.P. Feighner et de New York avec R. Spitzer. Il répond à la nécessité d’améliorer la concordance entre les diagnostics des cliniciens et de rendre plus homogènes les groupes de malades étudiés. Le système dit des critères diagnostiques a été généralisé à l’ensemble des catégories diagnostiques et à la pratique clinique quotidienne aux États-Unis, à partir de 1980, année de la publication de la troisième édition du manuel diagnostique et statistique des troubles mentaux (DSM-III) ; le principe général en est le suivant : toute catégorie diagnostique doit être définie par une série de critères d’inclusion et d’exclusion précis, non ambigus et suffisamment spécifiques.
La construction des listes de critères repose sur l’hypothèse dite du scaling. Il existe de multiples équivalences symptomatiques et le diagnostic peut être conçu selon un modèle additif comme l’existence conjointe d’un nombre suffisant de manifestations cliniques, une note seuil permettant de délimiter l’appartenance à une catégorie donnée. Il en est ainsi de la formulation suivante : Au moins quatre sur les huit manifestations suivantes doivent être réunies pour que l’on considère le critère comme présent. Ce seuil correspond au nombre d’éléments qui permet la meilleure discrimination possible des patients quant à la présence ou à l’absence du diagnostic. Le meilleur seuil est celui qui conduit au plus petit nombre d’erreurs diagnostiques, soit par excès : les « faux positifs », soit par défaut : les « faux négatifs ».
Dans certains travaux de recherche il est possible d’utiliser des listes complexes qui permettent une approche polydiagnostique comme les listes intégrées de critères d’évaluation taxinomique ou LICET développées par C.B. Pull [10] pour la dépression notamment permettant de formuler le diagnostic conjointement selon plusieurs systèmes nosographiques. Le système des LICET a pu aussi être utilisé avec profit dans de nombreuses recherches cliniques ayant inclus des patients psychotiques.
Applications
En recherche clinique, l’emploi des échelles sert surtout à constituer des groupes de patients suffisamment homogènes. Les échelles peuvent aussi être appliquées à l’étude de stéréotypes diagnostiques ou à l’établissement de types cliniques empiriques. Un stéréotype diagnostique est établi lorsqu’on demande à un groupe d’experts d’une pathologie déterminée de remplir un instrument d’évaluation non pas à partir des symptômes d’un patient donné mais en fonction de la représentation qu’ils ont d’un cas typique de la pathologie. La moyenne des jugements définit alors le stéréotype empirique de la pathologie. Le degré de ressemblance d’un patient donné avec la description prototypique d’une pathologie déterminée se développe actuellement dans plusieurs sections de la psychopathologie, notamment dans les troubles de la personnalité.
Les types syndromiques empiriques correspondent à l’identification — au sein d’un groupe hétérogène de patients — de certains profils psychopathologiques retrouvés avec une fréquence plus importante que ne le voudrait le hasard. Ces procédés sont à l’origine de diverses méthodes de diagnostics automatiques. On peut comparer le profil d’un patient donné à divers profils types établis préalablement et définir, avec la notion de distance et de proximité, le diagnostic le plus vraisemblable.
Conclusion
Les échelles d’évaluation ont de nombreuses applications en pratique clinique et en recherche.
[1] Bouvard M., Cottraux J. Protocoles et échelles d’évaluation en psychiatrie et en psychologie. 3e éd Paris:Masson; 2002.
[2] Dickes P., Tournois J., Flieller A., Kop J.L. La psychométrie. Paris: PUF, 1994.
[3] Guelfi J.D., 2e édition, L’évaluation clinique standardisée en psychiatrie, Boulogne;2:Éditions Médicales Pierre Fabre; 1993. (remaniée sur CD, hors commerce)
[4] Guelfi J.D., Bobon D. Échelles d’évaluation en psychiatrie. Encycl Méd Chir (Elsevier, Paris). 1989. Psychiatrie, 372200A10
[5] Guelfi J.D., Gaillac V., Dardennes R. Psychopathologie quantitative. Paris: Masson, 1995.
[6] Loranger A.W., Sartorius N., Andreoli A., et al. The International Personality Disorder Examination : The World Health Organization/Alcohol, Drug Abuse and Mental Health Administration International Pilot Study of Personality Disorders. Arch Gen Psychiatry. 1994;51:215-224.
[7] Overall J.E., Gorham D.R. The brief psychiatric rating scale. Psychol Rep. 1962;10:799-812.
[8] Pföhl B., Blum N., Zimmerman M. Structured Interview for DSM-IV Personality Disorders. Washington DC: American Psychiatric Association, 1997.
[9] Pichot P., Overall J.E., Samuel-Lajeunesse B., Dreyfus J.F. Structure factorielle de l’échelle abrégée d’appréciation psychiatrique BPRS. Rev Psychol Appl. 1969;19:217-232.
[10] Pull C.B., Guelfi J.D., Pull M.C. Les critères diagnostiques en psychiatrie. Encycl Méd Chir (Elsevier, Paris). 1996. Psychiatrie, 37102, C15
9.3 La mesure de la subjectivité1
Si la mesure de la subjectivité a été essentiellement initiée par les psychologues et les pédagogues au tout début du xxe siècle (notamment par le biais des mesures d’intelligence), la médecine est aujourd’hui le domaine où ce type de questionnement est le plus actif. En effet, l’épanouissement de la recherche médicale s’est réalisé de façon tellement évidente au contact des sciences « presque dures » (biophysique, biochimie, biologie, etc.), que l’on en est parfois venu à oublier l’objet même de la médecine : le sujet souffrant, pour qui douleur ou angoisse de mort sont bien souvent les premiers maux dont il souhaite se voir soulager. C’est à partir de cette constatation qu’un courant social, politique et médical s’est constitué à partir des années 1970–1980 pour rappeler que la médecine s’adresse tant au sujet pensant (souffrant, anxieux) qu’au sujet vivant (dont le corps est malade).
Pour répondre à cette dualité, notamment dans le cadre des recherches scientifiques, de nouveaux types de mesure ont dû voir le jour : autoévaluation du niveau de douleur ressentie, évaluation de la « qualité de la vie », échelles d’anxiété ou de dépression. Nombreux sont, cependant, ceux à s’interroger sur la légitimité de ce type d’évaluation : il s’agit en effet de mesures subjectives et non objectives, comme on en a l’habitude. Or, peut-on envisager de réaliser un travail scientifique portant sur l’évaluation de caractéristiques subjectives ?
Définitions
Curieusement, les difficultés sont bien plus grandes quand on s’interroge sur la définition d’une mesure, et cela n’est pas propre au domaine des mesures subjectives. Ainsi, les physiciens des particules reconnaissent souvent qu’il leur est impossible de définir véritablement ce qu’est une mesure, tout en précisant, cependant, que cela ne les empêche nullement d’en réaliser [1].
En fait, plusieurs tentatives de définition du concept de mesure ont pu être proposées, chacune ayant des implications épistémologiques différentes. Dans le domaine de la subjectivité, trois grandes approches sont souvent présentées [2, 5] :
• l’approche classique, c’est-à-dire celle des physiciens. Dans ce cas, la mesure est un nombre, qui va pouvoir être manipulé au moyen de formules et ce, afin de construire des lois, permettant d’expliquer et de prédire les phénomènes que l’on observe (si l’on sait mesurer une longueur et une durée, il est possible d’élaborer une théorie de la gravitation, qui permettra de prédire la survenue d’éclipses, de fortes marées, etc.). Mais comment espérer raisonnablement écrire des équations incluant des paramètres comme la tristesse ? ;
• l’approche opérationnelle dépasse, en abstraction, le point de vue classique. La mesure devient une simple opération, un processus qui conduit à un nombre (je me refuse à comprendre la nature du temps et de l’espace, j’utilise simplement les valeurs numériques que me donnent mes instruments — horloges, balances, etc. — dans le but d’élaborer des théories, purement formelles, dont l’unique intérêt est de me permettre de construire des ponts, d’aller dans la lune, etc.). Poussée à l’extrême, une telle approche aboutit à se priver de toute possibilité d’interprétation : si j’explore la tristesse d’un sujet au moyen d’instruments de mesure subjective, mes conclusions ne pourront pas, en principe, porter sur les sentiments ressentis par le sujet, mais seulement sur les valeurs numériques fournies par les instruments. Alors à quoi sert l’expérience ? … Car ce qui nous intéresse, c’est bel et bien ce que ressent le sujet et non les scores obtenus à des instruments dont on ne peut interpréter le sens intrinsèque. S’interdire le recours à toute interprétation peut, certes, parfois avoir un sens en physique. L’infiniment petit ou l’infiniment grand a bien peu de signification pour un être humain ; en physique des particules, l’interprétation naît ainsi directement du formalisme mathématique (ce sont les modèles mathématiques qui permettent au physicien de se représenter la réalité qu’il tente d’appréhender). C’est en revanche une attitude difficile à admettre dans des disciplines dont l’objet est la subjectivité ;
• une troisième approche du concept de mesure est l’approche représentationnelle, pour laquelle [1] : « la mesure est la représentation numérique de faits empiriques ». La mesure est donc avant tout une commodité, un outil qui permet de mieux se représenter les faits que l’on étudie. Cette définition, séduisante par sa simplicité, a néanmoins l’inconvénient de recourir au terme de « représentation », dont le sens est pour le moins vague ; mais peut-être est-il difficile de faire autrement ?
Mesures subjectives et mesures objectives : les différences
1er argument : « un attribut subjectif ne correspond à rien de concret, tout juste à un mot, qui plus est au sens généralement imprécis ». Il serait donc illusoire d’espérer en obtenir une mesure scientifiquement acceptable. Prenons l’exemple de la tristesse. Il est vrai que, curieusement, il est difficile d’en obtenir une définition2, mais est-ce pour cela que le sens de ce mot est imprécis ? Bien au contraire. La tristesse est un sentiment élémentaire que tout être humain a déjà éprouvé. Il suffit, en fait, que je dise : « je suis triste… » pour que n’importe quelle personne sache exactement ce que je ressens. Pour le moins, on ne peut voir ici aucune imprécision.
• la première est classique mais peu satisfaisante : on pourrait ne travailler que sur ce que dit l’individu et non pas sur ce qu’il est censé ressentir. Nous retrouvons ici une attitude proche de celle préconisée par les tenants de la théorie opérationnelle de la mesure, théorie que nous avons écartée plus haut : cela ne sert à rien de demander à quelqu’un s’il est triste, si c’est pour discuter du seul contenu de son discours et s’interdire de faire la moindre interprétation des sentiments qu’il dit éprouver ;
• la seconde objection à opposer au manque de crédibilité d’un sujet dont on étudie certains paramètres subjectifs est pratique. Pour des questions sans véritable enjeu, si la réponse est recueillie dans un environnement de confiance, il est peu probable que le sujet exprime quelque chose de véritablement différent de ce qu’il éprouve ;
• la troisième objection consiste en un artifice méthodologique, celui de l’hétéroévaluation (terme signifiant que la mesure sera effectuée à partir de l’observation d’un tiers et non à partir de l’évaluation du sujet par lui-même). Le principe d’une mesure subjective obtenue par hétéroévaluation repose sur une aptitude humaine largement partagée : l’empathie. Quand deux personnes discutent suffisamment longtemps, en toute confiance, dans un environnement calme et sécurisant, elles parviennent chacune, plus ou moins consciemment, à ressentir intérieurement, a minima, ce que l’autre ressent. Pour évaluer une caractéristique subjective de l’une, il peut suffire, alors, d’interroger l’autre ; si cette dernière fait en outre partie des expérimentateurs, on peut alors espérer que ce qu’elle rapporte est un fidèle reflet de ce qu’elle perçoit. Le biais du manque de crédibilité du sujet exploré est ainsi, en théorie, en grande partie éliminé. On pourra remarquer qu’un tel type de mesure, s’il peut paraître surprenant (le sujet exploré étant, a priori, le plus apte à rapporter ce qu’il ressent), est parfois particulièrement adapté aux mesures effectuées en médecine : en psychiatrie c’est souvent une évidence (un patient mélancolique et délirant aura bien du mal à se représenter et à rapporter avec justesse la qualité de ses émotions) ; plus généralement, le fait même d’être malade est susceptible de biaiser l’appréciation que le sujet porte sur certains de ses états propres subjectifs. À titre d’anecdote, on remarquera que le principe d’une mesure obtenue seulement de façon indirecte — comme c’est le cas dans une hétéroévaluation — se retrouve souvent dans le cadre des mesures physiques. Il en est, ainsi, notamment du fonctionnement du thermomètre à mercure : par contact, l’objet à mesurer et le mercure arrivent à la même température, c’est finalement la température du mercure qui sera mesurée en évaluant l’importance de sa dilatation. Enfin, une mesure effectuée par hétéroévaluation bénéficie d’une propriété scientifique fondamentale : la possibilité d’en estimer la variabilité et donc de disposer d’un ordre de grandeur de l’erreur de mesure. En pratique, cette variabilité est estimée au moyen d’un protocole où plusieurs expérimentateurs évaluent le même sujet. Il est très difficile — voire impossible — d’obtenir une telle estimation de l’erreur de mesure dans le cadre d’une autoévaluation.
Il est vrai que le niveau actuel de précision des mesures subjectives (en santé tout particulièrement), quand on peut le déterminer, est souvent médiocre ou mauvais. Mais cela est-il rédhibitoire quant à la scientificité des disciplines de la subjectivité ? Rien n’est moins sûr, et ce d’autant plus que l’on observe une évolution parallèle des paradigmes3 de mesure dans les disciplines de la subjectivité et dans les sciences les plus « objectives », la physique notamment.
Mesures subjectives et mesures objectives : les convergences
Imaginons l’expérience suivante : on vous présente un sac rempli d’objets divers. Vous le soupesez et devez vous prononcer sur sa lourdeur. Si l’on vous interdit de vous référer même indirectement à une unité de poids, comme le kilogramme, vous allez devoir vous contenter d’expressions du type : « c’est très lourd », « peu lourd », etc. En fin de compte, cela ne vous éloignera pas beaucoup de certains instruments de mesure subjective couramment utilisés dans le domaine de la santé ; c’est le cas, par exemple, d’une échelle d’impression clinique globale comme la CGI (Clinical Global Impression [3]). Dans le cas de la dépression, cette échelle prend la forme présentée dans l’encadré 9.1.
Encadré 9.1 Échelle d’impression clinique globale dans la dépression
Non évalué | 0 |
Normal, pas du tout malade | 1 |
À la limite | 2 |
Légèrement malade | 3 |
Modérément malade | 4 |
Manifestement malade | 5 |
Gravement malade | 6 |
Parmi les patients les plus malades | 7 |
Revenons à notre expérience imaginaire de pesée. Pour se prononcer sur la lourdeur du sac, on peut, dans le but de préciser notre impression, indiquer qu’il est lourd « comme deux ou trois gros dictionnaires ». Cependant, on introduit alors implicitement l’ébauche d’un système d’étalonnage, ce qui constitue un saut qualitatif indéniable dans la conceptualisation de la notion de mesure : cette dernière n’est plus la simple appréciation d’une impression du type « c’est très lourd », « peu lourd », etc., mais une comparaison avec la lourdeur d’objets de référence. Si l’on conçoit le stade de l’étalonnage4 comme un nouveau paradigme de mesure, on remarquera que les mesures subjectives ne manquent pas d’y recourir. À titre d’exemple, on peut citer un questionnaire de mesure de la somnolence : le Stanford Sleepiness Scale (ou questionnaire SSS [4, 6]), se présentant comme indiqué dans l’encadré 9.2.
Encadré 9.2 Questionnaire de mesure de la somnolence
Choisissez la phrase correspondant au mieux à votre état de somnolence actuel :
Énergique, tout à fait réveillé. | 1 |
État d’éveil très bon, mais pas le meilleur. Capable de me concentrer. | 2 |
Décontracté, éveillé, conscient de l’environnement. | 3 |
Légère sédation, pas au maximum de ma forme, je laisse aller. | 4 |
Sédation moyenne. Je commence à perdre l’envie de rester éveillé, je suis ralenti. | 5 |
Je me sens endormi. Je préfère être couché. Je combats l’endormissement. Vaseux. | 6 |
Je dors presque. J’ai perdu l’énergie de rester éveillé. | 7 |
Dans un même ordre d’idée, on remarquera que les physiciens ont rencontré des difficultés avec le paradigme d’étalonnage (pour des niveaux de précision radicalement différents, bien entendu) : le mètre, défini en 1799 au moyen d’un prototype unique déposé au pavillon de Breteuil, a, au fil des ans, posé des problèmes de reproductibilité rendant difficiles certaines expériences de physique de haute précision. Une nouvelle définition a été adoptée en 1983, le mètre devient alors « la longueur du trajet parcouru dans le vide par la lumière pendant une durée de 1/299792458 de seconde ». Cette nouvelle définition marque une rupture épistémologique majeure en métrologie : l’étalon n’est plus un simple niveau de référence auquel on peut comparer l’objet que l’on souhaite mesurer, mais fait partie intégrante d’une théorie au sens fort du terme. En effet, cette définition du mètre implique que la vitesse de la lumière dans le vide est une constante, ce qui est un postulat tellement peu anodin qu’il est en totale contradiction avec le sens commun. La vitesse d’un objet n’a, en effet, de sens que par rapport à un observateur donné : une voiture roule à 100 km/h par rapport à un observateur immobile sur la route, alors que la vitesse de cette même voiture est nulle par rapport à l’un de ses passagers. Il est donc nécessaire de montrer que la vitesse de la lumière est une constante ; mais cela ne peut se faire que très indirectement, par exemple en observant, dans des conditions expérimentales précises, les franges d’interférence d’une lumière monochromatique (expérience de Michelson). Or l’interprétation d’une telle expérience n’est possible qu’en acceptant le fait que la lumière présente, au moins pour certains de ses aspects, un caractère ondulatoire ; ce qui, de nouveau, doit être prouvé, etc. Qui plus est, ces expériences nécessitent toutes la mesure de distances, ce qui implique en particulier de disposer d’une définition du mètre !
[1] Brézin E. Communication orale, Colloque de la Société Française de Physique Prédiction et probabilité dans les sciences, 22 janvier 1997.
[2] Dickes P., Tournois J., Flieller A., Kop J.L. La Psychométrie. Paris: PUF, 1994.
[3] Guelfi J.D. L’évaluation clinique standardisée. Boulogne: Éditions Médicales Pierre Fabre, 1993. (hors commerce)
[4] Hoddes E., Zarcone V., Smythe H., et al. Quantification of sleepiness : a new approach. Psychophysiology. 1973;10:431-436.
[5] Michell J. Measurement scales and statistics : A clash of paradigms. Psychol Bull. 1986;100:398-407.
[6] Schulz P., Walser A., Meyer J.J., et al. Traduction française de la Stanford Sleepiness Scale (SSS) et utilisation de cette échelle de sédation après dose unique de midazolam ou d’amitriptyline. Agressology. 1982;24:357-359.
9.4 La psychométrie des fonctions cognitives
La psychométrie des fonctions cognitives comprend d’une part les tests mentaux d’aptitude et d’intelligence qui visent une évaluation des potentialités intellectuelles, d’autre part l’examen des différentes fonctions cognitives dans un but de dépistage d’une symptomatologie démentielle.
Les tests mentaux d’aptitude et d’intelligence
Depuis la naissance du premier test d’intelligence (Binet, 1905), l’évaluation des capacités intellectuelles a toujours été très controversée. Si les travaux de recherche ont permis une meilleure compréhension des processus cognitifs sous-jacents à la performance, les termes de QI (quotient intellectuel), d’intelligence, l’utilité et la validité de l’examen psychométrique restent l’objet de nombreuses discussions et confusions.
Concepts – intérêts et limite de l’évaluation de l’intelligence
La construction d’un test repose sur un modèle théorique et son application permet d’en situer les limites. L’évolution des tests d’intelligence témoigne d’une évolution parallèle, grâce à des remises en question successives des théories de l’intelligence.
Souvent synonyme du mot intelligence, le terme de QI recouvre deux entités distinctes. Chez l’enfant, le QI (W. Stern, 1912) représente un quotient de deux termes avec au numérateur l’âge mental, c’est-à-dire le niveau de maturation ou d’acquisition apprécié par le test, et au dénominateur, l’âge réel de l’enfant. Il représente la vitesse moyenne à laquelle le sujet est parvenu au niveau enregistré au moment du test. Le développement intellectuel connaît un plafond car il existe un âge, variable selon les tests, au-delà duquel les résultats moyens ne s’accroissent plus. C’est pourquoi l’emploi du terme de QI au sens de Stern perd toute signification chez l’adulte. D. Wechsler en 1925 a établi une autre définition : le QI repère la position relative d’un sujet par rapport aux sujets du même âge. Il s’agit donc de classer un individu par rapport à un groupe de référence, avec la convention que dans le groupe d’étalonnage (constitué par un échantillon représentatif), la moyenne statistique est égale à 100 et l’écart type à 15.
Les différentes catégories de tests d’intelligence
La psychométrie classique
La Wechsler Adult Intelligence Scale (WAIS) fait partie des instruments actuellement les plus utilisés. Son auteur, D. Wechsler, conçoit l’intelligence comme une entité globale reflétant l’adaptation et se manifestant plus par la manière dont les différentes capacités sont orchestrées que par la performance dans un domaine particulier. Son échelle est composée de situations variées (11 subtests) représentatives d’un échantillon des capacités d’un individu ; elle doit permettre d’évaluer l’intelligence de tous les individus. L’utilisation du langage pouvant constituer pour certains un handicap, il existe, à côté d’une échelle verbale, une échelle de performance où la capacité est évaluée uniquement par la manipulation d’un matériel concret. Avec l’âge, l’efficience tend à diminuer inégalement dans les différents subtests ; c’est pourquoi les QI calculés sont un indicateur de la position qu’occupe le sujet dans la distribution des scores de son groupe d’âge et non de l’ensemble de la population adulte.
Conçue en 1939, la WAIS a connu plusieurs révisions. La WAIS III (1997) a été adaptée et étalonnée sur la population française de 16 à 89 ans [20]. Outre différentes modalités de fonctionnement intellectuel (pensée conceptuelle, stock verbal, acquis culturels, raisonnement logique et abstrait), elle permet d’apprécier des domaines plus spécifiques, tenant compte des apports de la psychologie cognitive : mémoire de travail, organisation perceptive, vitesse de traitement de l’information, compréhension verbale. La WAIS est traditionnellement utilisée dans l’évaluation d’un retard mental et la détection des sujets intellectuellement précoces ; elle peut également contribuer au diagnostic différentiel entre trouble neurologique et psychiatrique. La dernière révision de la WAIS date de 2008.
Approche factorielle de l’intelligence
La conception unitaire de l’intelligence selon laquelle l’ensemble des conduites intellectuelles est sous-tendu par un facteur commun remonte à C. Spearman en 1904 [19]. L’analyse factorielle montre que les différents tests d’intelligence ont entre eux des corrélations positives. Pour expliquer celles-ci, on peut faire appel à trois ordres de facteurs : un facteur général (facteur g), commun à tous les tests, des facteurs de groupe (par exemple facteur verbal, facteur spatial), chaque facteur étant commun à un certain nombre de tests, et des facteurs spécifiques, chacun étant particulier à un test. Le but des tests d’intelligence est d’appréhender le facteur g puisqu’il intervient dans toutes les opérations mentales.
Ce schéma factoriel ne s’est pas révélé entièrement exact et d’autres modèles ont été proposés. Les travaux de L.L. Thurstone (1938) ont notamment remis en cause la conception unitaire en utilisant une autre méthode d’analyse factorielle et en l’appliquant à des ensembles de tests plus larges. Plusieurs facteurs indépendants les uns des autres correspondent à autant de formes d’intelligence. Aujourd’hui, les progrès de l’analyse factorielle ont permis de tester l’adéquation des différents modèles et ainsi de comprendre un certain nombre de contradictions. Le débat entre caractère général ou multiple de l’intelligence s’est résolu par l’intégration des deux conceptions dans un modèle dit « hiérarchique ». Le modèle hiérarchique à trois strates de J.B. Carroll (méta-analyse intégrant plus de 460 analyses factorielles, l’ensemble portant sur près de 130 000 personnes) est celui qui réunit actuellement le plus large consensus [4]. Toutes les structures factorielles trouvées sont compatibles avec un modèle hiérarchique à trois niveaux ;
• un niveau est attribuable à un facteur général de réussite correspondant au facteur g ;
• un autre niveau correspond à huit formes différentes d’intelligence parmi lesquelles l’intelligence fluide (capacité de résoudre des tâches nouvelles) et l’intelligence cristallisée (somme des connaissances acquises en fonction de l’environnement et de l’expérience) ;
• le dernier niveau correspond à une quarantaine de facteurs plus spécifiques comme, par exemple, la mémoire associative.
La présence de ces multiples facteurs rend compte du fait qu’il est possible d’être performant dans l’une des formes d’intelligence sans l’être automatiquement dans les autres. Il existe cependant une tendance statistique à ce que les sujets les plus performants dans l’une de ces formes le soient également dans les autres, ce dont rend compte le facteur général. Les tests mettant en jeu l’intelligence fluide sont généralement non verbaux, font appel à la perception visuelle et mettent en jeu le raisonnement logique et abstrait (Progressive Matrices de J. Raven, D 48 de Anstey et sa dernière version le D2000). L’intelligence cristallisée qui fait référence aux capacités acquises peut être évaluée par des tests de compréhension verbale (proverbes) ou de connaissances lexicales comme les tests de vocabulaire (Binois et Pichot, subtest de vocabulaire de la WAIS).
D’autres théories remettent en cause l’existence du facteur g et distinguent des formes multiples d’intelligence. La théorie la plus diffusée actuellement est celle de H. Gardner [9] qui différencie au moins neuf formes d’intelligence, indépendantes les unes des autres et qui doivent être évaluées non par des tests mais par l’observation des sujets en milieu naturel.