• une troisième approche du concept de mesure est l’approche représentationnelle, pour laquelle [1] : « la mesure est la représentation numérique de faits empiriques ». La mesure est donc avant tout une commodité, un outil qui permet de mieux se représenter les faits que l’on étudie. Cette définition, séduisante par sa simplicité, a néanmoins l’inconvénient de recourir au terme de « représentation », dont le sens est pour le moins vague ; mais peut-être est-il difficile de faire autrement ?

S’il fallait retenir une définition du mot « mesure », c’est peut-être cette dernière que nous choisirions. Elle a, en effet, le grand mérite de nous rappeler qu’une mesure n’est pas une fin en soi, qu’elle a pour simple but de faciliter la compréhension de phénomènes trop complexes pour être appréhendés directement. Dans le domaine des mesures subjectives en particulier, la mesure a ainsi pour ultime ambition de s’effacer afin de permettre la révélation du concept qu’elle représente.

Mesures subjectives et mesures objectives : les différences

Au premier abord, les différences entre ces deux types de mesure conduisent à la même conclusion pessimiste : une mesure subjective, contrairement à une mesure objective, ne peut raisonnablement pas accéder à un statut scientifique. Curieusement, cependant, dès que l’on examine les arguments pouvant nous venir à l’esprit en faveur de cette impression, le point de vue n’apparaît plus aussi tranché :

1^er argument : « un attribut subjectif ne correspond à rien de concret, tout juste à un mot, qui plus est au sens généralement imprécis ». Il serait donc illusoire d’espérer en obtenir une mesure scientifiquement acceptable. Prenons l’exemple de la tristesse. Il est vrai que, curieusement, il est difficile d’en obtenir une définition ², mais est-ce pour cela que le sens de ce mot est imprécis ? Bien au contraire. La tristesse est un sentiment élémentaire que tout être humain a déjà éprouvé. Il suffit, en fait, que je dise : « je suis triste… » pour que n’importe quelle personne sache exactement ce que je ressens. Pour le moins, on ne peut voir ici aucune imprécision.

2^e argument : « par définition, un élément subjectif est relatif à ce que ressent un individu, or il est impossible d’avoir la moindre preuve qu’une personne ressent bel et bien ce qu’elle dit ressentir » (si tant est que « ressentir bel et bien quelque chose » ait un sens). Il serait donc de nouveau impossible d’espérer obtenir une mesure scientifiquement acceptable de l’élément subjectif en question. Trois objections peuvent néanmoins être formulées à l’encontre de cet argument :

• la première est classique mais peu satisfaisante : on pourrait ne travailler que sur ce que dit l’individu et non pas sur ce qu’il est censé ressentir. Nous retrouvons ici une attitude proche de celle préconisée par les tenants de la théorie opérationnelle de la mesure, théorie que nous avons écartée plus haut : cela ne sert à rien de demander à quelqu’un s’il est triste, si c’est pour discuter du seul contenu de son discours et s’interdire de faire la moindre interprétation des sentiments qu’il dit éprouver ;

• la seconde objection à opposer au manque de crédibilité d’un sujet dont on étudie certains paramètres subjectifs est pratique. Pour des questions sans véritable enjeu, si la réponse est recueillie dans un environnement de confiance, il est peu probable que le sujet exprime quelque chose de véritablement différent de ce qu’il éprouve ;

• la troisième objection consiste en un artifice méthodologique, celui de l’hétéroévaluation (terme signifiant que la mesure sera effectuée à partir de l’observation d’un tiers et non à partir de l’évaluation du sujet par lui-même). Le principe d’une mesure subjective obtenue par hétéroévaluation repose sur une aptitude humaine largement partagée : l’empathie. Quand deux personnes discutent suffisamment longtemps, en toute confiance, dans un environnement calme et sécurisant, elles parviennent chacune, plus ou moins consciemment, à ressentir intérieurement, a minima, ce que l’autre ressent. Pour évaluer une caractéristique subjective de l’une, il peut suffire, alors, d’interroger l’autre ; si cette dernière fait en outre partie des expérimentateurs, on peut alors espérer que ce qu’elle rapporte est un fidèle reflet de ce qu’elle perçoit. Le biais du manque de crédibilité du sujet exploré est ainsi, en théorie, en grande partie éliminé. On pourra remarquer qu’un tel type de mesure, s’il peut paraître surprenant (le sujet exploré étant, a priori, le plus apte à rapporter ce qu’il ressent), est parfois particulièrement adapté aux mesures effectuées en médecine : en psychiatrie c’est souvent une évidence (un patient mélancolique et délirant aura bien du mal à se représenter et à rapporter avec justesse la qualité de ses émotions) ; plus généralement, le fait même d’être malade est susceptible de biaiser l’appréciation que le sujet porte sur certains de ses états propres subjectifs. À titre d’anecdote, on remarquera que le principe d’une mesure obtenue seulement de façon indirecte — comme c’est le cas dans une hétéroévaluation — se retrouve souvent dans le cadre des mesures physiques. Il en est, ainsi, notamment du fonctionnement du thermomètre à mercure : par contact, l’objet à mesurer et le mercure arrivent à la même température, c’est finalement la température du mercure qui sera mesurée en évaluant l’importance de sa dilatation. Enfin, une mesure effectuée par hétéroévaluation bénéficie d’une propriété scientifique fondamentale : la possibilité d’en estimer la variabilité et donc de disposer d’un ordre de grandeur de l’erreur de mesure. En pratique, cette variabilité est estimée au moyen d’un protocole où plusieurs expérimentateurs évaluent le même sujet. Il est très difficile — voire impossible — d’obtenir une telle estimation de l’erreur de mesure dans le cadre d’une autoévaluation.

3^e argument susceptible d’opposer les mesures subjectives aux mesures objectives : « quelle qu’en soit la cause, les mesures subjectives ne disposeront jamais d’un niveau de précision comparable à celui de la physique, par exemple ; l’écart est tel qu’aucune discipline de la subjectivité ne pourra espérer atteindre un stade véritablement scientifique ».

Il est vrai que le niveau actuel de précision des mesures subjectives (en santé tout particulièrement), quand on peut le déterminer, est souvent médiocre ou mauvais. Mais cela est-il rédhibitoire quant à la scientificité des disciplines de la subjectivité ? Rien n’est moins sûr, et ce d’autant plus que l’on observe une évolution parallèle des paradigmes ³ de mesure dans les disciplines de la subjectivité et dans les sciences les plus « objectives », la physique notamment.

Mesures subjectives et mesures objectives : les convergences

Dans ce qui suit, nous allons voir comment les méthodes de mesure objectives ou subjectives traduisent au départ une simple impression, on peut alors parler de mesure « impression ». Ces méthodes évoluent ensuite en recourant à un étalonnage, on peut parler ici de mesure « étalon ». Finalement, la méthode de mesure s’intègre dans un système théorique où l’on ne peut plus différencier les processus de mesure des concepts à mesurer ; d’où, cette fois, le terme de mesure « théorie ».

Imaginons l’expérience suivante : on vous présente un sac rempli d’objets divers. Vous le soupesez et devez vous prononcer sur sa lourdeur. Si l’on vous interdit de vous référer même indirectement à une unité de poids, comme le kilogramme, vous allez devoir vous contenter d’expressions du type : « c’est très lourd », « peu lourd », etc. En fin de compte, cela ne vous éloignera pas beaucoup de certains instruments de mesure subjective couramment utilisés dans le domaine de la santé ; c’est le cas, par exemple, d’une échelle d’impression clinique globale comme la CGI (Clinical Global Impression [3]). Dans le cas de la dépression, cette échelle prend la forme présentée dans l’encadré 9.1.

Encadré 9.1 Échelle d’impression clinique globale dans la dépression

En fonction de votre expérience clinique totale avec ce type de patient, quel est le niveau de gravité de l’état dépressif du patient ?

Non évalué	0
Normal, pas du tout malade	1
À la limite	2
Légèrement malade	3
Modérément malade	4
Manifestement malade	5
Gravement malade	6
Parmi les patients les plus malades	7

Revenons à notre expérience imaginaire de pesée. Pour se prononcer sur la lourdeur du sac, on peut, dans le but de préciser notre impression, indiquer qu’il est lourd « comme deux ou trois gros dictionnaires ». Cependant, on introduit alors implicitement l’ébauche d’un système d’étalonnage, ce qui constitue un saut qualitatif indéniable dans la conceptualisation de la notion de mesure : cette dernière n’est plus la simple appréciation d’une impression du type « c’est très lourd », « peu lourd », etc., mais une comparaison avec la lourdeur d’objets de référence. Si l’on conçoit le stade de l’étalonnage ⁴ comme un nouveau paradigme de mesure, on remarquera que les mesures subjectives ne manquent pas d’y recourir. À titre d’exemple, on peut citer un questionnaire de mesure de la somnolence : le Stanford Sleepiness Scale (ou questionnaire SSS [4, 6]), se présentant comme indiqué dans l’encadré 9.2.

Encadré 9.2 Questionnaire de mesure de la somnolence

Choisissez la phrase correspondant au mieux à votre état de somnolence actuel :

Énergique, tout à fait réveillé.	1
État d’éveil très bon, mais pas le meilleur. Capable de me concentrer.	2
Décontracté, éveillé, conscient de l’environnement.	3
Légère sédation, pas au maximum de ma forme, je laisse aller.	4
Sédation moyenne. Je commence à perdre l’envie de rester éveillé, je suis ralenti.	5
Je me sens endormi. Je préfère être couché. Je combats l’endormissement. Vaseux.	6
Je dors presque. J’ai perdu l’énergie de rester éveillé.	7

Chacune des modalités de réponse de cet instrument peut être considérée comme la référence d’un certain niveau de somnolence, cela correspond bien au principe d’un d’étalonnage. Ce dernier, il est vrai, est assez limité. Un expérimentateur désireux de l’améliorer pourrait multiplier le nombre de références, on comprend néanmoins que cela risque d’être rapidement difficile. Qui plus est, un certain niveau d’indécision apparaît généralement si l’on augmente le nombre de modalités de réponse : il devient en effet difficile de déterminer avec certitude le niveau qui correspond le mieux à notre sentiment intérieur quand les échelons sont trop peu différents.

Dans un même ordre d’idée, on remarquera que les physiciens ont rencontré des difficultés avec le paradigme d’étalonnage (pour des niveaux de précision radicalement différents, bien entendu) : le mètre, défini en 1799 au moyen d’un prototype unique déposé au pavillon de Breteuil, a, au fil des ans, posé des problèmes de reproductibilité rendant difficiles certaines expériences de physique de haute précision. Une nouvelle définition a été adoptée en 1983, le mètre devient alors « la longueur du trajet parcouru dans le vide par la lumière pendant une durée de 1/299792458 de seconde ». Cette nouvelle définition marque une rupture épistémologique majeure en métrologie : l’étalon n’est plus un simple niveau de référence auquel on peut comparer l’objet que l’on souhaite mesurer, mais fait partie intégrante d’une théorie au sens fort du terme. En effet, cette définition du mètre implique que la vitesse de la lumière dans le vide est une constante, ce qui est un postulat tellement peu anodin qu’il est en totale contradiction avec le sens commun. La vitesse d’un objet n’a, en effet, de sens que par rapport à un observateur donné : une voiture roule à 100 km/h par rapport à un observateur immobile sur la route, alors que la vitesse de cette même voiture est nulle par rapport à l’un de ses passagers. Il est donc nécessaire de montrer que la vitesse de la lumière est une constante ; mais cela ne peut se faire que très indirectement, par exemple en observant, dans des conditions expérimentales précises, les franges d’interférence d’une lumière monochromatique (expérience de Michelson). Or l’interprétation d’une telle expérience n’est possible qu’en acceptant le fait que la lumière présente, au moins pour certains de ses aspects, un caractère ondulatoire ; ce qui, de nouveau, doit être prouvé, etc. Qui plus est, ces expériences nécessitent toutes la mesure de distances, ce qui implique en particulier de disposer d’une définition du mètre !

En fin de compte, actuellement, la validité de la méthode de référence utilisée pour mesurer une longueur, voire le concept de longueur lui-même, est totalement dépendante de la validité de la théorie physique contemporaine dans son ensemble. Nous sommes donc en présence d’un nouveau type de paradigme de mesure, fondé sur une théorie de la grandeur que l’on souhaite mesurer. De nombreux instruments de mesures subjectives relèvent d’un tel paradigme, c’est notamment le cas des instruments à plusieurs items, dépendant étroitement d’une théorie définitoire (celle qui a présidé au choix des items constituant l’instrument).

Conclusion

Quand on s’interroge sur la notion de mesure subjective, il est surprenant de constater que le terme « subjectif » est d’un sens à la fois immédiat et non ambigu alors que le concept de mesure, pourtant utilisé quotidiennement par tout scientifique, est d’une complexité totalement déroutante…

À l’encontre, peut-être, de certaines idées reçues, nous avons en outre constaté qu’il était illusoire d’imaginer régler la question des mesures subjectives en espérant les voir substituées, un jour, par des mesures objectives. Si l’on s’intéresse au patient en tant que sujet pensant (est-il triste, anxieux, fatigué, douloureux, etc.), alors la mesure sera subjective, par définition. Les mesures objectives ont un rôle essentiel en clinique (poids, pression artérielle, glycémie, virémie, etc.), car elles peuvent apporter une information diagnostique ou pronostique souvent inégalable. Elles ne peuvent cependant prétendre décrire un patient dans son intimité psychique. Or c’est bien en tant que sujet pensant que le patient est ce partenaire incontournable dans le choix thérapeutique, ou l’arbitre définitif du succès d’une prise en charge.

À l’encontre de certaines idées reçues, toujours, nous avons aussi constaté qu’il était bien difficile de trouver une différence de nature fondamentale entre les mesures subjectives et les mesures objectives. Elles évoluent d’ailleurs toutes sur un plan historique, suivant des paradigmes identiques.

Bien sûr nous n’avons rien dit sur la méthodologie de validation de telles mesures, peut-être bien différente, elle, de la méthodologie de validation d’une mesure objective. Mais il s’agit là d’un tout autre chapitre…

9.4 La psychométrie des fonctions cognitives

M. Dupuy, C. Monier, I. Amado

La psychométrie des fonctions cognitives comprend d’une part les tests mentaux d’aptitude et d’intelligence qui visent une évaluation des potentialités intellectuelles, d’autre part l’examen des différentes fonctions cognitives dans un but de dépistage d’une symptomatologie démentielle.

Les tests mentaux d’aptitude et d’intelligence

Depuis la naissance du premier test d’intelligence (Binet , 1905), l’évaluation des capacités intellectuelles a toujours été très controversée. Si les travaux de recherche ont permis une meilleure compréhension des processus cognitifs sous-jacents à la performance, les termes de QI (quotient intellectuel), d’intelligence, l’utilité et la validité de l’examen psychométrique restent l’objet de nombreuses discussions et confusions.

Concepts – intérêts et limite de l’évaluation de l’intelligence

La construction d’un test repose sur un modèle théorique et son application permet d’en situer les limites. L’évolution des tests d’intelligence témoigne d’une évolution parallèle, grâce à des remises en question successives des théories de l’intelligence.

Souvent synonyme du mot intelligence, le terme de QI recouvre deux entités distinctes. Chez l’enfant, le QI (W. Stern, 1912) représente un quotient de deux termes avec au numérateur l’âge mental, c’est-à-dire le niveau de maturation ou d’acquisition apprécié par le test, et au dénominateur, l’âge réel de l’enfant. Il représente la vitesse moyenne à laquelle le sujet est parvenu au niveau enregistré au moment du test. Le développement intellectuel connaît un plafond car il existe un âge, variable selon les tests, au-delà duquel les résultats moyens ne s’accroissent plus. C’est pourquoi l’emploi du terme de QI au sens de Stern perd toute signification chez l’adulte. D. Wechsler en 1925 a établi une autre définition : le QI repère la position relative d’un sujet par rapport aux sujets du même âge. Il s’agit donc de classer un individu par rapport à un groupe de référence, avec la convention que dans le groupe d’étalonnage (constitué par un échantillon représentatif), la moyenne statistique est égale à 100 et l’écart type à 15.

La notion d’intelligence est source de confusion parce qu’elle désigne souvent à la fois un vaste ensemble de cognitions et l’efficacité avec laquelle elles sont mises en œuvre. Il n’existe pas de consensus sur une définition de l’intelligence et sur les situations qui en relèvent. Elle est le plus couramment définie comme la capacité d’un individu à modifier son comportement de manière à l’adapter aux contraintes environnementales. Cela implique donc d’une part une flexibilité des processus cognitifs sur laquelle il y a en général accord. Cette capacité adaptative doit avoir d’autre part un degré assez élevé de généralité et se manifester dans des situations différentes. C’est sur cette notion de généralité que le consensus est loin d’être établi et que deux courants se dégagent. Selon le premier, le plus ancien, il existe une intelligence unique, générale, présente dans les différents domaines de la cognition. Le second postule qu’il existe au contraire différentes formes d’intelligence, indépendantes les unes des autres.

L’examen psychométrique de l’intelligence doit répondre à un certain nombre de conditions qui garantissent la qualité de l’évaluation. Dans le temps préparatoire consacré à la sélection des tests utilisés, la connaissance des théories sous-jacentes et la vérification des qualités métrologiques des épreuves envisagées sont des préalables indispensables. Le motif précis de l’examen, l’entretien avec le sujet et l’intégration des diverses données cliniques (anamnèse, facteurs de personnalité et leur rôle dans l’exploitation des potentialités intellectuelles, état thymique, anxiété, déficit attentionnel, observations qualitatives en cours d’examen, etc.) permettent l’élaboration des hypothèses. Le travail d’interprétation des résultats sera d’autant plus précis et fiable qu’il englobera un grand nombre de données. Le chiffre du QI doit être considéré comme un point de repère qui donne des indications sur l’efficience du sujet et non sur les processus cognitifs mis en jeu.

Les différentes catégories de tests d’intelligence

La psychométrie classique

La Wechsler Adult Intelligence Scale (WAIS) fait partie des instruments actuellement les plus utilisés. Son auteur, D. Wechsler, conçoit l’intelligence comme une entité globale reflétant l’adaptation et se manifestant plus par la manière dont les différentes capacités sont orchestrées que par la performance dans un domaine particulier. Son échelle est composée de situations variées (11 subtests) représentatives d’un échantillon des capacités d’un individu ; elle doit permettre d’évaluer l’intelligence de tous les individus. L’utilisation du langage pouvant constituer pour certains un handicap, il existe, à côté d’une échelle verbale, une échelle de performance où la capacité est évaluée uniquement par la manipulation d’un matériel concret. Avec l’âge, l’efficience tend à diminuer inégalement dans les différents subtests ; c’est pourquoi les QI calculés sont un indicateur de la position qu’occupe le sujet dans la distribution des scores de son groupe d’âge et non de l’ensemble de la population adulte.

Conçue en 1939, la WAIS a connu plusieurs révisions. La WAIS III (1997) a été adaptée et étalonnée sur la population française de 16 à 89 ans [20]. Outre différentes modalités de fonctionnement intellectuel (pensée conceptuelle, stock verbal, acquis culturels, raisonnement logique et abstrait), elle permet d’apprécier des domaines plus spécifiques, tenant compte des apports de la psychologie cognitive : mémoire de travail, organisation perceptive, vitesse de traitement de l’information, compréhension verbale. La WAIS est traditionnellement utilisée dans l’évaluation d’un retard mental et la détection des sujets intellectuellement précoces ; elle peut également contribuer au diagnostic différentiel entre trouble neurologique et psychiatrique. La dernière révision de la WAIS date de 2008.