Chapitre 1 Fiabilité et utilité diagnostique de l’examen clinique de l’appareil locomoteur

À l’heure actuelle, les sciences et professions médicales mènent une révolution raisonnée vers la pratique basée sur les niveaux de preuve, définis comme la combinaison de la meilleure recherche de preuves disponible avec l’expérience clinique au service des patients [1, 2].

La preuve doit être incorporée dans tous les aspects de la kinésithérapie, du patient hospitalisé à la clientèle de cabinet, incluant l’examen, le bilan, le diagnostic, le pronostic et le traitement. Il se peut que la partie la plus importante soit un bilan à la fois rapide et prudent pouvant mener à un diagnostic précis, à un plan de traitement efficace et à un pronostic fiable. En conséquence, on ne doit pas sous-estimer l’importance d’incorporer la preuve de la pertinence des tests cliniques et des mesures, de façon à mettre en évidence les patients porteurs de tels ou tels désordres musculosquelettiques [1, 2].

Le processus du bilan kinésithérapique impose de recueillir l’histoire du patient, de développer des hypothèses de travail, de choisir des tests et des mesures spécifiques pour confirmer ou infirmer les hypothèses formulées.

Le clinicien doit déterminer la probabilité initiale (avant toute évaluation mais éventuellement après diagnostic médical) que le patient ait tel ou tel problème. Comme suite à cette information, le clinicien choisit les tests et mesures appropriés qui l’aideront à déterminer la probabilité finale (après évaluation) que le patient ait ce problème-là. Le degré de certitude doit être suffisant pour que le traitement puisse commencer (idée de seuil de certitude à partir duquel le traitement peut être entrepris). Le but des tests cliniques n’est pas d’arriver à une certitude de diagnostic, mais plutôt de réduire le degré d’incertitude jusqu’à ce que le seuil de certitude du traitement soit atteint [2].

Les concepts de probabilité initiale et finale et de seuil de certitude du traitement seront explicités plus loin dans ce chapitre.

Comme la quantité de tests cliniques répertoriés augmente sans cesse, il est absolument essentiel d’évaluer les propriétés de ces tests, avant de les introduire dans la pratique clinique [3]. L’intégration du meilleur niveau de preuves de chacun des tests disponibles en vue d’une utilité diagnostique est fondamentale pour pratiquer un diagnostic précis et complet, amenant un traitement pertinent et efficace. Il est évident que les praticiens comme les étudiants doivent être attentifs aux propriétés diagnostiques et aux mesures obtenues par les tests utilisés et savoir lesquels sont d’une vraie utilité clinique. Les lignes qui suivent aident le praticien et/ou l’étudiant à sélectionner tests et mesures pour évaluer correctement les patients et permettre la mise en œuvre rapide d’une stratégie managériale efficace.

L’évaluation des tests utilisés pour le bilan implique l’examen de plusieurs propriétés, incluant la fiabilité et la précision du bilan. Un test est considéré comme fiable s’il produit une information reproductible, précise et spécifique. Un test est considéré comme précis s’il présente la possibilité de distinguer les patients ayant une pathologie des autres [4]. L’évaluation scientifique de l’utilité clinique des tests et mesures en bilan massokinésithérapique nécessite la comparaison des résultats avec des références indiscutables¹ comme des radiographies (lesquelles représentent la mesure la plus proche de la réalité).

Au moyen des outils statistiques issus du champ de l’épidémiologie, la précision d’un test – c’est-à-dire, sa possibilité de déterminer quel patient présente la dysfonction et quel patient ne la présente pas – est finalement calculée.

Ce premier chapitre met l’accent sur les caractéristiques qui définissent la fiabilité et la précision des tests et mesures spécifiques. Le chapitre se termine par une discussion à propos de la qualité des études d’évaluation cherchant à évaluer l’utilité diagnostique.

Fiabilité

Pour qu’un test clinique donne une information utilisable pour guider une décision thérapeutique, il doit être fiable. La fiabilité est le degré de confiance avec laquelle une méthode ou une échelle mesure un signe particulier [5]. Quand on quantifie la fiabilité d’une mesure, on détermine dans cette mesure la proportion de ce qui est une représentation de la réalité par rapport à un résultat dû à une mesure fausse [6]. Les mesures peuvent être affectées par des erreurs aléatoires, lesquelles sont des déviations de la mesure vraie dues au hasard.

Quand le processus du bilan clinique est discutable, deux sortes de fiabilité doivent être envisagées : fiabilité intra-examinateur et inter-examinateur. La fiabilité intra-examinateur est la mesure de la capacité d’un unique évaluateur d’obtenir un résultat identique à la suite d’utilisations successives d’un même test. La fiabilité inter-examinateur est la mesure de la capacité de deux ou plusieurs évaluateurs d’obtenir des résultats identiques pour un même test.

Le coefficient kappa (κ) est une mesure de la proportion entre un accord ou un rejet des résultats, une fois le facteur hasard enlevé [1, 5, 7]. C’est le facteur de fiabilité le plus souvent utilisé pour les données en échelles (positives ou négatives) [5]. Le coefficient de corrélation habituellement utilisé pour déterminer la fiabilité de données qui sont continues dans la nature (par exemple les amplitudes articulaires) est le coefficient de corrélation intraclasse (CCI ) [7] (tableau 1-1). Bien que l’interprétation de la fiabilité puisse varier, les coefficients sont souvent évalués par le critère décrit par Shrout [8], avec des valeurs inférieures à 0,10 indiquant pas de fiabilité, des valeurs entre 0,11 et 0,40 indiquant une faible fiabilité, des valeurs entre 0,61 et 0,80 montrant une fiabilité modérée, tandis que les valeurs supérieures à 0,81 indiquent une forte fiabilité².

Tableau 1-1 Utilisation du coefficient kappa et coefficient de corrélation intraclasse (CCI)

CCI ou κ	Interprétation
0,81–1,0	Fiabilité forte
0,61–0,80	Fiabilité modérée
0,41–0,60	Fiabilité passable
0,11–0,40	Fiabilité faible
0,0–0,10	Fiabilité nulle

Le niveau de « fiabilité acceptable » doit être décidé par le praticien qui utilise tel ou tel test spécifique ou telle ou telle mesure représentative [9]. Ce niveau doit être choisi en fonction de la variable testée, selon l’importance du test en question et selon qui utilise ce test [6]. Par exemple, 5 % d’erreur sur une mesure peut être parfaitement acceptable quand on mesure une amplitude articulaire, mais n’est pas acceptable quand on mesure la température centrale en pédiatrie.

Précision du diagnostic

En pratique clinique, les tests et les mesures ne peuvent jamais confirmer ou infirmer totalement la présence d’un trouble spécifique [10]. Cependant, les tests cliniques peuvent être utilisés pour modifier l’idée du clinicien sur la pathologie musculosquelettique du patient. La précision d’un test est évaluée en déterminant le degré d’accord entre le test clinique et une référence standard [11, 12]. Une référence standard est un critère considéré comme représentant la plus grande chance possible de pouvoir dire avec certitude que la pathologie est bien présente [1]. Les résultats obtenus avec cette référence standard sont comparés avec ceux obtenus par le test en question. De cette manière, le pourcentage de sujets correctement diagnostiqués, appelé la précision du diagnostic, peut être déterminé [13]. Puisque les statistiques relatives à l’utilité diagnostique sont totalement dépendantes de la référence standard et de la population étudiée, nous les avons listées dans le texte pour fournir des informations permettant de choisir à bon escient tel ou tel test ou mesure.

La précision du diagnostic est souvent exprimée en termes de valeurs prédictives positives ou négatives (VPP ou VPN), de sensibilité et de spécificité, ou bien encore d’un ratio de vraisemblance (RV) [1, 14].

Table d’éventualité 2 × 2

Pour déterminer l’utilité d’un test ou d’une mesure, les résultats issus de la référence standard sont comparés avec ceux issus du test évalué, en utilisant une table d’éventualité 2 × 2. Celle-ci fournit une comparaison directe entre la référence standard et le test évalué [15]. Cela permet d’établir les valeurs associées à la précision du diagnostic de façon à aider le praticien à choisir le test approprié (tableau 1-2).

Tableau 1-2 Table d’éventualité 2 × 2 utilisée pour comparer les résultats d’une référence standard avec ceux d’un test étudié.

	Référence standard – Résultats positifs	Référence standard – Résultats négatifs
Test de diagnostic, résultats positifs	Résultats vrais positifs a	Résultats faux positifs b
Test de diagnostic, résultats négatifs	Résultats faux négatifs c	Résultats vrais négatifs d

Une table d’éventualité 2 × 2 est divisée en quatre cellules (a, b, c et d). Cette division permet de déterminer la possibilité du test de diagnostic d’identifier correctement les résultats vrais positifs (cellule a) et les résultats vrais négatifs (cellule d). La cellule b montre les résultats faux positifs, c’est-à-dire les résultats positifs pour le test de diagnostic et négatifs pour la référence standard. La cellule c montre les résultats faux négatifs, dans laquelle le test de diagnostic se révèle faux alors que la référence standard donne un résultat positif.

Dès qu’une étude, menée pour connaître l’utilité diagnostique d’un test clinique, est achevée et qu’une comparaison avec une référence standard a été menée dans une table d’éventualité 2 × 2, on peut évaluer l’utilité clinique sous la forme de : précision totale, VPP, VPN ainsi que la sensibilité et la spécificité associées aux RV. Ces statistiques sont utiles au clinicien pour déterminer si un test diagnostique est utile pour retenir ou écarter un symptôme quelconque.

Précision totale

La précision totale d’un test est obtenue en divisant les réponses correctes (vrais positifs et vrais négatifs) par le nombre total de patient [16]. L’utilisation d’une table d’éventualité 2 × 2 nécessite l’utilisation de l’équation suivante :

Un test parfait donnerait une précision totale de 100 %. Cela est impossible puisque aucun test clinique n’est parfait et tous possèdent au moins un petit degré d’incertitude. La précision d’un test de diagnostic ne doit pas être utilisée pour s’assurer de l’utilité clinique de ce test parce que la précision totale peut être trompeuse. La précision d’un test peut être significativement influencée par la prévalence totale d’une pathologie pour une population à un instant donné [5, 6].

Valeurs prédictives positives ou négatives (VPP ou VPN)

Les valeurs prédictives positives permettent d’estimer la vraisemblance qu’un patient ayant un résultat positif ait la pathologie [5, 6, 17]. Les VPP ou VPN sont calculées horizontalement dans une table d’éventualité 2 × 2 (tableau 1-3). Elles indiquent le nombre de patients correctement identifiés comme ayant la pathologie (vrais positifs) divisé par la somme des résultats positifs donnés par le test en évaluation. Une valeur élevée de cette VPP indique qu’un résultat positif donne l’assurance d’une forte prédiction que ce patient soit porteur de la pathologie [5, 6]. La formule pour calculer la VPP est la suivante :

Tableau 1-3 Table d’éventualité 2 × 2 montrant les calculs des valeurs prédictives positives et négatives (horizontalement) et les sensibilité et spécificité (verticalement)

La valeur prédictive négative (VPN) estime la vraisemblance qu’un patient avec un résultat négatif n’ait pas la pathologie [5,6]. La VPN est aussi calculée horizontalement dans la table d’éventualité 2 × 2 (voir tableau 1–3). Elle se calcule comme le nombre de patients correctement identifiés comme n’ayant pas la pathologie (vrais négatifs) divisés par tous les résultats négatifs du test en évaluation [11]. La formule pour calculer la VPN est la suivante :