Chapitre 1 Fiabilité et utilité diagnostique de l’examen clinique en orthopédie
Introduction
À l’heure actuelle, les sciences et professions médicales mènent une révolution raisonnée vers la pratique basée sur les niveaux de preuve, définis comme la combinaison de la meilleure recherche de preuves disponible avec l’expérience clinique au service des patients [1, 2].
La preuve doit être incorporée dans tous les aspects de la kinésithérapie, du patient hospitalisé à la clientèle de cabinet, incluant l’examen, le bilan, le diagnostic, le pronostic et le traitement. Il se peut que la partie la plus importante soit un bilan à la fois rapide et prudent pouvant mener à un diagnostic précis, à un plan de traitement efficace et à un pronostic fiable. En conséquence, on ne doit pas sous-estimer l’importance d’incorporer la preuve de la pertinence des tests cliniques et des mesures, de façon à mettre en évidence les patients porteurs de tels ou tels désordres musculosquelettiques [1, 2].
Le clinicien doit déterminer la probabilité initiale (avant toute évaluation mais éventuellement après diagnostic médical) que le patient ait tel ou tel problème. Comme suite à cette information, le clinicien choisit les tests et mesures appropriés qui l’aideront à déterminer la probabilité finale (après évaluation) que le patient ait ce problème-là. Le degré de certitude doit être suffisant pour que le traitement puisse commencer (idée de seuil de certitude à partir duquel le traitement peut être entrepris). Le but des tests cliniques n’est pas d’arriver à une certitude de diagnostic mais plutôt de réduire le degré d’incertitude jusqu’à ce que le seuil de certitude du traitement soit atteint [2].
Historiquement, les manuels consacrés aux bilans en kinésithérapie et médecine physique ont ignoré l’idée de précision du diagnostic pour simplement lister de nombreux tests. Ceci impliquait qu’un résultat positif indiquait que le patient avait la pathologie pressentie sans précision sur l’utilisation de tests spécifiques. Beaucoup de ces tests, soit disant efficaces, montraient une si pauvre précision que seulement 50 % des patients qui présentaient un résultat positif avaient effectivement la pathologie concernée. Ces résultats exagérés, issus de tests cliniques pas assez discriminants, pouvaient entraîner le praticien dans des traitements erronés [3].
Avec la description d’un nombre de tests et de mesures toujours croissant, il devient essentiel que les propriétés des tests servant au diagnostic soient complètement évaluées avant d’être incorporées à la pratique clinique [4].
Cependant, le volume de la bibliographie rend difficile, pour le praticien surchargé, de lire et d’analyser tout ce qui est nécessaire pour guider un bilan clinique. Une récente étude [5] a montré que parmi un échantillon d’environ 500 praticiens, 90 % acquiesçaient fortement à l’idée que le concept « niveau de preuve » devenait nécessaire pour un travail efficace, 79 % acquiesçaient fortement à l’idée que ce concept améliorait la qualité des soins et 72 % croyaient que celui-ci les aidait valablement dans leur prise de décision.
La principale barrière à l’intégration de la pratique basée sur les niveaux de preuve est le temps disponible, insuffisant pour localiser l’information et accéder aux niveaux de preuve [6, 7].
Un test est considéré comme précis s’il présente la possibilité de distinguer les patients ayant une pathologie des autres [8].
L’évaluation scientifique de l’utilité clinique des tests et mesures en bilan massokinésithérapique nécessite la comparaison des résultats avec des références indiscutables1comme des radiographies (lesquelles représentent la mesure la plus proche de la réalité).
Le chapitre 2 s’intéressera à la formation du lecteur dans l’acquisition des compétences nécessaires pour une lecture critique des articles investiguant l’utilité diagnostique des tests.
Probabilité du signe préliminaire et probabilité finale
La probabilité du signe préliminaire2 mesure la vraisemblance qu’un patient montre un signe pathognomonique d’une pathologie quelconque avant que le bilan clinique ne soit fait.
Toutefois, dans certaines circonstances quand le taux de prévalence est inconnu, la probabilité du signe préliminaire est basée sur une combinaison de l’interrogatoire du patient, de la catamnèse (résultats des bilans précédents) et de l’expérience clinique du praticien [9]. La détermination de la probabilité du signe préliminaire est la première étape dans le processus de prise de décision pour les cliniciens. La probabilité du signe préliminaire est une estimation par le praticien pouvant être exprimée par un pourcentage (70 %, 80 %) ou bien par une mesure qualitative (« probable » ou « tout à fait probable ») [9, 10].
La probabilité finale mesure la vraisemblance qu’un patient montre un signe pathognomonique d’une pathologie quelconque comme résultat final du bilan clinique.
Fiabilité
Pour qu’un test clinique donne une information utilisable pour guider une décision thérapeutique, il doit être fiable. La fiabilité est le degré de confiance avec laquelle une méthode ou une échelle mesure un signe particulier [11]. Quand on quantifie la fiabilité d’une mesure, on détermine dans cette mesure, la proportion de ce qui est une représentation de la réalité par rapport à un résultat dû à une mesure fausse [12]. Les mesures peuvent être affectées par des erreurs aléatoires, lesquelles sont des déviations de la mesure vraie dues au hasard [11].
Les erreurs aléatoires peuvent venir des variabilités du patient, des erreurs dues aux instruments ou bien des erreurs de l’opérateur qui effectue la mesure [12].
Les erreurs qui viennent directement du patient mettent en cause des facteurs qui peuvent changer le résultat final sans être en relation directe avec les variables mesurées1 Cela inclut des facteurs tels que le niveau d’activité. Envisageons ce qui pourrait arriver si on mettait en œuvre une recherche sur les étirements des muscles ischiojambiers sur l’extensibilité du genou. Pendant les tests préliminaires, le sujet prend l’ascenseur pour se rendre, au 15e étage, dans le service où les mesures sont prises. Mais, à la deuxième mesure, le sujet monte à pied jusqu’au service. Monter 15 étages à pied ne peut que modifier l’extensibilité du genou.
Les erreurs peuvent être dues aux instruments ou bien dues au protocole clinique suivi. Les tests doivent avoir un protocole parfaitement établi de façon qu’ils puissent être utilisés rigoureusement de la même manière à chaque fois [12]. De plus, les définitions des résultats positifs ou négatifs doivent toujours rester cohérentes. Les résultats d’un test ne peuvent pas être fiables si différentes personnes utilisent des critères différents pour un résultat positif ou négatif.
Calculs statistiques
Les échelles nominales forment un simple groupement de données dans lesquelles aucune donnée n’a une valeur supérieure à une autre. À titre d’exemple, un groupe de patients avec des douleurs lombales et radiculaires peut être classé avec le groupe présentant une hernie discale ou celui avec une sténose latérale d’un foramen intervertébral.
Les échelles ordinales sont aussi une classification, mais elles donnent des valeurs hiérarchisées. Toutefois, les niveaux de hiérarchie des données ne sont pas homogènes et l’espace entre les données n’est pas égal. À titre d’exemple, il est meilleur d’avoir un testing musculaire de 5/5 plutôt que 3/5, mais la différence de force entre 5/5 et 3/5 n’est pas forcément la même que celle entre 3/5 et 1/5 (intervalles entre les niveaux non égaux) [12].
Les échelles intervalles donnent une classification dans laquelle les échelons sont égaux, mais sans zéro absolu (i.e. l’absence complète d’une variable). Le premier exemple d’une échelle intervalle serait celle des degrés centigrades, dans laquelle le zéro degré ne signifie pas l’absence de température [12, 13].
Les échelles ratio, par opposition, présentent un ordre, une distance égale entre les variables et un zéro absolu. Un exemple pourrait être l’échelle de température Kelvin dans laquelle le zéro représente l’absence de toute chaleur [13]. Un exemple simple d’échelle ratio en kinésithérapie est la notion de déplacement articulaire dans laquelle le zéro marque l’absence de mouvement [12]. Pour une description plus ample et plus détaillée des échelles de mesure, le lecteur peut se référer à l’ouvrage de Rothstein et Etternach intitulé Primer on Measurement : An Introductory Guide to Measurement Issues [12].
Le coefficient kappa (κ) est une mesure de la proportion entre un accord ou un rejet des résultats, une fois le facteur hasard enlevé 1, 11, 13. C’est le facteur de fiabilité le plus souvent utilisé pour les données en échelles (positives ou négatives) [11].
Dans ce cas de figure, l’examinateur doit aussi analyser les désaccords parce qu’il y a plus de raisons qu’ils existent par rapport à un test dans lequel les résultats sont simplement exprimés sous la forme positive ou négative [14].
Les deux coefficients les plus couramment utilisés sont le coefficient de Pearson et le coefficient de corrélation intraclasse (CCI) [13].
Plus souvent, la technique statistique la plus ciblée est le CCI, lequel est utilisé pour évaluer le degré de variation entre deux mesures ou plus de deux mesures répétées [16]. On peut utiliser de nombreuses formules pour calculer le CCI [16]. Le choix de la formule adéquate dépend du nombre de participants aux tests et de la spécificité des mesures enregistrées.
L’échelle suivante est souvent utilisée pour déterminer la force des différents coefficients (kappa et CCI) quand on évalue la fiabilité : 0,50 représente une fiabilité faible ; de 0,50 à 0,75, la fiabilité est modérée ; plus de 0,75 représente une bonne fiabilité [11].
La « fiabilité acceptable » doit être décidée par le clinicien qui pratique le test ou effectue la mesure [15]. Cela doit être basé sur : quelle variable est évaluée, pourquoi ce test est-il particulièrement important et sur qui ce test est-il utilisé [12].
Quand la force de relation de deux variables est évaluée au moyen du coefficient de Pearson, l’échelle du coefficient varie de −1 à + 1. Une valeur négative indique une relation inverse tandis qu’une valeur positive indique une relation directe et positive, la valeur zéro montre qu’aucune relation n’existe entre les variables [17].
Précision du diagnostic
En pratique clinique, les tests et les mesures ne peuvent jamais confirmer ou infirmer totalement la présence d’un trouble spécifique [18]. Cependant, les tests cliniques peuvent être utilisés pour modifier l’idée du clinicien sur la pathologie musculo-squelettique du patient.
La précision d’un test est évaluée en déterminant le degré d’accord entre le test clinique et une référence standard [10, 19]. Une référence standard est un critère considéré comme représentant la plus grande chance possible de pouvoir dire avec certitude que la pathologie est bien présente [1]. Les résultats obtenus avec cette référence standard sont comparés avec ceux obtenus par le test en question.
De cette manière, le pourcentage de sujets correctement diagnostiqués, appelé la précision du diagnostic peut être déterminé [20]. La précision du diagnostic est souvent exprimée en termes de valeurs prédictives positives ou négatives (VPP ou VPN), de sensibilité et de spécificité ou bien encore d’un ratio de vraisemblance (RV).
Table d’éventualité 2 × 2
Une table d’éventualité 2 × 2 est divisée en quatre cellules (a, b, c et d). Cette division permet de déterminer la possibilité du test de diagnostic d’identifier correctement les résultats vrais positifs (cellule a) et les résultats vrais négatifs (cellule d). La cellule b montre les résultats faux positifs, c’est-à-dire les résultats positifs pour le test de diagnostic et négatifs pour la référence standard. La cellule c montre les résultats faux négatifs, dans laquelle le test de diagnostic se révèle faux alors que la référence standard donne un résultat positif (tableau 1-1).
Référence standard résultats positifs | Référence standard résultats négatifs | |
---|---|---|
Test de diagnostic résultats positifs | Résultats vrais positifs a | Résultats faux positifs b |
Test de diagnostic résultats négatifs | Résultats faux négatifs c | Résultats vrais négatifs d |
Ce qui suit est un exemple fictif sur la façon d’utiliser une table d’éventualité 2 × 2.
Cent patients avec des douleurs du genou et des signes et symptômes évoquant une déchirure du LCA, ont été recrutés pour cette étude. L’arthroscopie a identifié 41 genoux avec rupture du LCA et 59 sans. Les données recueillies avec le test de traction de Palmer sont comparées avec celles obtenues par l’arthroscopie (tableau 1-2).
Arthroscopie résultats positifs (n = 41) | Arthroscopie résultats négatifs (n = 59) | |
---|---|---|
Test de traction de Palmer résultats positifs (n = 39) | 29 a | 10 b |
Test de traction de Palmer résultats négatifs (n = 61) | 12 c | 49 d |