1: Fiabilité et utilité diagnostique de l’examen clinique en orthopédie

Chapitre 1 Fiabilité et utilité diagnostique de l’examen clinique en orthopédie




Introduction


À l’heure actuelle, les sciences et professions médicales mènent une révolution raisonnée vers la pratique basée sur les niveaux de preuve, définis comme la combinaison de la meilleure recherche de preuves disponible avec l’expérience clinique au service des patients [1, 2].


La preuve doit être incorporée dans tous les aspects de la kinésithérapie, du patient hospitalisé à la clientèle de cabinet, incluant l’examen, le bilan, le diagnostic, le pronostic et le traitement. Il se peut que la partie la plus importante soit un bilan à la fois rapide et prudent pouvant mener à un diagnostic précis, à un plan de traitement efficace et à un pronostic fiable. En conséquence, on ne doit pas sous-estimer l’importance d’incorporer la preuve de la pertinence des tests cliniques et des mesures, de façon à mettre en évidence les patients porteurs de tels ou tels désordres musculosquelettiques [1, 2].


Le processus du bilan kinésithérapique impose de recueillir l’histoire du patient, de développer des hypothèses de travail, de choisir des tests et des mesures spécifiques pour confirmer ou infirmer les hypothèses formulées.


Le clinicien doit déterminer la probabilité initiale (avant toute évaluation mais éventuellement après diagnostic médical) que le patient ait tel ou tel problème. Comme suite à cette information, le clinicien choisit les tests et mesures appropriés qui l’aideront à déterminer la probabilité finale (après évaluation) que le patient ait ce problème-là. Le degré de certitude doit être suffisant pour que le traitement puisse commencer (idée de seuil de certitude à partir duquel le traitement peut être entrepris). Le but des tests cliniques n’est pas d’arriver à une certitude de diagnostic mais plutôt de réduire le degré d’incertitude jusqu’à ce que le seuil de certitude du traitement soit atteint [2].


Les concepts de probabilité initiale et finale et de seuil de certitude du traitement seront explicités plus loin dans ce chapitre. Une information valable peut être obtenue à chaque étape du bilan si les tests et mesures sélectionnés montrent leur utilité dans le diagnostic. Les résultats des tests doivent apporter une aide au clinicien pour déterminer la probabilité que le patient ait cette pathologie-là. Comment savoir si un test clinique quelconque donne une information utile ? Cela suppose que l’opérateur comprenne les caractéristiques opérationnelles de chacun des tests et mesures utilisés.


Historiquement, les manuels consacrés aux bilans en kinésithérapie et médecine physique ont ignoré l’idée de précision du diagnostic pour simplement lister de nombreux tests. Ceci impliquait qu’un résultat positif indiquait que le patient avait la pathologie pressentie sans précision sur l’utilisation de tests spécifiques. Beaucoup de ces tests, soit disant efficaces, montraient une si pauvre précision que seulement 50 % des patients qui présentaient un résultat positif avaient effectivement la pathologie concernée. Ces résultats exagérés, issus de tests cliniques pas assez discriminants, pouvaient entraîner le praticien dans des traitements erronés [3].


Avec la description d’un nombre de tests et de mesures toujours croissant, il devient essentiel que les propriétés des tests servant au diagnostic soient complètement évaluées avant d’être incorporées à la pratique clinique [4].


L’intégration du concept du niveau de preuve disponible comme utilitaire de diagnostic dans chaque test clinique est essentielle pour déterminer un diagnostic précis et conduire un traitement adapté et efficace. Il semble, au minimum, nécessaire que les praticiens et les étudiants connaissent les propriétés diagnostiques des tests et mesures et sachent lesquels sont utiles en pratique clinique.


Le but de cet ouvrage est d’aider les praticiens à choisir les tests et mesures de façon à être sûrs de leur diagnostic et de permettre le choix rapide d’un plan de traitement efficace.


Avec un intérêt grandissant pour la pratique fondée sur les niveaux de preuve, les études d’évaluation de la fiabilité et de l’utilité diagnostique deviennent de plus en plus nombreuses.


Cependant, le volume de la bibliographie rend difficile, pour le praticien surchargé, de lire et d’analyser tout ce qui est nécessaire pour guider un bilan clinique. Une récente étude [5] a montré que parmi un échantillon d’environ 500 praticiens, 90 % acquiesçaient fortement à l’idée que le concept « niveau de preuve » devenait nécessaire pour un travail efficace, 79 % acquiesçaient fortement à l’idée que ce concept améliorait la qualité des soins et 72 % croyaient que celui-ci les aidait valablement dans leur prise de décision.


La principale barrière à l’intégration de la pratique basée sur les niveaux de preuve est le temps disponible, insuffisant pour localiser l’information et accéder aux niveaux de preuve [6, 7].


L’évaluation des tests utilisés pour le bilan implique l’examen de plusieurs propriétés, incluant la fiabilité et la précision du bilan.


Un test est considéré comme fiable s’il produit une information reproductible, précise et spécifique.


Un test est considéré comme précis s’il présente la possibilité de distinguer les patients ayant une pathologie des autres [8].


L’évaluation scientifique de l’utilité clinique des tests et mesures en bilan massokinésithérapique nécessite la comparaison des résultats avec des références indiscutables1comme des radiographies (lesquelles représentent la mesure la plus proche de la réalité).


Au moyen des outils statistiques issus du champ de l’épidémiologie, la précision d’un test – c’est-à-dire, sa possibilité de déterminer quel patient présente la dysfonction et quel patient ne la présente pas – est finalement calculée.


Ce premier chapitre met l’accent sur les caractéristiques qui définissent la fiabilité et la précision des tests et mesures spécifiques.


Le chapitre 2 s’intéressera à la formation du lecteur dans l’acquisition des compétences nécessaires pour une lecture critique des articles investiguant l’utilité diagnostique des tests.




Fiabilité


Pour qu’un test clinique donne une information utilisable pour guider une décision thérapeutique, il doit être fiable. La fiabilité est le degré de confiance avec laquelle une méthode ou une échelle mesure un signe particulier [11]. Quand on quantifie la fiabilité d’une mesure, on détermine dans cette mesure, la proportion de ce qui est une représentation de la réalité par rapport à un résultat dû à une mesure fausse [12]. Les mesures peuvent être affectées par des erreurs aléatoires, lesquelles sont des déviations de la mesure vraie dues au hasard [11].


Les erreurs aléatoires peuvent venir des variabilités du patient, des erreurs dues aux instruments ou bien des erreurs de l’opérateur qui effectue la mesure [12].


Les erreurs qui viennent directement du patient mettent en cause des facteurs qui peuvent changer le résultat final sans être en relation directe avec les variables mesurées1 Cela inclut des facteurs tels que le niveau d’activité. Envisageons ce qui pourrait arriver si on mettait en œuvre une recherche sur les étirements des muscles ischiojambiers sur l’extensibilité du genou. Pendant les tests préliminaires, le sujet prend l’ascenseur pour se rendre, au 15e étage, dans le service où les mesures sont prises. Mais, à la deuxième mesure, le sujet monte à pied jusqu’au service. Monter 15 étages à pied ne peut que modifier l’extensibilité du genou.


Les erreurs peuvent être dues aux instruments ou bien dues au protocole clinique suivi. Les tests doivent avoir un protocole parfaitement établi de façon qu’ils puissent être utilisés rigoureusement de la même manière à chaque fois [12]. De plus, les définitions des résultats positifs ou négatifs doivent toujours rester cohérentes. Les résultats d’un test ne peuvent pas être fiables si différentes personnes utilisent des critères différents pour un résultat positif ou négatif.


Le bilan clinique mélange les connaissances et l’habileté psychomotrice du praticien et autorise de nombreuses possibilités d’erreurs dues au clinicien. À titre d’exemple, si un clinicien applique des forces non contrôlées pendant un test de compression cervicale, les mesures peuvent montrer une erreur (pas de symptôme) et le test sera enregistré comme négatif alors que l’utilisation de forces adaptées aurait montré un résultat opposé.


Il est essentiel que les thérapeutes conduisent les tests et les mesures exactement comme les auteurs qui ont validé leurs recherches, le demandent. Ces protocoles ont été construits pour donner un résultat précis et fiable. Si ces protocoles ne sont pas scrupuleusement respectés, des erreurs aléatoires pourraient altérer les résultats énoncés.


Quand le processus du bilan clinique est discutable, deux sortes de fiabilités doivent être envisagées : fiabilité intra-examinateur et inter-examinateur. La fiabilité intraexaminateur est la mesure de la capacité d’un unique évaluateur d’obtenir un résultat identique à la suite d’utilisations successives d’un même test. La fiabilité inter-examinateur est la mesure de la capacité de deux ou plusieurs évaluateurs à obtenir des résultats identiques pour un même test.



Calculs statistiques


Les techniques statistiques sélectionnées pour analyser les données et déterminer la fiabilité d’une mesure sont variables selon le niveau des mesures obtenues depuis un test donné. Les mesures peuvent être divisées en quatre niveaux : échelles nominales, ordinales, intervalles et ratio.


Les échelles nominales forment un simple groupement de données dans lesquelles aucune donnée n’a une valeur supérieure à une autre. À titre d’exemple, un groupe de patients avec des douleurs lombales et radiculaires peut être classé avec le groupe présentant une hernie discale ou celui avec une sténose latérale d’un foramen intervertébral.


Les échelles ordinales sont aussi une classification, mais elles donnent des valeurs hiérarchisées. Toutefois, les niveaux de hiérarchie des données ne sont pas homogènes et l’espace entre les données n’est pas égal. À titre d’exemple, il est meilleur d’avoir un testing musculaire de 5/5 plutôt que 3/5, mais la différence de force entre 5/5 et 3/5 n’est pas forcément la même que celle entre 3/5 et 1/5 (intervalles entre les niveaux non égaux) [12].


Les échelles intervalles donnent une classification dans laquelle les échelons sont égaux, mais sans zéro absolu (i.e. l’absence complète d’une variable). Le premier exemple d’une échelle intervalle serait celle des degrés centigrades, dans laquelle le zéro degré ne signifie pas l’absence de température [12, 13].


Les échelles ratio, par opposition, présentent un ordre, une distance égale entre les variables et un zéro absolu. Un exemple pourrait être l’échelle de température Kelvin dans laquelle le zéro représente l’absence de toute chaleur [13]. Un exemple simple d’échelle ratio en kinésithérapie est la notion de déplacement articulaire dans laquelle le zéro marque l’absence de mouvement [12]. Pour une description plus ample et plus détaillée des échelles de mesure, le lecteur peut se référer à l’ouvrage de Rothstein et Etternach intitulé Primer on Measurement : An Introductory Guide to Measurement Issues [12].


Dans les cas d’échelles nominales ou ordinales, une approbation exprimée en pourcentage est fréquemment utilisée pour calculer le temps d’hésitation que mettent les cliniciens pour accepter les résultats d’un test ou d’une mesure. Cependant, cette approbation ne prend pas en compte le pourcentage d’accord ou de rejet des résultats dus simplement au hasard.


Le coefficient kappa (κ) est une mesure de la proportion entre un accord ou un rejet des résultats, une fois le facteur hasard enlevé 1, 11, 13. C’est le facteur de fiabilité le plus souvent utilisé pour les données en échelles (positives ou négatives) [11].


Une technique statistique connue sous le nom de kappa pondéré est fréquemment utilisée si plus de deux catégories de données sont utilisées, telles que dans un test où les résultats sont exprimés sous la forme de hypomobile, normal et hypermobile.


Dans ce cas de figure, l’examinateur doit aussi analyser les désaccords parce qu’il y a plus de raisons qu’ils existent par rapport à un test dans lequel les résultats sont simplement exprimés sous la forme positive ou négative [14].


On doit prendre garde que le kappa n’est pas une technique statistique parfaite parce que, bien que l’accord observé soit indépendant de la prévalence, l’accord dû au hasard ne l’est pas. D’où, si la prévalence d’une maladie est très haute ou très basse, la valeur du kappa est minorée.


Si les données sont colligées au moyen d’un test ou de mesures utilisant des échelles intervalles ou ratios, on utilise le plus fréquemment des coefficients de corrélation pour déterminer la fiabilité.


Les deux coefficients les plus couramment utilisés sont le coefficient de Pearson et le coefficient de corrélation intraclasse (CCI) [13].


Le coefficient de corrélation de Pearson (r) est préférentiellement utilisé quand l’examinateur essaie de déterminer si un lien existe entre deux mesures.


Plus souvent, la technique statistique la plus ciblée est le CCI, lequel est utilisé pour évaluer le degré de variation entre deux mesures ou plus de deux mesures répétées [16]. On peut utiliser de nombreuses formules pour calculer le CCI [16]. Le choix de la formule adéquate dépend du nombre de participants aux tests et de la spécificité des mesures enregistrées.


L’échelle suivante est souvent utilisée pour déterminer la force des différents coefficients (kappa et CCI) quand on évalue la fiabilité : 0,50 représente une fiabilité faible ; de 0,50 à 0,75, la fiabilité est modérée ; plus de 0,75 représente une bonne fiabilité [11].


La « fiabilité acceptable » doit être décidée par le clinicien qui pratique le test ou effectue la mesure [15]. Cela doit être basé sur : quelle variable est évaluée, pourquoi ce test est-il particulièrement important et sur qui ce test est-il utilisé [12].


Quand la force de relation de deux variables est évaluée au moyen du coefficient de Pearson, l’échelle du coefficient varie de −1 à + 1. Une valeur négative indique une relation inverse tandis qu’une valeur positive indique une relation directe et positive, la valeur zéro montre qu’aucune relation n’existe entre les variables [17].



Précision du diagnostic


Pour un clinicien, de nombreux facteurs déterminent le choix d’un test. Cependant, avant de choisir un test et de le mettre en application en pratique clinique, le clinicien doit acquérir une compréhension des caractéristiques opératoires du test.


Les mesures enregistrées par le test sont-elles commodes à l’usage ? Modifient-elles les probabilités qu’une personne présente une pathologie particulière ?


Le paragraphe suivant décrit la probabilité du signe préliminaire et la probabilité finale, les caractéristiques des différents tests pouvant modifier la probabilité du résultat (que ce soit vers le négatif ou le positif) ainsi que les statistiques épidémiologiques, qui pourraient servir au clinicien à déterminer la grandeur et le sens des modifications de probabilité des résultats d’un test quelconque.


En pratique clinique, les tests et les mesures ne peuvent jamais confirmer ou infirmer totalement la présence d’un trouble spécifique [18]. Cependant, les tests cliniques peuvent être utilisés pour modifier l’idée du clinicien sur la pathologie musculo-squelettique du patient.


La précision d’un test est évaluée en déterminant le degré d’accord entre le test clinique et une référence standard [10, 19]. Une référence standard est un critère considéré comme représentant la plus grande chance possible de pouvoir dire avec certitude que la pathologie est bien présente [1]. Les résultats obtenus avec cette référence standard sont comparés avec ceux obtenus par le test en question.


De cette manière, le pourcentage de sujets correctement diagnostiqués, appelé la précision du diagnostic peut être déterminé [20]. La précision du diagnostic est souvent exprimée en termes de valeurs prédictives positives ou négatives (VPP ou VPN), de sensibilité et de spécificité ou bien encore d’un ratio de vraisemblance (RV).



Table d’éventualité 2 × 2


Pour déterminer l’utilité d’un test ou d’une mesure, les résultats issus de la référence standard sont directement comparés avec ceux issus du test de diagnostic mesuré, en utilisant une table d’éventualité 2 × 2. Cela permet d’établir les valeurs associées à la précision du diagnostic de façon à aider le praticien à choisir le test approprié.


Une table d’éventualité 2 × 2 est divisée en quatre cellules (a, b, c et d). Cette division permet de déterminer la possibilité du test de diagnostic d’identifier correctement les résultats vrais positifs (cellule a) et les résultats vrais négatifs (cellule d). La cellule b montre les résultats faux positifs, c’est-à-dire les résultats positifs pour le test de diagnostic et négatifs pour la référence standard. La cellule c montre les résultats faux négatifs, dans laquelle le test de diagnostic se révèle faux alors que la référence standard donne un résultat positif (tableau 1-1).


Tableau 1-1 : Table d’éventualité 2 × 2 utilisée pour comparer les résultats d’une référence standard avec ceux d’un test étudié.















  Référence standard résultats positifs Référence standard résultats négatifs
Test de diagnostic résultats positifs Résultats vrais positifs
a
Résultats faux positifs
b
Test de diagnostic résultats négatifs Résultats faux négatifs
c
Résultats vrais négatifs
d

Ce qui suit est un exemple fictif sur la façon d’utiliser une table d’éventualité 2 × 2.


Un nouveau test, le test de traction de Palmer, a été présenté comme efficace dans le diagnostic des ruptures du ligament croisé antérieur (LCA). Ce test n’a été soumis qu’à une critique scientifique, par conséquent son efficacité diagnostic est inconnue.


La précision diagnostique peut être évaluée grâce à une comparaison prospective et aveugle entre le test de traction de Palmer et la référence standard – en l’occurrence une exploration arthroscopique.


Cent patients avec des douleurs du genou et des signes et symptômes évoquant une déchirure du LCA, ont été recrutés pour cette étude. L’arthroscopie a identifié 41 genoux avec rupture du LCA et 59 sans. Les données recueillies avec le test de traction de Palmer sont comparées avec celles obtenues par l’arthroscopie (tableau 1-2).


Tableau 1-2 : Comparaison des résultats obtenus par arthroscopie (la référence standard) et le test de traction de Palmer.















  Arthroscopie résultats positifs (n = 41) Arthroscopie résultats négatifs (n = 59)
Test de traction de Palmer résultats positifs (n = 39) 29
a
10
b
Test de traction de Palmer résultats négatifs (n = 61) 12
c
49
d

À ce stade, on en connaît très peu sur la précision diagnostique du test de traction de Palmer, sauf qu’il a permis de détecter précisément 29 cas de rupture du LCA (vrais positifs) et d’éliminer correctement 49 cas de non-rupture du LCA (vrais négatifs). A contrario, le test de traction de Palmer a reconnu incorrectement 10 patients comme ayant une rupture du LCA (faux positifs) et tout aussi incorrectement 12 patients comme n’ayant pas de rupture du LCA (faux négatifs).


Ces constations préliminaires fournissent peu d’indication sur l’utilité de ce test et elles n’aident pas le clinicien à déterminer si ce test doit ou non entrer dans la pratique clinique.


Dès qu’une étude, menée pour connaître l’utilité diagnostique d’un test clinique, est achevée et qu’une comparaison avec une référence standard a été menée dans une table d’éventualité 2 × 2, on peut évaluer l’utilité clinique sous la forme de : précision totale, VPP, VPN ainsi que la sensibilité et la spécificité associées aux RV. Ces statistiques sont utiles au clinicien pour déterminer si un test diagnostique est utile pour retenir ou écarter un symptôme quelconque.

Stay updated, free articles. Join our Telegram channel

Jun 25, 2017 | Posted by in MÉDECINE INTERNE | Comments Off on 1: Fiabilité et utilité diagnostique de l’examen clinique en orthopédie

Full access? Get Clinical Tree

Get Clinical Tree app for offline access