Chapitre 2 Recherche, identification et analyse des articles consacrés à l’utilité diagnostique des tests et mesures cliniques
Introduction
La sélection des meilleurs tests et protocoles de mesures, basés sur les niveaux de preuves et à utiliser dans un examen et/ou un bilan clinique peut être décourageante.
Toutefois, l’utilité diagnostique de chaque test ou protocole doit être envisagée avant toute utilisation en pratique clinique [1,2].
La recherche bibliographique
Medline
Medline est la base de données la plus largement utilisée. Elle contient plus de 7 millions de références et liste plus de 3 500 journaux. Elle est indexée par la US National Library of Medecine grâce au vocabulaire publié dans Medical Subject Headings (MeSH) [3].
Le MeSH est un vocabulaire spécialisé en médecine, désignant les concepts majeurs inclus dans la base de données [4]. Toute nouvelle entrée dans la base de données est indexée au moyen du MeSH, lequel répartit la nouvelle entrée dans de plus petites bases de données, à l’intérieur de Medline, accompagnée de descriptions courtes et spécifiques.
Une demande Medline doit être faite au moyen des termes MeSH appropriés ou bien par mots-clés.
EMBASE
EMBASE est une base de données bibliographique produite par Elsevier Science. EMBASE indexe plus de 3 800 journaux et est considérée comme l’une des plus importantes bases de données. Son principal avantage par rapport à Medline est la plus grande présence de journaux européens [5]. Les moyens de recherche sur EMBASE sont similaires à ceux recommandés pour Medline [5].
Index cumulatif en sciences de l’infirmière et sciences de la santé (CINAHL)
L’index cumulatif en sciences de l’infirmière et sciences de la santé (CINAHL) a été mis en place à partir de 1956 spécialement pour les acteurs du monde de la santé autres que les médecins [6]. La base de données inclut 950 journaux et publications, mais aussi des livres [6]. La recherche dans cette base de données se fait par mots-clés.
L’efficacité des recherches dans les bases de données
La notion de reconnaissance est le pourcentage d’articles identifiés avec précision au moyen de mots-clés, comparé au nombre d’articles se référant aux mêmes mots-clés et contenus dans la base de données [4]. La formule pour évaluer le taux de reconnaissance est la suivante :
Le taux de reconnaissance peut être considéré comme la sensibilité de la recherche. C’est-à-dire que le taux de reconnaissance décrit la capacité d’une stratégie particulière de recherche à sélectionner les articles appropriés par rapport à ceux disponibles [4]. Ce taux de reconnaissance est important pour ceux qui veulent identifier avec pertinence des articles spécifiques sans perdre de temps à passer en revue de trop nombreux résumés [8].
La précision d’une recherche fait référence au pourcentage d’articles ciblant avec précision la recherche parmi ceux détectés [4]. La précision peut être comparée à une notion de valeur prédictive positive : parmi tous les articles identifiés comme pertinents (positif) par le moteur de recherche, quel pourcentage est ce jour-là pertinent (c’est-à-dire se référant ce jour-là à la pathologie incriminée) [3] ? La précision est le plus souvent d’une très grande importance pour les chercheurs qui mènent une revue de la littérature exhaustive. Elle peut être évaluée au moyen de la formule suivante :
À l’occasion d’une recherche sur Medline d’articles se référant à l’utilité diagnostique, la recherche la plus efficace nécessite les mots-clés suivants : sensitivity, specificity, false-negative et accuracy [9]. Une telle méthode de recherche montre un taux de reconnaissance de 80 % et une précision de 48 % [9].
Le « nombre de lectures nécessaires » (NLN) est un indicateur du nombre de citations ou de résumés qu’il est nécessaire de lire avant qu’un article pertinent soit identifié [10]. On calcule ce nombre en divisant 1 par la précision.
Les cliniciens peuvent trouver impressionnant qu’une recherche bien menée sur EMBASE ait un résultat de NLN de 27 avec des limites d’intervalle de confiance à 95 %, comprises entre 21 et 34,8 [10].
Analyse critique
Une fois que les articles les plus pertinents ont été détectés, l’étape suivante est l’analyse critique de leur contenu en terme de rigueur méthodologique. Il a été relevé que les qualités méthodologiques des études menées pour l’investigation de l’utilité diagnostique d’un examen clinique sont inférieures à celles menées pour l’efficacité des traitements [11,12].
Les études possédant une faille méthodologique et concluant malgré tout à l’efficacité d’une technique peuvent, malheureusement, conduire à rejeter prématurément cette technique, la rangeant dans la catégorie des techniques inefficaces. Il pourrait en résul ter un diagnostic imprécis et une pauvreté dans le choix des techniques de rééduca tion. À l’opposé, la connaissance et l’utilisation rigoureuse de tests cliniques d’évaluation doivent améliorer la prise en charge des patients et les résultats finals.
Un groupe scientifique, provenant de différentes disciplines, a récemment formé un « Comité de direction pour une diffusion standardisée de diagnostics précis (DSDP) ». Le but est d’améliorer la qualité méthodologique des études menées pour une meilleure précision des diagnostics [13].
Le Comité DSDP se réfère à un test ayant subi un examen scientifique approfondi comme un test « catalogue »1. La précision d’un diagnostic est évaluée (d’après) la concordance entre les résultats de ce test « catalogue » et celle d’une référence standard [13].
Le Comité DSDP a développé une liste de contrôle de 25 éléments à utiliser pour tester la rigueur scientifique d’une étude (tableau 2-1). Cette liste de contrôle a été conçue en rapprochant les résultats d’un grand nombre de recherches, puisées dans la littérature et possédant 33 arrangements méthodologiques de 75 éléments chacun [13,14]. Cette liste de contrôle est divisée selon le découpage habituel des articles : titre, introduction, méthode, résultats et discussion.
Découpage et thème | Numéros des éléments | |
---|---|---|
Titre, résumé, mots clés | 1 | Identifier l’article comme une étude sur la précision du diagnostic (en-tête MeSH recommandés :- « sensitivity et sensibility »). |
Introduction | 2 | Faire état de la problématique de la recherche, telle que l’évaluation de la précision d’un diagnostic ou la comparaison de la précision entre des tests ou bien encore selon différents groupes de participants. |
Méthodes | ||
Population | 3 | Description de la population étudiée : les critères d’inclusion et d’exclusion, lieux et endroits où les données ont été recueillies. |
4 | Description du mode de recrutement de la population : le recrutement était-il basé sur des symptômes, sur des résultats à des précédents tests ou sur le fait que les participants sont conformes au test « catalogue » ou à la référence standard ? | |
5 | Description de l’échantillon de population : la population étudiée est-elle formée de séries contiguës définies par les éléments 3 et 4 ? Si non, le mode de sélection ultérieur des participants doit être expliqué. | |
6 | Description de la collecte des données : la collecte des données était-elle planifiée avant le test« catalogue » et le test standard (étude prospective) ou bien après (étude rétrospective) ? | |
Méthodes utilisées | 7 | Description de la référence standard et sa logique. |
8 | Descriptions des spécifications techniques du matériel et des méthodes utilisé(e)s, incluant comment et quand les mesures ont été faites, et/ou citer les références des tests « catalogue » et de la référence standard. | |
9 | Description de la définition et de la logique pour le choix des unités, les limites et/ou les catégories de résultats des tests « catalogue » et de la référence standard. | |
10 | Description du nombre, de l’entraînement et des connaissances des personnes qui exécutent et lisent les tests « catalogue » et le référence standard. | |
11 | Description si oui ou non les lecteurs des tests « catalogue » et de la référence standard sont aveugles (masqués) aux résultats des autres tests et donner toute autre information clinique disponible pour le lecteur. | |
Méthodes statistiques | 12 | Description des méthodes de calcul ou de comparaison des mesures de précision diagnostique et des méthodes statistiques pour quantifier les incertitudes (par ex. : un intervalle de confiance de 95 %). |
13 | Description de la méthode pour calculer la reproductibilité du test si celui-ci est fait. | |
Résultats | ||
Population | 14 | Faire état de la date de l’étude, incluant les dates de début et de fin de la période de recrutement de la population. |
15 | Faire état des caractéristiques cliniques et démographiques des participants (par ex. : âge, sexe, différents niveaux de symptômes, facteurs de comorbidité, traitements suivis et les lieux de recrutements. | |
16 | Faire état du nombre de participants satisfaisant les critères d’inclusion et qui ont ou qui n’ont pas subi les tests « catalogue » et/ou la référence standard ; décrire pourquoi certains participants n’ont pas pu participer à ces tests (un organigramme est fortement recommandé). | |
Résultats des tests | 17 | Faire état de l’intervalle temps entre les tests « catalogue » et la référence standard, ainsi que tout traitement fait entre. |
18 | Faire état de la répartition et de la sévérité des maladies (définir les critères) incluses dans les conditions cible (critères d’inclusion) ainsi que celles externes aux conditions cible (maladies présentes mais en dehors des critères d’exclusion). | |
19 | Faire état d’une tabulation croisée des tests « catalogue » (incluant les résultats manquants ou indéterminés) par ceux de la référence standard ; pour les résultats continus, la distribution des résultats comparés à ceux de la référence standard. | |
20 | Faire état de n’importe quel événement contraire en conduisant les tests « catalogue » et la référence standard. | |
Estimations | 21 | Faire état des estimations de précision du diagnostic et des mesures d’incertitude statistique (par ex. : un intervalle de confiance de 95 %). |
22 | Faire état de la manière dont les résultats indéterminés, les réponses manquantes hors champs des tests « catalogue » ont été traités. | |
23 | Faire état de l’estimation de la variabilité de la précision du diagnostic entre les sous-groupes de participants, les lecteurs des résultats et les centres où sont les patients (si cela a été fait). | |
24 | Faire état de l’estimation de la reproductibilité du test, si cela a été fait. | |
DISCUSSION | 25 | Discuter de l’applicabilité clinique des résultats de l’étude. |
Reproduit avec l’aimable autorisation de Bossuyt P, Reitsma JB, Bruns DE, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Clin Chem. 2003 ;49:1-6.
Titre/résumé/mots-clés
Le Comité DSDP a recommandé que les articles se rapportant à l’utilité diagnostique des tests prévus pour les examens cliniques fassent état des mots « sensibilité » et « spécificité » dans leurs titres, résumés et mots-clés [13,14]. Les recherches bibliographiques montrent que les articles utilisant ces deux termes ne forment que 51 % de l’ensemble. Les recherches portant sur les articles utilisant soit la sensibilité soit la spécificité sont respectivement au nombre de 41 % et de 35 % de l’ensemble. Tout cela indique que les études ont dans l’ensemble insuffisamment utilisé ces deux concepts [9].
L’utilisation systématique de ces deux concepts dans les titres des articles devrait augmenter l’efficacité des stratégies de recherche bibliographique, rendant plus aisée pour le clinicien la localisation des tests et mesures, à utilité diagnostique et spécifiquement basés sur les niveaux de preuves.