Article

Évaluation de la qualité assistée par l’IA dans HEOR : Qu’est-ce qui fonctionne, qu’est-ce qui ne fonctionne pas et comment appliquer GenAI de manière responsable

Maria Arregui, PhD
Erika Wissinger
Evelyn Gomez-Espinosa, PhD
Maria Koufopoulou, MSc

Les évaluations de la qualité et les contrôles de conformité PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analysis) sont essentiels pour une synthèse crédible des données probantes dans la recherche sur l’économie de la santé et les résultats (HEOR), mais ils prennent également beaucoup de temps. À travers trois études de cas internes, nous avons exploré où un chatbot d’intelligence artificielle générative (GenAI) à système fermé peut véritablement ajouter de la valeur, et où le jugement humain d’expert fait toujours la différence.

Pourquoi cette question est-elle importante maintenant ?

Les revues systématiques de la littérature (SLR) sont au cœur de l’évaluation des technologies de la santé (ETS) et de l’HEOR. Ils éclairent les décisions de remboursement, façonnent les orientations cliniques et politiques et sous-tendent les récits de valeur sur les marchés. Pourtant, la crédibilité d’un reflex numérique ne dépend pas seulement d’une recherche exhaustive : elle repose sur des rapports transparents et une évaluation rigoureuse de la qualité des preuves sous-jacentes.

Cet accent mis sur la qualité des données probantes se reflète de plus en plus dans les cadres réglementaires d’ETS. En vertu du règlement ETS de l’UE, les évaluations cliniques conjointes (JCA) sont explicitement requises pour évaluer la validité, les forces, les limites et les incertitudes de la base de preuves cliniques. Les récentes directives méthodologiques de la JCA formalisent les attentes concernant l’évaluation de la validité interne et externe des plans d’études cliniques, soulignant qu’une évaluation rigoureuse est essentielle à l’évaluation clinique comparative au niveau européen.

Les tâches d’assurance qualité telles que le contrôle de la conformité PRISMA et l’évaluation structurée de la qualité des études sont donc essentielles. En même temps, ils demandent beaucoup de main-d’œuvre. À mesure que les ensembles de données probantes s’agrandissent et que les délais d’ETS se raccourcissent, les équipes HEOR sont de plus en plus mises au défi d’en faire plus, plus rapidement, sans compromettre la rigueur.

GenAI est entré dans cette conversation avec un élan considérable. Les organismes politiques et méthodologiques ont commencé à reconnaître son potentiel pour soutenir la synthèse des données probantes, tout en soulignant la nécessité d’une adoption prudente, transparente et bien gérée. La question n’est plus de savoir si GenAI pourrait être utilisé dans HEOR, mais comment et où il devrait être utilisé de manière responsable.

Ce que nous avons entrepris d’apprendre

Plutôt que de nous demander si GenAI pourrait remplacer les examinateurs experts, nous nous sommes concentrés sur une question plus pratique : Un chatbot GenAI à système fermé peut-il prendre en charge de manière fiable des tâches structurées, basées sur des listes de contrôle et l’évaluation de la qualité au niveau de l’étude, et dans quelles conditions est-il insuffisant ?

Pour répondre à cette question, nous avons mené trois évaluations internes, chacune portant sur une activité d’assurance qualité de base couramment requise dans HEOR :

Vérification de la conformité PRISMA 2020 pour les reflex publiés
Évaluation de la qualité de l’étude sur plusieurs plans d’étude au sein d’un SLR
Évaluation de la qualité des évaluations économiques à l’aide de la liste de contrôle Drummond

Les trois études ont utilisé les mêmes principes fondamentaux : un environnement interne sécurisé, des invites standardisées alignées sur les outils établis et une comparaison directe avec des examinateurs humains formés.

Une approche commune et gouvernée

Au fil des évaluations, le chatbot GenAI a été déployé de manière délibérément contrainte. Les publications ont été téléchargées individuellement, les invites ont été explicitement mises en correspondance avec les éléments de la liste de contrôle et les résultats devaient inclure à la fois un jugement catégorique et un texte d’appui textuel du document source.

Les évaluations humaines ont servi de norme de référence et ont fait l’objet d’une deuxième validation par un deuxième examinateur. Cette conception nous a permis d’évaluer non seulement les taux d’accord, mais aussi les raisons pour lesquelles des désaccords se produisaient.

Étude de cas 1 : Liste de contrôle PRISMA 2020

Dans la première évaluation, six reflex publiés ont été évalués par rapport à PRISMA 2020 à l’aide de 42 questions dérivées de la liste de contrôle. Dans l’ensemble, le chatbot GenAI a obtenu 93 % d’accord total avec les évaluateurs humains.

Comme prévu, les performances ont été les plus fortes dans les domaines caractérisés par des rapports standardisés et explicites. Les éléments liés au titre, au résumé, à l’introduction et à d’autres informations ont montré un alignement complet entre l’examen humain et l’examen par chatbot. En revanche, les divergences se sont regroupées dans des domaines qui mettent régulièrement au défi les examinateurs humains, en particulier les éléments de discussion interprétatifs.

Les résultats suggèrent que GenAI est particulièrement efficace pour identifier et organiser les informations explicitement rapportées, ce qui en fait un outil précieux pour les vérifications initiales de PRISMA. Cependant, lorsque l’interprétation est nécessaire, la surveillance humaine continue de jouer un rôle important.

Étude de cas 2 : Évaluation de la qualité des études

La deuxième évaluation a étendu cette question à l’évaluation de la qualité dans des plans d’étude hétérogènes. Au total, 28 études ont été évaluées : 6 essais contrôlés randomisés (ECR), 4 études de cohorte prospectives et 18 études de cohorte rétrospectives. À l’aide d’outils appropriés à la conception (c.-à-d. RoB 1, échelle de Newcastle-Ottawa et liste de contrôle mère, respectivement), l’accord entre GenAI et les évaluateurs humains était remarquablement cohérent, allant de 81 % à 83 %.

Les désaccords suivaient des schémas récurrents. La dissimulation de l’assignation dans les ECR, la fiabilité des sources de données dans les études rétrospectives et la comparabilité des cohortes dans les études observationnelles prospectives se sont toutes avérées difficiles, en particulier lorsque la déclaration était incomplète.

Notamment, les performances GenAI ont diminué dans les études de moindre qualité. Bien que le chatbot ait extrait de manière fiable les informations rapportées, il a lutté contre l’absence de preuves, une nuance que les examinateurs humains peuvent interpréter en utilisant le contexte méthodologique et l’expérience.

Étude de cas 3 : Évaluations économiques

La troisième évaluation a examiné l’évaluation de la qualité des évaluations économiques assistée par GenAI à l’aide de la liste de contrôle de Drummond. Dans huit études, la concordance variait de 65,7 % à 100 %, avec une médiane de 94,3 %.

Lorsque des divergences survenaient, elles étaient à nouveau liées à des rapports ambigus ou incomplets. Une tendance récurrente a montré une tendance aux jugements optimistes, le chatbot GenAI attribuant parfois un « Oui » lorsque les évaluateurs humains jugeaient que les critères n’étaient pas remplis.

Ce que ces études de cas nous disent

Considérées ensemble, ces évaluations mettent en évidence plusieurs leçons pour la pratique HEOR.

Tout d’abord, une concordance élevée est réalisable lorsque GenAI est appliqué à des tâches bien définies et basées sur des listes de contrôle à l’aide d’invites soigneusement conçues. Deuxièmement, GenAI a le plus de mal aux mêmes endroits que les humains, lorsque les rapports ne sont pas clairs, incomplets ou nécessitent une interprétation contextuelle.

Troisièmement, la qualité des rapports fixe le plafond de l’automatisation. De meilleurs rapports permettent une meilleure assurance qualité, qu’elle soit menée par des humains ou par l’IA.

Ces résultats plaident contre le fait de considérer GenAI comme un remplacement des examinateurs experts. Au lieu de cela, sa valeur réside dans le fait d’agir comme un deuxième examinateur ou accélérateur : standardiser les résultats, faire apparaître efficacement le texte de soutien et libérer l’expertise humaine pour les jugements qui l’exigent vraiment.

Réflexions finales

Dans trois cas d’utilisation distincts mais liés, un chatbot GenAI à système fermé a démontré un potentiel évident pour accélérer l’assurance qualité dans HEOR sans nuire à la rigueur, à condition qu’il soit déployé de manière réfléchie et dans un cadre gouverné et humain dans la boucle.

Alors que les directives sur l’utilisation responsable de l’IA dans la synthèse des données probantes continuent d’évoluer, ces études de cas offrent une perspective pragmatique : GenAI fonctionne mieux lorsque son rôle est clairement défini, que ses résultats sont transparents et que le jugement des experts reste dans la boucle. Utilisé de cette façon, GenAI peut prendre en charge les normes de preuve qui sont fondamentales pour les études rigoureuses sur l’ETS et l’HEOR.

Note: Sources énumérées ci-dessous

Clause de non responsabilité :
Cet article résume la compréhension du sujet par Cencora sur la base d’informations accessibles au public au moment de la rédaction (voir les sources énumérées) et de l’expertise des auteurs dans ce domaine. Les recommandations formulées dans l’article peuvent ne pas s’appliquer à toutes les situations et ne constituent pas des conseils juridiques. Les lecteurs ne doivent pas se fier à l’article pour prendre des décisions liées aux sujets abordés.

Entrez en contact avec notre équipe

Notre équipe d’experts en valeur de premier plan se consacre à la transformation des données probantes, des informations sur les politiques et des renseignements sur le marché en stratégies efficaces d’accès au marché mondial. Laissez-nous vous aider à naviguer en toute confiance dans les méandres complexes des soins de santé d’aujourd’hui. N’hésitez pas à nous contacter pour découvrir comment nous pouvons vous aider à atteindre vos objectifs.

Nous contacter

Sources

Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Évaluation de la performance d’un outil alimenté par l’intelligence artificielle pour évaluer les revues systématiques de la littérature à l’aide de la liste de contrôle des éléments de rapport préférés pour les revues systématiques et les méta-analyses 2020. Valorisez la santé. Sous presse. 2026.
Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Tirer parti de l’intelligence artificielle pour rationaliser l’évaluation de la qualité des études dans les revues systématiques de la littérature. Valorisez la santé. 2025; 28(6 suppl 1) :S400. doi :10.1016/j.jval.2025.04.1783
Arregui M, Koufopoulou M. EE446 : Évaluation de la performance d’un outil alimenté par l’intelligence artificielle pour évaluer la qualité des évaluations économiques publiées : une comparaison avec des évaluateurs humains à l’aide de la liste de contrôle Drummond. Valorisez la santé. 2025; 28(12 suppl. 1) :S194. doi :10.1016/j.jval.2025.09.829
Cochrane ; Guidelines International Network ; Campbell Collaboration. AUGMENTER : Utilisation responsable de l’IA dans la synthèse des preuves. Publié en 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis
Drummond MF, Sculpher MJ, Torrance GW, O’Brien BJ, Stoddart GL. Méthodes d’évaluation économique des programmes de soins de santé. Oxford University Press ; 2005.
Commission européenne ; Direction générale de la santé et de la sécurité alimentaire. Lignes directrices sur la validité des études cliniques pour les évaluations cliniques conjointes. Adoptée le 4 juillet 2024. Consulté le 18 mai 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
Higgins JPT, Altman DG, Gøtzsche PC, et al. L’outil de la Collaboration Cochrane pour évaluer le risque de biais dans les essais randomisés. BMJ. 2011; 343 :d5928.
Motheral B, Brooks J, Clark MA, et al. Liste de contrôle pour les études rétrospectives de bases de données. Valorisez la santé. 2003; 6(2):90-97.
Institut national pour l’excellence de la santé et des soins. Utilisation de l’IA dans la génération de données probantes : Énoncé de position NICE. Publié en 2024. Consulté le 18 mai 2026. https://www.nice.org.uk/corporate/ecd11
Page MJ, McKenzie JE, Bossuyt PM, et al. La déclaration PRISMA 2020. BMJ. 2021; 372 :n71.
Wells GA, Shea B, O’Connell D, et al. L’échelle de Newcastle-Ottawa (ENS) pour évaluer la qualité des études non randomisées dans les méta-analyses. Publié en 2014.
Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360 : Une évaluation comparative des exigences SLR pour l’ETS. Valorisez la santé. 2023; 26(12) :S389 et S390.

Ressources connexes

Bulletin d’information

HTA Quarterly Été 2026

Article

Au-delà des résultats directs en matière de santé : L’impact sociétal plus large des traitements innovants

Article

Beyond public dashboards: Leveraging Germany’s National Cancer Registry for pharmaceutical research – Insights from a ZfKD Research Initiative