Article
Évaluation de la qualité assistée par l’IA dans HEOR : Ce qui fonctionne, ce qui ne fonctionne pas et comment appliquer GenAI de manière responsable
Les évaluations de la qualité et les vérifications de conformité des éléments de rapport préférés pour les revues systématiques et les méta-analyses (PRISMA) sont essentielles à la synthèse de données probantes crédibles en économie de la santé et en recherche sur les résultats (HEOR), mais elles nécessitent également beaucoup de temps. À travers trois études de cas internes, nous avons exploré les domaines où un agent conversationnel d’intelligence artificielle générative (GenAI) à système fermé peut réellement ajouter de la valeur et où le jugement humain d’experts fait toujours la différence.
Pourquoi cette question est importante maintenant
Les revues systématiques de la littérature (RSL) sont au cœur de l’évaluation des technologies de la santé (ETS) et de l’HEOR. Ils éclairent les décisions de remboursement, façonnent les orientations cliniques et politiques et sous-tendent les récits de valeur sur les marchés. Pourtant, la crédibilité d’un DSL ne se limite pas à une recherche exhaustive : elle repose sur des rapports transparents et une évaluation rigoureuse de la qualité des données probantes sous-jacentes.
L’accent mis sur la qualité des données probantes se reflète de plus en plus dans les cadres réglementaires d’ETS. En vertu du règlement de l’UE sur l’ETS, les évaluations cliniques conjointes (ACJ) sont explicitement requises pour évaluer la validité, les forces, les limites et l’incertitude de la base de données probantes cliniques. Les récentes directives méthodologiques de la JCA formalisent les attentes concernant l’évaluation de la validité interne et externe dans les plans d’études cliniques, soulignant qu’une évaluation rigoureuse est au cœur de l’évaluation clinique comparative au niveau européen.
L’accent mis sur la qualité des données probantes se reflète de plus en plus dans les cadres réglementaires d’ETS. En vertu du règlement de l’UE sur l’ETS, les évaluations cliniques conjointes (ACJ) sont explicitement requises pour évaluer la validité, les forces, les limites et l’incertitude de la base de données probantes cliniques. Les récentes directives méthodologiques de la JCA formalisent les attentes concernant l’évaluation de la validité interne et externe dans les plans d’études cliniques, soulignant qu’une évaluation rigoureuse est au cœur de l’évaluation clinique comparative au niveau européen.
Les tâches d’assurance de la qualité telles que la vérification de la conformité PRISMA et l’évaluation structurée de la qualité des études sont donc essentielles. En même temps, elles nécessitent beaucoup de main-d’œuvre. À mesure que les ensembles de données probantes s’élargissent et que les délais d’ETS se raccourcissent, les équipes d’HEOR sont de plus en plus mises au défi d’en faire plus, plus rapidement, sans compromettre la rigueur.
GenAI a entamé cette conversation avec un élan considérable. Les organismes politiques et méthodologiques ont commencé à reconnaître son potentiel pour soutenir la synthèse des données probantes, tout en soulignant la nécessité d’une adoption prudente, transparente et bien gouvernée. La question n’est plus de savoir si GenAI pourrait être utilisé dans HEOR, mais comment et où il devrait être utilisé de manière responsable.
GenAI a entamé cette conversation avec un élan considérable. Les organismes politiques et méthodologiques ont commencé à reconnaître son potentiel pour soutenir la synthèse des données probantes, tout en soulignant la nécessité d’une adoption prudente, transparente et bien gouvernée. La question n’est plus de savoir si GenAI pourrait être utilisé dans HEOR, mais comment et où il devrait être utilisé de manière responsable.
Ce que nous avons entrepris d’apprendre
Plutôt que de demander si GenAI pourrait remplacer les évaluateurs experts, nous nous sommes concentrés sur une question plus pratique : Un chatbot GenAI à système fermé peut-il prendre en charge de manière fiable des tâches d’évaluation de la qualité (QA) structurées, basées sur des listes de contrôle et au niveau de l’étude, et dans quelles conditions est-il insuffisant?
Pour répondre à cette question, nous avons effectué trois évaluations internes, chacune portant sur une activité d’assurance de la qualité de base couramment requise dans l’HEOR :
Les trois études ont utilisé les mêmes principes fondamentaux : un environnement interne sécurisé, des invites normalisées alignées sur les outils établis et une comparaison directe avec des examinateurs humains formés.
Pour répondre à cette question, nous avons effectué trois évaluations internes, chacune portant sur une activité d’assurance de la qualité de base couramment requise dans l’HEOR :
- Vérification de la conformité PRISMA 2020 pour les reflex publiés
- Évaluation de la qualité de l’étude dans plusieurs modèles d’étude au sein d’un reflex
- Évaluation de la qualité des évaluations économiques à l’aide de la liste de contrôle de Drummond
Les trois études ont utilisé les mêmes principes fondamentaux : un environnement interne sécurisé, des invites normalisées alignées sur les outils établis et une comparaison directe avec des examinateurs humains formés.
Une approche commune et gouvernée
Tout au long des évaluations, le chatbot GenAI a été déployé de manière délibérément contrainte. Les publications ont été téléchargées individuellement, les invites ont été explicitement mises en correspondance avec les éléments de la liste de contrôle et les résultats devaient inclure à la fois un jugement catégorique et un texte textuel à l’appui du document source.
Les évaluations humaines ont servi de norme de référence et ont été soumises à la validation d’un deuxième évaluateur. Cette conception nous a permis d’évaluer non seulement les taux d’entente, mais aussi les raisons des désaccords.
Les évaluations humaines ont servi de norme de référence et ont été soumises à la validation d’un deuxième évaluateur. Cette conception nous a permis d’évaluer non seulement les taux d’entente, mais aussi les raisons des désaccords.
Étude de cas 1 : Liste de vérification PRISMA 2020
Lors de la première évaluation, six reflex publiés ont été évalués par rapport à PRISMA 2020 à l’aide de 42 questions dérivées de listes de contrôle. Dans l’ensemble, le chatbot GenAI a atteint un accord total de 93% avec les examinateurs humains.
Comme prévu, le rendement a été le plus élevé dans les domaines caractérisés par des rapports standardisés et explicites. Les éléments liés au titre, au résumé, à l’introduction et à d’autres renseignements ont montré une harmonie complète entre l’examen humain et l’examen par agent conversationnel. En revanche, les divergences se sont regroupées dans des domaines qui mettent régulièrement à l’épreuve les examinateurs humains, en particulier les points de discussion interprétatifs.
Les résultats suggèrent que GenAI est particulièrement efficace pour identifier et organiser les informations explicitement rapportées, ce qui en fait un outil précieux pour les vérifications initiales de PRISMA. Cependant, lorsque l’interprétation est nécessaire, la surveillance humaine continue de jouer un rôle important.
Comme prévu, le rendement a été le plus élevé dans les domaines caractérisés par des rapports standardisés et explicites. Les éléments liés au titre, au résumé, à l’introduction et à d’autres renseignements ont montré une harmonie complète entre l’examen humain et l’examen par agent conversationnel. En revanche, les divergences se sont regroupées dans des domaines qui mettent régulièrement à l’épreuve les examinateurs humains, en particulier les points de discussion interprétatifs.
Les résultats suggèrent que GenAI est particulièrement efficace pour identifier et organiser les informations explicitement rapportées, ce qui en fait un outil précieux pour les vérifications initiales de PRISMA. Cependant, lorsque l’interprétation est nécessaire, la surveillance humaine continue de jouer un rôle important.
Étude de cas 2 : Évaluation de la qualité des études
La deuxième évaluation a étendu cette question à l’évaluation de la qualité dans des plans d’étude hétérogènes. Au total, 28 études ont été évaluées : 6 essais contrôlés randomisés (ECR), 4 études de cohorte prospectives et 18 études de cohorte rétrospectives. À l’aide d’outils appropriés à la conception (c.-à-d. RoB 1, échelle de Newcastle-Ottawa et liste de contrôle Motheral, respectivement), l’accord entre GenAI et les examinateurs humains était remarquablement constant, allant de 81% à 83%.
Les désaccords ont suivi des tendances récurrentes. La dissimulation de l’allocation dans les ECR, la fiabilité des sources de données dans les études rétrospectives et la comparabilité des cohortes dans les études observationnelles prospectives se sont toutes avérées difficiles, en particulier lorsque les rapports étaient incomplets.
Notamment, les performances de GenAI ont diminué dans les études de moindre qualité. Bien que le chatbot ait extrait de manière fiable les informations rapportées, il a eu du mal à faire face à l’absence de preuves, une nuance que les examinateurs humains peuvent interpréter à l’aide du contexte méthodologique et de l’expérience.
Les désaccords ont suivi des tendances récurrentes. La dissimulation de l’allocation dans les ECR, la fiabilité des sources de données dans les études rétrospectives et la comparabilité des cohortes dans les études observationnelles prospectives se sont toutes avérées difficiles, en particulier lorsque les rapports étaient incomplets.
Notamment, les performances de GenAI ont diminué dans les études de moindre qualité. Bien que le chatbot ait extrait de manière fiable les informations rapportées, il a eu du mal à faire face à l’absence de preuves, une nuance que les examinateurs humains peuvent interpréter à l’aide du contexte méthodologique et de l’expérience.
Étude de cas 3 : Évaluations économiques
La troisième évaluation a porté sur l’évaluation de la qualité des évaluations économiques assistée par GenAI à l’aide de la liste de contrôle de Drummond. Dans huit études, l’accord variait de 65,7% à 100%, avec une médiane de 94,3%.
Lorsque des divergences sont apparues, elles ont de nouveau été liées à des rapports ambigus ou incomplets. Une tendance récurrente a montré une tendance aux jugements optimistes, le chatbot de GenAI attribuant parfois un « Oui » là où les examinateurs humains jugeaient les critères non satisfaits.
Lorsque des divergences sont apparues, elles ont de nouveau été liées à des rapports ambigus ou incomplets. Une tendance récurrente a montré une tendance aux jugements optimistes, le chatbot de GenAI attribuant parfois un « Oui » là où les examinateurs humains jugeaient les critères non satisfaits.
Ce que ces études de cas nous disent
Considérées ensemble, ces évaluations soulignent plusieurs leçons pour la pratique de l’HEOR.
Premièrement, une concordance élevée est possible lorsque GenAI est appliquée à des tâches bien délimitées et basées sur des listes de contrôle à l’aide d’invites soigneusement conçues. Deuxièmement, la genAI éprouve le plus de difficultés dans les mêmes endroits que les humains, lorsque les rapports ne sont pas clairs, incomplets ou nécessitent une interprétation contextuelle.
Troisièmement, la qualité des rapports établit le plafond de l’automatisation. De meilleurs rapports permettent un meilleur contrôle de la qualité, qu’il soit effectué par des humains ou par l’IA.
Ces résultats plaident contre la considération de GenAI comme un substitut aux examinateurs experts. Au lieu de cela, sa valeur réside dans le fait d’agir comme un deuxième examinateur ou un accélérateur : normaliser les résultats, faire ressortir efficacement le texte d’appui et libérer l’expertise humaine pour les jugements qui l’exigent vraiment.
Premièrement, une concordance élevée est possible lorsque GenAI est appliquée à des tâches bien délimitées et basées sur des listes de contrôle à l’aide d’invites soigneusement conçues. Deuxièmement, la genAI éprouve le plus de difficultés dans les mêmes endroits que les humains, lorsque les rapports ne sont pas clairs, incomplets ou nécessitent une interprétation contextuelle.
Troisièmement, la qualité des rapports établit le plafond de l’automatisation. De meilleurs rapports permettent un meilleur contrôle de la qualité, qu’il soit effectué par des humains ou par l’IA.
Ces résultats plaident contre la considération de GenAI comme un substitut aux examinateurs experts. Au lieu de cela, sa valeur réside dans le fait d’agir comme un deuxième examinateur ou un accélérateur : normaliser les résultats, faire ressortir efficacement le texte d’appui et libérer l’expertise humaine pour les jugements qui l’exigent vraiment.
Réflexions finales
Dans trois cas d’utilisation distincts mais liés, un chatbot GenAI à système fermé a démontré un potentiel évident pour accélérer l’assurance de la qualité dans HEOR sans nuire à la rigueur, à condition qu’il soit déployé de manière réfléchie et dans un cadre humain dans la boucle.
Alors que les directives sur l’utilisation responsable de l’IA dans la synthèse des données probantes continuent d’évoluer, ces études de cas offrent une perspective pragmatique : GenAI fonctionne mieux lorsque son rôle est clairement défini, que ses résultats sont transparents et que le jugement des experts reste dans la boucle. Utilisée de cette façon, GenAI peut étayer les normes de données probantes qui sont fondamentales pour des études rigoureuses d’ETS et d’HEOR.
Alors que les directives sur l’utilisation responsable de l’IA dans la synthèse des données probantes continuent d’évoluer, ces études de cas offrent une perspective pragmatique : GenAI fonctionne mieux lorsque son rôle est clairement défini, que ses résultats sont transparents et que le jugement des experts reste dans la boucle. Utilisée de cette façon, GenAI peut étayer les normes de données probantes qui sont fondamentales pour des études rigoureuses d’ETS et d’HEOR.
Remarque : Sources énumérées ci-dessous
Avis de non-responsabilité :
Cet article résume la compréhension du sujet par Cencora sur la base d’informations accessibles au public au moment de la rédaction (voir les sources énumérées) et de l’expertise des auteurs dans ce domaine. Les recommandations formulées dans l’article peuvent ne pas s’appliquer à toutes les situations et ne constituent pas des conseils juridiques. Les lecteurs ne doivent pas se fier à l’article pour prendre des décisions liées aux sujets abordés.
Entrez en contact avec notre équipe
Notre équipe d’experts de la valeur se consacre à la transformation des données probantes, des informations sur les politiques et des renseignements sur le marché en stratégies efficaces d’accès au marché mondial. Laissez-nous vous aider à naviguer dans le paysage complexe des soins de santé d’aujourd’hui en toute confiance. Contactez-nous pour découvrir comment nous pouvons vous aider à atteindre vos objectifs.
Bibliographie
- Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Évaluation de la performance d’un outil alimenté par l’intelligence artificielle pour évaluer les revues systématiques de la littérature à l’aide de la liste de vérification Preferred Reporting Items for Systematic Reviews and Meta-Analyses 2020. Valoriser la santé. Sous presse. 2026.
- Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Tirer parti de l’intelligence artificielle pour rationaliser l’évaluation de la qualité des études dans les revues systématiques de la littérature. Valoriser la santé. 2025; 28(6 suppl 1) :S400. doi : 10.1016/j.jval.2025.04.1783
- Arregui M, Koufopoulou M. EE446 : Évaluation de la performance d’un outil d’évaluation de la qualité des évaluations économiques publiées par l’intelligence artificielle : comparaison avec des examinateurs humains à l’aide de la liste de contrôle de Drummond. Valoriser la santé. 2025; 28(12 suppl 1) :S194. doi :10.1016/j.jval.2025.09.829
- Cochrane; Lignes directrices Réseau international; Collaboration Campbell. AUGMENTATION : Utilisation responsable de l’IA dans la synthèse des données probantes. Publié en 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis
- Drummond MF, Sculpher MJ, Torrance GW, O’Brien BJ, Stoddart GL. Méthodes d’évaluation économique des programmes de soins de santé. Presses de l’Université d’Oxford; 2005.
- Commission européenne; Direction générale de la santé et de la salubrité des aliments. Lignes directrices sur la validité des études cliniques pour les évaluations cliniques conjointes. Adopté le 4 juillet 2024. Consulté le 18 mai 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
- Higgins JPT, Altman DG, Gøtzsche PC, et al. L’outil de la Collaboration Cochrane pour évaluer le risque de biais dans les essais randomisés. BMJ. 2011; 343 :D5928.
- Motheral B, Brooks J, Clark MA, et al. Une liste de contrôle pour les études rétrospectives de bases de données. Valoriser la santé. 2003; 6(2):90-97.
- Institut national d’excellence en santé et en soins. Utilisation de l’IA dans la production de données probantes : Énoncé de position du NICE. Publié en 2024. Consulté le 18 mai 2026. https://www.nice.org.uk/corporate/ecd11
- Page MJ, McKenzie JE, Bossuyt PM et coll. La déclaration PRISMA 2020. BMJ. 2021; 372 :n71.
- Wells GA, Shea B, O’Connell D, et al. L’échelle de Newcastle-Ottawa (NOS) pour évaluer la qualité des études non randomisées dans les méta-analyses. Publié en 2014.
- Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360 : Une évaluation comparative des exigences en matière de reflex pour l’ETS. Valoriser la santé. 2023; 26(12) :S389-S390.
