Artículo
Evaluación de la calidad asistida por IA en HEOR: Qué funciona, qué no y cómo aplicar GenAI de forma responsable
Las evaluaciones de calidad y los elementos de informe preferidos para revisiones sistemáticas y metaanálisis (PRISMA) son esenciales para la síntesis de evidencia creíble en la economía de la salud y la investigación de resultados (HEOR), pero también son pasos que requieren mucho tiempo. A través de tres estudios de casos internos, exploramos dónde un chatbot de inteligencia artificial generativa (GenAI) de sistema cerrado puede agregar valor genuinamente y dónde el juicio humano experto aún marca la diferencia.
¿Por qué esta pregunta es importante ahora?
Las revisiones sistemáticas de la literatura (SLR, por sus siglas en inglés) se sitúan en el centro de la evaluación de tecnologías sanitarias (ETS) y la HEOR. Informan las decisiones de reembolso, dan forma a la orientación clínica y política, y respaldan las narrativas de valor en todos los mercados. Sin embargo, la credibilidad de un SLR depende de algo más que una búsqueda exhaustiva: se basa en informes transparentes y una evaluación rigurosa de la calidad de la evidencia subyacente.
Este énfasis en la calidad de la evidencia se refleja cada vez más en los marcos regulatorios de ETS. En virtud del Reglamento de la UE sobre la HTA, las evaluaciones clínicas conjuntas (JCA) deben evaluar explícitamente la validez, los puntos fuertes, las limitaciones y la incertidumbre de la base de pruebas clínicas. La reciente guía metodológica de la JCA formaliza las expectativas en torno a la evaluación de la validez interna y externa en todos los diseños de estudios clínicos, subrayando que la evaluación rigurosa es fundamental para la evaluación clínica comparativa a nivel europeo.
Este énfasis en la calidad de la evidencia se refleja cada vez más en los marcos regulatorios de ETS. En virtud del Reglamento de la UE sobre la HTA, las evaluaciones clínicas conjuntas (JCA) deben evaluar explícitamente la validez, los puntos fuertes, las limitaciones y la incertidumbre de la base de pruebas clínicas. La reciente guía metodológica de la JCA formaliza las expectativas en torno a la evaluación de la validez interna y externa en todos los diseños de estudios clínicos, subrayando que la evaluación rigurosa es fundamental para la evaluación clínica comparativa a nivel europeo.
Por lo tanto, las tareas de garantía de calidad, como la comprobación del cumplimiento de PRISMA y la evaluación estructurada de la calidad de los estudios, son esenciales. Al mismo tiempo, requieren mucha mano de obra. A medida que los paquetes de evidencia se hacen más grandes y los plazos de la HTA se acortan, los equipos de HEOR se enfrentan cada vez más al reto de hacer más, más rápido, sin comprometer el rigor.
GenAI ha entrado en esta conversación con un impulso considerable. Los organismos normativos y metodológicos han comenzado a reconocer su potencial para respaldar la síntesis de la evidencia, al tiempo que enfatizan la necesidad de una adopción cautelosa, transparente y bien gobernada. La pregunta ya no es si GenAI podría usarse en HEOR, sino cómo y dónde debería usarse de manera responsable.
GenAI ha entrado en esta conversación con un impulso considerable. Los organismos normativos y metodológicos han comenzado a reconocer su potencial para respaldar la síntesis de la evidencia, al tiempo que enfatizan la necesidad de una adopción cautelosa, transparente y bien gobernada. La pregunta ya no es si GenAI podría usarse en HEOR, sino cómo y dónde debería usarse de manera responsable.
Lo que nos propusimos aprender
En lugar de preguntar si GenAI podría reemplazar a los revisores expertos, nos centramos en una pregunta más práctica: ¿Puede un chatbot GenAI de sistema cerrado respaldar de manera confiable tareas de evaluación de la calidad (QA) estructuradas, basadas en listas de verificación y a nivel de estudio, y en qué condiciones se queda corto?
Para responder a esta pregunta, llevamos a cabo tres evaluaciones internas, cada una de las cuales abordó una actividad básica de control de calidad comúnmente requerida en HEOR:
Los tres estudios utilizaron los mismos principios fundamentales: un entorno interno seguro, indicaciones estandarizadas alineadas con las herramientas establecidas y comparación directa con revisores humanos capacitados.
Para responder a esta pregunta, llevamos a cabo tres evaluaciones internas, cada una de las cuales abordó una actividad básica de control de calidad comúnmente requerida en HEOR:
- Comprobación del cumplimiento de PRISMA 2020 para las SLR publicadas
- Evaluación de la calidad del estudio a través de múltiples diseños de estudios dentro de un SLR
- Evaluación de la calidad de las evaluaciones económicas mediante la lista de verificación de Drummond
Los tres estudios utilizaron los mismos principios fundamentales: un entorno interno seguro, indicaciones estandarizadas alineadas con las herramientas establecidas y comparación directa con revisores humanos capacitados.
Un enfoque común y gobernado
A lo largo de las evaluaciones, el chatbot GenAI se implementó de una manera deliberadamente restringida. Las publicaciones se cargaron individualmente, las indicaciones se asignaron explícitamente a los elementos de la lista de verificación y se requirió que los resultados incluyeran tanto un juicio categórico como un texto textual de apoyo del documento fuente.
Las evaluaciones humanas sirvieron como estándar de referencia y estuvieron sujetas a la validación de un segundo revisor. Este diseño nos permitió evaluar no solo las tasas de acuerdo, sino también por qué ocurrieron los desacuerdos.
Las evaluaciones humanas sirvieron como estándar de referencia y estuvieron sujetas a la validación de un segundo revisor. Este diseño nos permitió evaluar no solo las tasas de acuerdo, sino también por qué ocurrieron los desacuerdos.
Estudio de caso 1: Lista de verificación PRISMA 2020
En la primera evaluación, se evaluaron seis SLR publicados en relación con PRISMA 2020 utilizando 42 preguntas derivadas de la lista de verificación. En general, el chatbot GenAI logró un 93% de acuerdo total con los revisores humanos.
Tal y como se preveía, los resultados fueron más sólidos en los ámbitos caracterizados por la presentación de informes estandarizados y explícitos. Los ítems relacionados con el título, el resumen, la introducción y otra información mostraron una alineación completa entre la revisión humana y la del chatbot. Por el contrario, las discrepancias se agruparon en áreas que también desafían rutinariamente a los revisores humanos, en particular los elementos de discusión interpretativos.
Los hallazgos sugieren que GenAI es particularmente eficaz para identificar y organizar la información que se informa explícitamente, lo que la convierte en una herramienta valiosa para las comprobaciones iniciales de PRISMA. Sin embargo, cuando se necesita interpretación, la supervisión humana sigue desempeñando un papel importante.
Tal y como se preveía, los resultados fueron más sólidos en los ámbitos caracterizados por la presentación de informes estandarizados y explícitos. Los ítems relacionados con el título, el resumen, la introducción y otra información mostraron una alineación completa entre la revisión humana y la del chatbot. Por el contrario, las discrepancias se agruparon en áreas que también desafían rutinariamente a los revisores humanos, en particular los elementos de discusión interpretativos.
Los hallazgos sugieren que GenAI es particularmente eficaz para identificar y organizar la información que se informa explícitamente, lo que la convierte en una herramienta valiosa para las comprobaciones iniciales de PRISMA. Sin embargo, cuando se necesita interpretación, la supervisión humana sigue desempeñando un papel importante.
Estudio de caso 2: Evaluación de la calidad del estudio
La segunda evaluación amplió esta pregunta a la evaluación de la calidad en diseños de estudios heterogéneos. En total, se evaluaron 28 estudios: 6 ensayos controlados aleatorios (ECA), 4 estudios de cohortes prospectivos y 18 estudios de cohortes retrospectivos. Utilizando herramientas apropiadas para el diseño (es decir, RoB 1, escala de Newcastle-Ottawa y la lista de verificación Motheral, respectivamente), el acuerdo entre GenAI y los revisores humanos fue notablemente consistente, oscilando entre el 81% y el 83%.
Los desacuerdos siguieron patrones recurrentes. La ocultación de la asignación en los ECA, la fiabilidad de las fuentes de datos en los estudios retrospectivos y la comparabilidad de cohortes en los estudios observacionales prospectivos resultaron difíciles, especialmente cuando el informe estaba incompleto.
En particular, el rendimiento de GenAI disminuyó en los estudios de menor calidad. Si bien el chatbot extrajo de manera confiable la información reportada, luchó con la ausencia de evidencia, un matiz que los revisores humanos pueden interpretar utilizando el contexto metodológico y la experiencia.
Los desacuerdos siguieron patrones recurrentes. La ocultación de la asignación en los ECA, la fiabilidad de las fuentes de datos en los estudios retrospectivos y la comparabilidad de cohortes en los estudios observacionales prospectivos resultaron difíciles, especialmente cuando el informe estaba incompleto.
En particular, el rendimiento de GenAI disminuyó en los estudios de menor calidad. Si bien el chatbot extrajo de manera confiable la información reportada, luchó con la ausencia de evidencia, un matiz que los revisores humanos pueden interpretar utilizando el contexto metodológico y la experiencia.
Estudio de caso 3: Evaluaciones económicas
La tercera evaluación examinó la evaluación de la calidad de las evaluaciones económicas asistida por GenAI utilizando la lista de verificación de Drummond. En ocho estudios, la concordancia osciló entre el 65,7 % y el 100 %, con una mediana del 94,3 %.
En los casos en que surgían discrepancias, éstas se relacionaban de nuevo con informes ambiguos o incompletos. Un patrón recurrente mostró una tendencia hacia los juicios optimistas, con el chatbot GenAI asignando ocasionalmente un "Sí" cuando los revisores humanos juzgaron que los criterios no se cumplían.
En los casos en que surgían discrepancias, éstas se relacionaban de nuevo con informes ambiguos o incompletos. Un patrón recurrente mostró una tendencia hacia los juicios optimistas, con el chatbot GenAI asignando ocasionalmente un "Sí" cuando los revisores humanos juzgaron que los criterios no se cumplían.
Lo que nos dicen estos estudios de caso
Vistas en conjunto, estas evaluaciones apuntan a varias lecciones para la práctica de HEOR.
En primer lugar, se puede lograr una alta concordancia cuando GenAI se aplica a tareas bien delimitadas y basadas en listas de verificación utilizando indicaciones cuidadosamente diseñadas. En segundo lugar, GenAI tiene más dificultades en los mismos lugares en los que lo hacen los humanos: cuando los informes son poco claros, incompletos o requieren interpretación contextual.
En tercer lugar, la calidad de los informes establece el techo para la automatización. Un mejor informe permite un mejor control de calidad, ya sea realizado por humanos o por IA.
Estos hallazgos argumentan en contra de ver a GenAI como un reemplazo de los revisores expertos. En cambio, su valor radica en actuar como un segundo revisor o acelerador: estandarizando los resultados, sacando a la luz el texto de apoyo de manera eficiente y liberando la experiencia humana para los juicios que realmente lo requieren.
En primer lugar, se puede lograr una alta concordancia cuando GenAI se aplica a tareas bien delimitadas y basadas en listas de verificación utilizando indicaciones cuidadosamente diseñadas. En segundo lugar, GenAI tiene más dificultades en los mismos lugares en los que lo hacen los humanos: cuando los informes son poco claros, incompletos o requieren interpretación contextual.
En tercer lugar, la calidad de los informes establece el techo para la automatización. Un mejor informe permite un mejor control de calidad, ya sea realizado por humanos o por IA.
Estos hallazgos argumentan en contra de ver a GenAI como un reemplazo de los revisores expertos. En cambio, su valor radica en actuar como un segundo revisor o acelerador: estandarizando los resultados, sacando a la luz el texto de apoyo de manera eficiente y liberando la experiencia humana para los juicios que realmente lo requieren.
Reflexiones finales
A través de tres casos de uso distintos pero relacionados, un chatbot GenAI de sistema cerrado demostró un claro potencial para acelerar el aseguramiento de la calidad en HEOR sin socavar el rigor, siempre que se implemente de manera cuidadosa y dentro de un marco gobernado y humano en el bucle.
A medida que la orientación sobre el uso responsable de la IA en la síntesis de pruebas sigue evolucionando, estos estudios de caso ofrecen una perspectiva pragmática: GenAI funciona mejor cuando su papel está claramente definido, sus resultados son transparentes y el juicio de los expertos permanece al tanto. De esta manera, GenAI puede respaldar los estándares de evidencia que son fundamentales para los estudios rigurosos de HTA y HEOR.
A medida que la orientación sobre el uso responsable de la IA en la síntesis de pruebas sigue evolucionando, estos estudios de caso ofrecen una perspectiva pragmática: GenAI funciona mejor cuando su papel está claramente definido, sus resultados son transparentes y el juicio de los expertos permanece al tanto. De esta manera, GenAI puede respaldar los estándares de evidencia que son fundamentales para los estudios rigurosos de HTA y HEOR.
Nota: Fuentes enumeradas a continuación
Descargo de responsabilidad:
Este artículo resume la comprensión de Cencora sobre el tema basándose en la información disponible públicamente en el momento de escribir este artículo (véanse las fuentes enumeradas) y la experiencia de los autores en esta área. Es posible que las recomendaciones proporcionadas en el artículo no sean aplicables a todas las situaciones y no constituyan asesoramiento legal; Los lectores no deben confiar en el artículo para tomar decisiones relacionadas con los temas tratados.
Conecte con nuestro equipo
Nuestro equipo de expertos líderes en valor se dedica a transformar las pruebas, los conocimientos sobre políticas y la inteligencia de mercado en estrategias efectivas de acceso al mercado global. Permítanos ayudarle a navegar con confianza por el complejo panorama de la atención sanitaria actual. Póngase en contacto con nosotros para descubrir cómo podemos ayudarle en sus objetivos.
Fuentes
- Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Evaluación del rendimiento de una herramienta impulsada por inteligencia artificial para evaluar revisiones sistemáticas de la literatura utilizando la lista de verificación Preferred Reporting Items for Systematic Reviews and Meta-Analysis 2020. Valora la salud. En prensa. 2026.
- Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Aprovechamiento de la inteligencia artificial para agilizar la evaluación de la calidad de los estudios en revisiones sistemáticas de la literatura. Valora la salud. 2025; 28(6 supl 1):S400. doi:10.1016/j.jval.2025.04.1783
- Arregui M, Koufopoulou M. EE446: Evaluación del desempeño de una herramienta impulsada por inteligencia artificial para evaluar la calidad de las evaluaciones económicas publicadas: una comparación con revisores humanos utilizando la lista de verificación de Drummond. Valora la salud. 2025; 28(12 supl 1):S194. doi:10.1016/j.jval.2025.09.829
- Cochrane; Directrices de la Red Internacional; Colaboración Campbell. AUMENTAR: Uso responsable de la IA en la síntesis de evidencias. Publicado en 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis
- Drummond MF, Sculpher MJ, Torrance GW, O'Brien BJ, Stoddart GL. Métodos para la evaluación económica de los programas de atención de salud. Oxford University Press; 2005.
- Comisión Europea; Dirección General de Sanidad y Seguridad Alimentaria. Orientación sobre la validez de los estudios clínicos para evaluaciones clínicas conjuntas. Adoptada el 4 de julio de 2024. Consultado el 18 de mayo de 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
- Higgins JPT, Altman DG, Gøtzsche PC, et al. Herramienta de la Colaboración Cochrane para evaluar el riesgo de sesgo en ensayos aleatorizados. BMJ. 2011; 343:D5928.
- Motheral B, Brooks J, Clark MA, et al. Lista de verificación para estudios retrospectivos de bases de datos. Valora la salud. 2003; 6(2):90-97.
- Instituto Nacional para la Excelencia en la Salud y la Atención. Uso de la IA en la generación de pruebas: Declaración de posición de NICE. Publicado en 2024. Consultado el 18 de mayo de 2026. https://www.nice.org.uk/corporate/ecd11
- Page MJ, McKenzie JE, Bossuyt PM, et al. La declaración PRISMA 2020. BMJ. 2021; 372:N71.
- Wells GA, Shea B, O'Connell D, et al. La escala de Newcastle-Ottawa (NOS) para evaluar la calidad de los estudios no aleatorizados en los metanálisis. Publicado en 2014.
- Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: Una evaluación comparativa de los requisitos de SLR para la HTA. Valora la salud. 2023; 26(12):S389-S390.
