Articolo
Valutazione della qualità assistita dall'intelligenza artificiale in HEOR: Cosa funziona, cosa no e come applicare GenAI in modo responsabile
Le valutazioni di qualità e i controlli di conformità PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analysis) sono essenziali per una sintesi credibile delle evidenze nella ricerca sui risultati dell'economia sanitaria (HEOR), ma sono anche passaggi che richiedono molto tempo. Attraverso tre casi di studio interni, abbiamo esplorato dove un chatbot di intelligenza artificiale generativa (GenAI) a sistema chiuso può davvero aggiungere valore e dove il giudizio umano degli esperti fa ancora la differenza.
Perché questa domanda è importante ora
Le revisioni sistematiche della letteratura (SLR) sono al centro della valutazione delle tecnologie sanitarie (HTA) e dell'HEOR. Informano le decisioni di rimborso, modellano le linee guida cliniche e politiche e sostengono le narrazioni di valore in tutti i mercati. Tuttavia, la credibilità di una reflex dipende da qualcosa di più di una ricerca completa: si basa su una segnalazione trasparente e su una valutazione rigorosa della qualità delle prove sottostanti.
Questa enfasi sulla qualità delle evidenze si riflette sempre più nei quadri normativi in materia di HTA. Ai sensi del Regolamento UE in materia di HTA, le valutazioni cliniche congiunte (JCA) sono esplicitamente richieste per valutare la validità, i punti di forza, i limiti e l'incertezza della base di evidenze cliniche. Le recenti linee guida metodologiche della JCA formalizzano le aspettative sulla valutazione della validità interna ed esterna nei disegni degli studi clinici, sottolineando che una valutazione rigorosa è fondamentale per la valutazione clinica comparativa a livello europeo.
Questa enfasi sulla qualità delle evidenze si riflette sempre più nei quadri normativi in materia di HTA. Ai sensi del Regolamento UE in materia di HTA, le valutazioni cliniche congiunte (JCA) sono esplicitamente richieste per valutare la validità, i punti di forza, i limiti e l'incertezza della base di evidenze cliniche. Le recenti linee guida metodologiche della JCA formalizzano le aspettative sulla valutazione della validità interna ed esterna nei disegni degli studi clinici, sottolineando che una valutazione rigorosa è fondamentale per la valutazione clinica comparativa a livello europeo.
Le attività di garanzia della qualità come il controllo della conformità PRISMA e la valutazione strutturata della qualità dello studio sono quindi essenziali. Allo stesso tempo, sono ad alta intensità di lavoro. Man mano che i pacchetti di evidenze si ampliano e le tempistiche di HTA si accorciano, i team HEOR sono sempre più sfidati a fare di più, più velocemente, senza compromettere il rigore.
GenAI è entrata in questa conversazione con notevole slancio. Gli organismi politici e metodologici hanno iniziato a riconoscere il suo potenziale per supportare la sintesi delle evidenze, sottolineando allo stesso tempo la necessità di un'adozione cauta, trasparente e ben governata. La questione non è più se GenAI possa essere utilizzato in HEOR, ma come e dove dovrebbe essere utilizzato in modo responsabile.
GenAI è entrata in questa conversazione con notevole slancio. Gli organismi politici e metodologici hanno iniziato a riconoscere il suo potenziale per supportare la sintesi delle evidenze, sottolineando allo stesso tempo la necessità di un'adozione cauta, trasparente e ben governata. La questione non è più se GenAI possa essere utilizzato in HEOR, ma come e dove dovrebbe essere utilizzato in modo responsabile.
Cosa ci siamo proposti di imparare
Piuttosto che chiederci se GenAI potesse sostituire i revisori esperti, ci siamo concentrati su una domanda più pratica: Un chatbot GenAI a sistema chiuso può supportare in modo affidabile attività di valutazione della qualità (QA) strutturate, basate su liste di controllo e a livello di studio e in quali condizioni non è all'altezza?
Per rispondere a questa domanda, abbiamo condotto tre valutazioni interne, ognuna delle quali ha affrontato un'attività di QA di base comunemente richiesta in HEOR:
Tutti e tre gli studi hanno utilizzato gli stessi principi fondamentali: un ambiente interno sicuro, prompt standardizzati allineati a strumenti consolidati e confronto diretto con revisori umani addestrati.
Per rispondere a questa domanda, abbiamo condotto tre valutazioni interne, ognuna delle quali ha affrontato un'attività di QA di base comunemente richiesta in HEOR:
- Verifica della conformità PRISMA 2020 per le reflex pubblicate
- Valutazione della qualità dello studio su più disegni di studio all'interno di un SLR
- Valutazione della qualità delle valutazioni economiche utilizzando la lista di controllo Drummond
Tutti e tre gli studi hanno utilizzato gli stessi principi fondamentali: un ambiente interno sicuro, prompt standardizzati allineati a strumenti consolidati e confronto diretto con revisori umani addestrati.
Un approccio comune e disciplinato
Durante le valutazioni, il chatbot GenAI è stato implementato in modo deliberatamente limitato. Le pubblicazioni sono state caricate individualmente, i prompt sono stati esplicitamente mappati agli elementi della lista di controllo e gli output dovevano includere sia un giudizio categorico che un testo di supporto letterale dal documento di origine.
Le valutazioni umane sono servite come standard di riferimento e sono state soggette a una seconda convalida del revisore. Questo disegno ci ha permesso di valutare non solo i tassi di accordo, ma anche il motivo per cui si sono verificati disaccordi.
Le valutazioni umane sono servite come standard di riferimento e sono state soggette a una seconda convalida del revisore. Questo disegno ci ha permesso di valutare non solo i tassi di accordo, ma anche il motivo per cui si sono verificati disaccordi.
Caso di studio 1: Elenco di controllo PRISMA 2020
Nella prima valutazione, sei SLR pubblicati sono stati valutati rispetto a PRISMA 2020 utilizzando 42 domande derivate da una lista di controllo. Nel complesso, il chatbot GenAI ha ottenuto il 93% di pieno accordo con i revisori umani.
Come anticipato, le prestazioni sono state migliori nei settori caratterizzati da una rendicontazione standardizzata ed esplicita. Gli elementi relativi al titolo, all'abstract, all'introduzione e ad altre informazioni hanno mostrato un completo allineamento tra la revisione umana e quella del chatbot. Al contrario, le discrepanze si sono raggruppate in aree che sfidano abitualmente anche i revisori umani, in particolare gli elementi di discussione interpretativi.
I risultati suggeriscono che GenAI è particolarmente efficace nell'identificare e organizzare le informazioni che vengono esplicitamente riportate, il che lo rende uno strumento prezioso per i controlli iniziali di PRISMA. Tuttavia, quando è necessaria l'interpretazione, la supervisione umana continua a svolgere un ruolo importante.
Come anticipato, le prestazioni sono state migliori nei settori caratterizzati da una rendicontazione standardizzata ed esplicita. Gli elementi relativi al titolo, all'abstract, all'introduzione e ad altre informazioni hanno mostrato un completo allineamento tra la revisione umana e quella del chatbot. Al contrario, le discrepanze si sono raggruppate in aree che sfidano abitualmente anche i revisori umani, in particolare gli elementi di discussione interpretativi.
I risultati suggeriscono che GenAI è particolarmente efficace nell'identificare e organizzare le informazioni che vengono esplicitamente riportate, il che lo rende uno strumento prezioso per i controlli iniziali di PRISMA. Tuttavia, quando è necessaria l'interpretazione, la supervisione umana continua a svolgere un ruolo importante.
Caso di studio 2: Valutazione della qualità dello studio
La seconda valutazione ha esteso questa domanda alla valutazione della qualità attraverso disegni di studio eterogenei. In totale, sono stati valutati 28 studi: 6 studi randomizzati controllati (RCT), 4 studi prospettici di coorte e 18 studi di coorte retrospettivi. Utilizzando strumenti appropriati per la progettazione (ad esempio, RoB 1, Newcastle-Ottawa Scale e Motheral checklist, rispettivamente), l'accordo tra GenAI e revisori umani è stato notevolmente coerente, compreso tra l'81% e l'83%.
I disaccordi seguivano schemi ricorrenti. L'occultamento dell'allocazione negli RCT, l'affidabilità delle fonti di dati negli studi retrospettivi e la comparabilità di coorte negli studi osservazionali prospettici si sono rivelati tutti impegnativi, in particolare quando la segnalazione era incompleta.
In particolare, le prestazioni di GenAI sono diminuite negli studi di qualità inferiore. Sebbene il chatbot estraesse in modo affidabile le informazioni riportate, ha lottato con l'assenza di prove, una sfumatura che i revisori umani possono interpretare utilizzando il contesto metodologico e l'esperienza.
I disaccordi seguivano schemi ricorrenti. L'occultamento dell'allocazione negli RCT, l'affidabilità delle fonti di dati negli studi retrospettivi e la comparabilità di coorte negli studi osservazionali prospettici si sono rivelati tutti impegnativi, in particolare quando la segnalazione era incompleta.
In particolare, le prestazioni di GenAI sono diminuite negli studi di qualità inferiore. Sebbene il chatbot estraesse in modo affidabile le informazioni riportate, ha lottato con l'assenza di prove, una sfumatura che i revisori umani possono interpretare utilizzando il contesto metodologico e l'esperienza.
Caso di studio 3: Valutazioni economiche
La terza valutazione ha esaminato la valutazione della qualità delle valutazioni economiche assistita da GenAI utilizzando la lista di controllo Drummond. In otto studi, l'accordo variava dal 65,7% al 100%, con una mediana del 94,3%.
Laddove sono emerse discrepanze, sono state nuovamente collegate a rapporti ambigui o incompleti. Uno schema ricorrente ha mostrato una tendenza verso giudizi ottimistici, con il chatbot GenAI che occasionalmente assegnava un "Sì" dove i revisori umani giudicavano i criteri non soddisfatti.
Laddove sono emerse discrepanze, sono state nuovamente collegate a rapporti ambigui o incompleti. Uno schema ricorrente ha mostrato una tendenza verso giudizi ottimistici, con il chatbot GenAI che occasionalmente assegnava un "Sì" dove i revisori umani giudicavano i criteri non soddisfatti.
Cosa ci dicono questi casi di studio
Viste insieme, queste valutazioni indicano diverse lezioni per la pratica HEOR.
In primo luogo, è possibile ottenere un'elevata concordanza quando la GenAI viene applicata a compiti ben limitati e basati su elenchi di controllo utilizzando prompt accuratamente progettati. In secondo luogo, la GenAI fatica di più negli stessi luoghi in cui si trovano gli esseri umani: quando la segnalazione è poco chiara, incompleta o richiede un'interpretazione contestuale.
In terzo luogo, la qualità del reporting stabilisce il tetto per l'automazione. Una migliore reportistica consente una migliore QA, sia condotta da esseri umani che dall'intelligenza artificiale.
Questi risultati depongono contro la visione di GenAI come un sostituto dei revisori esperti. Invece, il suo valore risiede nell'agire come un secondo revisore o acceleratore: standardizzando i risultati, facendo emergere il testo di supporto in modo efficiente e liberando l'esperienza umana per i giudizi che lo richiedono veramente.
In primo luogo, è possibile ottenere un'elevata concordanza quando la GenAI viene applicata a compiti ben limitati e basati su elenchi di controllo utilizzando prompt accuratamente progettati. In secondo luogo, la GenAI fatica di più negli stessi luoghi in cui si trovano gli esseri umani: quando la segnalazione è poco chiara, incompleta o richiede un'interpretazione contestuale.
In terzo luogo, la qualità del reporting stabilisce il tetto per l'automazione. Una migliore reportistica consente una migliore QA, sia condotta da esseri umani che dall'intelligenza artificiale.
Questi risultati depongono contro la visione di GenAI come un sostituto dei revisori esperti. Invece, il suo valore risiede nell'agire come un secondo revisore o acceleratore: standardizzando i risultati, facendo emergere il testo di supporto in modo efficiente e liberando l'esperienza umana per i giudizi che lo richiedono veramente.
Pensieri conclusivi
In tre casi d'uso distinti ma correlati, un chatbot GenAI a sistema chiuso ha dimostrato un chiaro potenziale per accelerare la garanzia della qualità in HEOR senza minare il rigore, a condizione che sia implementato in modo ponderato e all'interno di un quadro governato e human in the loop.
Mentre le linee guida sull'uso responsabile dell'IA nella sintesi delle evidenze continuano ad evolversi, questi casi di studio offrono una prospettiva pragmatica: GenAI funziona meglio quando il suo ruolo è chiaramente definito, i suoi risultati sono trasparenti e il giudizio degli esperti rimane nel ciclo. Utilizzata in questo modo, GenAI può supportare gli standard di evidenza fondamentali per rigorosi studi HTA e HEOR.
Mentre le linee guida sull'uso responsabile dell'IA nella sintesi delle evidenze continuano ad evolversi, questi casi di studio offrono una prospettiva pragmatica: GenAI funziona meglio quando il suo ruolo è chiaramente definito, i suoi risultati sono trasparenti e il giudizio degli esperti rimane nel ciclo. Utilizzata in questo modo, GenAI può supportare gli standard di evidenza fondamentali per rigorosi studi HTA e HEOR.
Nota: Fonti elencate di seguito
Dichiarazione di non responsabilità:
Questo articolo riassume la comprensione dell'argomento da parte di Cencora sulla base delle informazioni pubblicamente disponibili al momento della stesura (si vedano le fonti elencate) e l'esperienza degli autori in questo settore. Eventuali raccomandazioni fornite nell'articolo potrebbero non essere applicabili a tutte le situazioni e non costituiscono una consulenza legale; I lettori non dovrebbero fare affidamento sull'articolo nel prendere decisioni relative agli argomenti discussi.
Mettiti in contatto con il nostro team
Il nostro team di esperti di valore leader si dedica a trasformare evidenze, approfondimenti sulle politiche e informazioni di mercato in efficaci strategie di accesso al mercato globale. Lascia che ti aiutiamo a navigare con sicurezza nel complesso panorama sanitario odierno. Contattaci per scoprire come possiamo supportare i tuoi obiettivi.
Fonti
- Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Valutazione delle prestazioni di uno strumento basato sull'intelligenza artificiale per la valutazione di revisioni sistematiche della letteratura utilizzando la lista di controllo Preferred Reporting Items for Systematic Reviews and Meta-Analyses 2020. Valore salute. In stampa. 2026.
- Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Sfruttare l'intelligenza artificiale per semplificare la valutazione della qualità dello studio nelle revisioni sistematiche della letteratura. Valore salute. 2025; 28(6 suppl 1):S400. DOI:10.1016/j.jval.2025.04.1783
- Arregui M, Koufopoulou M. EE446: Valutazione delle prestazioni di uno strumento basato sull'intelligenza artificiale per valutare la qualità delle valutazioni economiche pubblicate: un confronto con i revisori umani utilizzando la lista di controllo di Drummond. Valore salute. 2025; 28(12 suppl 1):S194. DOI:10.1016/j.jval.2025.09.829
- Cochrane; Linee guida Rete internazionale; Collaborazione Campbell. SOLLEVARE: Uso responsabile dell'IA nella sintesi delle evidenze. Pubblicato nel 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis
- Drummond MF, Sculpher MJ, Torrance GW, O'Brien BJ, Stoddart GL. Metodi per la valutazione economica dei programmi di assistenza sanitaria. Stampa dell'Università di Oxford; 2005.
- Commissione europea; Direzione generale della Salute e della sicurezza alimentare. Linee guida sulla validità degli studi clinici per le valutazioni cliniche congiunte. Adottato il 4 luglio 2024. Accesso effettuato il 18 maggio 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
- Higgins JPT, Altman DG, Gøtzsche PC, et al. Lo strumento della Cochrane Collaboration per valutare il rischio di bias negli studi randomizzati. BMJ. 2011; 343:d5928.
- Motheral B, Brooks J, Clark MA, et al. Una lista di controllo per studi retrospettivi di database. Valore salute. 2003; 6(2):90-97.
- Istituto nazionale per l'eccellenza sanitaria e assistenziale. Uso dell'IA nella generazione di evidenze: Dichiarazione di posizione NICE. Pubblicato nel 2024. Accesso effettuato il 18 maggio 2026. https://www.nice.org.uk/corporate/ecd11
- Pagina MJ, McKenzie JE, Bossuyt PM, et al. La dichiarazione PRISMA 2020. BMJ. 2021; 372:n71.
- Wells GA, Shea B, O'Connell D, et al. La scala Newcastle-Ottawa (NOS) per valutare la qualità degli studi non randomizzati nelle meta-analisi. Pubblicato nel 2014.
- Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: Una valutazione comparativa dei requisiti SLR per l'HTA. Valore salute. 2023; 26(12):S389-S390.
