Articol

Evaluarea calității asistată de IA în HEOR: Ce funcționează, ce nu și cum se aplică GenAI în mod responsabil

  • Maria Arregui, PhD

  • Erika Wissinger

  • Evelyn Gomez-Espinosa, PhD

  • Maria Koufopoulou, MSc

Evaluările calității și verificările de conformitate ale elementelor de raportare preferate pentru revizuirile sistematice și meta-analizele (PRISMA) sunt esențiale pentru sinteza dovezilor credibile în economia sanitară și cercetarea rezultatelor (HEOR), dar sunt și pași care necesită mult timp. În trei studii de caz interne, am explorat unde un chatbot de inteligență artificială generativă (GenAI) cu sistem închis poate adăuga cu adevărat valoare și unde judecata umană expertă face diferența.

De ce contează această întrebare acum

Revizuirile sistematice ale literaturii de specialitate (SLR) se află în centrul evaluării tehnologiilor medicale (HTA) și HEOR. Acestea informează deciziile de rambursare, modelează îndrumările clinice și politice și susțin narațiunile valorice pe piețe. Cu toate acestea, credibilitatea unui SLR depinde de mai mult decât o căutare cuprinzătoare – se bazează pe o raportare transparentă și o evaluare riguroasă a calității dovezilor subiacente.

Acest accent pe calitatea dovezilor se reflectă din ce în ce mai mult în cadrele de reglementare privind ETM. Conform Regulamentului UE privind ETM, evaluările clinice comune (JCA) sunt necesare în mod explicit pentru a evalua validitatea, punctele forte, limitele și incertitudinea bazei de dovezi clinice. Orientările metodologice recente ale JCA formalizează așteptările privind evaluarea validității interne și externe în cadrul proiectelor de studii clinice, subliniind că evaluarea riguroasă este esențială pentru evaluarea clinică comparativă la nivel european.
Prin urmare, sarcinile de asigurare a calității, cum ar fi verificarea conformității PRISMA și evaluarea structurată a calității studiului, sunt esențiale. În același timp, necesită multă forță de muncă. Pe măsură ce pachetele de dovezi cresc și termenele HTA se scurtează, echipele HEOR sunt din ce în ce mai provocate să facă mai mult, mai rapid - fără a compromite rigoarea.

GenAI a intrat în această conversație cu un impuls considerabil. Organismele politice și metodologice au început să recunoască potențialul său de a sprijini sinteza dovezilor, subliniind în același timp necesitatea unei adoptări prudente, transparente și bine guvernate. Întrebarea nu mai este dacă GenAI ar putea fi utilizat în HEOR, ci cum și unde ar trebui să fie utilizat în mod responsabil.
 

Ce ne-am propus să învățăm

În loc să ne întrebăm dacă GenAI ar putea înlocui recenzorii experți, ne-am concentrat pe o întrebare mai practică: Poate un chatbot GenAI să sprijine în mod fiabil sarcini structurate, bazate pe liste de verificare, la nivel de studiu și de evaluare a calității (QA) și în ce condiții este inadecvat?

Pentru a răspunde la această întrebare, am efectuat trei evaluări interne, fiecare abordând o activitate de bază a asigurării calității cerută în mod obișnuit în HEOR:

  • Verificarea conformității PRISMA 2020 pentru SLR-urile publicate
  • Evaluarea calității studiului în mai multe modele de studiu în cadrul unui SLR
  • Evaluarea calității evaluărilor economice folosind lista de verificare Drummond

Toate cele trei studii au folosit aceleași principii fundamentale: un mediu intern sigur, solicitări standardizate aliniate la instrumentele stabilite și comparație directă cu recenzori umani instruiți.

O abordare comună, guvernată

În cadrul evaluărilor, chatbot-ul GenAI a fost implementat într-un mod constrâns în mod deliberat. Publicațiile au fost încărcate individual, solicitările au fost mapate în mod explicit la elementele listei de verificare, iar rezultatele au trebuit să includă atât o hotărâre categorică, cât și un text textual de susținere din documentul sursă.

Evaluările umane au servit drept standard de referință și au fost supuse validării celui de-al doilea evaluator. Acest design ne-a permis să evaluăm nu numai ratele de acord, ci și motivul pentru care au apărut dezacorduri.

Studiu de caz 1: Lista de verificare PRISMA 2020

În prima evaluare, șase SLR-uri publicate au fost evaluate în raport cu PRISMA 2020 folosind 42 de întrebări derivate din lista de verificare. În general, chatbot-ul GenAI a obținut 93% de acord deplin cu recenzorii umani.

Așa cum era de așteptat, performanța a fost cea mai bună în domeniile caracterizate prin raportare standardizată și explicită. Elementele legate de titlu, rezumat, introducere și alte informații au arătat o aliniere completă între revizuirea umană și cea a chatbotului. În schimb, discrepanțele s-au grupat în domenii care îi provoacă în mod obișnuit și pe recenzorii umani, în special subiectele de discuție interpretativă.

Descoperirile sugerează că GenAI este deosebit de eficient în identificarea și organizarea informațiilor care sunt raportate în mod explicit, ceea ce îl face un instrument valoros pentru verificările inițiale PRISMA. Cu toate acestea, atunci când este necesară interpretarea, supravegherea umană continuă să joace un rol important. 

Studiu de caz 2: Evaluarea calității studiilor

A doua evaluare a extins această întrebare la evaluarea calității în modele de studiu eterogene. În total, au fost evaluate 28 de studii: 6 studii controlate randomizate (ECR), 4 studii de cohortă prospective și 18 studii de cohortă retrospective. Folosind instrumente adecvate pentru proiectare (adică RoB 1, Scala Newcastle-Ottawa și, respectiv, lista de verificare Motheral), acordul dintre GenAI și recenzorii umani a fost remarcabil de consistent, variind de la 81% la 83%.

Neînțelegerile au urmat modele recurente. Ascunderea alocării în RCT-uri, fiabilitatea sursei de date în studiile retrospective și comparabilitatea cohortelor în studiile observaționale prospective s-au dovedit a fi o provocare, în special atunci când raportarea a fost incompletă.

În special, performanța GenAI a scăzut în studiile de calitate inferioară. În timp ce chatbot-ul a extras în mod fiabil informațiile raportate, s-a luptat cu absența dovezilor, o nuanță pe care recenzorii umani o pot interpreta folosind contextul metodologic și experiența.

Studiu de caz 3: Evaluări economice

A treia evaluare a examinat evaluarea calității asistată de GenAI a evaluărilor economice folosind lista de verificare Drummond. În cadrul a opt studii, acordul a variat de la 65,7% la 100%, cu o mediană de 94,3%.

Acolo unde au apărut discrepanțe, acestea au fost din nou legate de raportări ambigue sau incomplete. Un model recurent a arătat o tendință spre judecăți optimiste, chatbot-ul GenAI atribuind ocazional un "Da", în care recenzorii umani au considerat criteriile ca fiind neîndeplinite.

Ce ne spun aceste studii de caz

Privite împreună, aceste evaluări indică câteva lecții pentru practica HEOR.

În primul rând, concordanța ridicată este realizabilă atunci când GenAI este aplicată la sarcini bine delimitate, bazate pe liste de verificare, folosind solicitări atent proiectate. În al doilea rând, GenAI se luptă cel mai mult în aceleași locuri în care se confruntă oamenii - atunci când raportarea este neclară, incompletă sau necesită interpretare contextuală.

În al treilea rând, calitatea raportării stabilește plafonul pentru automatizare. O raportare mai bună permite o mai bună asigurarea calității, indiferent dacă este efectuată de oameni sau de IA.

Aceste descoperiri argumentează împotriva vederii GenAI ca un înlocuitor pentru recenzorii experți. În schimb, valoarea sa constă în a acționa ca un al doilea recenzor sau accelerator: standardizarea rezultatelor, evidențierea eficientă a textului de susținere și eliberarea expertizei umane pentru judecățile care o necesită cu adevărat.

Concluzii finale

În trei cazuri de utilizare distincte, dar conexe, un chatbot GenAI cu sistem închis a demonstrat un potențial clar de a accelera asigurarea calității în HEOR fără a submina rigoarea - cu condiția să fie implementat cu atenție și într-un cadru guvernat, uman în buclă.

Pe măsură ce îndrumările privind utilizarea responsabilă a IA în sinteza dovezilor continuă să evolueze, aceste studii de caz oferă o perspectivă pragmatică: GenAI funcționează cel mai bine atunci când rolul său este clar definit, rezultatele sale sunt transparente și judecata experților rămâne în buclă. Folosit în acest fel, GenAI poate susține standardele de dovezi care sunt fundamentale pentru studiile riguroase HTA și HEOR.
Notă: Sursele enumerate mai jos


Precizare:
Acest articol rezumă înțelegerea Cencora asupra subiectului pe baza informațiilor disponibile public la momentul redactării acestui articol (a se vedea sursele enumerate) și a expertizei autorilor în acest domeniu. Este posibil ca recomandările furnizate în articol să nu fie aplicabile tuturor situațiilor și să nu constituie consultanță juridică; Cititorii nu ar trebui să se bazeze pe articol în luarea deciziilor legate de subiectele discutate.


Luați legătura cu echipa noastră

Echipa noastră de experți în valoare este dedicată transformării dovezilor, informațiilor privind politicile și informațiilor de piață în strategii eficiente de acces la piața globală. Permiteți-ne să vă ajutăm să navigați cu încredere prin peisajul complex al asistenței medicale din ziua de azi. Contactați-ne pentru a afla în ce mod vă putem sprijini în atingerea obiectivelor.

 

Surse

  • Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Evaluarea performanței unui instrument bazat pe inteligență artificială pentru evaluarea revizuirilor sistematice ale literaturii utilizând lista de verificare Preferred Reporting Items for Systematic Reviews and Meta-Analyses 2020. Valoare sănătate. În presă. 2026.
  • Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Utilizarea inteligenței artificiale pentru a eficientiza evaluarea calității studiilor în revizuirile sistematice ale literaturii. Valoare sănătate. 2025; 28(6 suppl 1):S400. doi:10.1016/j.jval.2025.04.1783
  • Arregui M, Koufopoulou M. EE446: Evaluarea performanței unui instrument bazat pe inteligență artificială pentru evaluarea calității evaluărilor economice publicate: o comparație cu recenzorii umani care utilizează lista de verificare Drummond. Valoare sănătate. 2025; 28(12 suppl 1):S194. doi:10.1016/j.jval.2025.09.829
  • Cochrane; Ghid Rețea Internațională; Colaborarea Campbell. MĂRIRE: Utilizarea responsabilă a IA în sinteza dovezilor. Publicat în 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis 
  • Drummond MF, Sculpher MJ, Torrance GW, O'Brien BJ, Stoddart GL. Metode de evaluare economică a programelor de sănătate. Presa Universității Oxford; 2005.
  • Comisia Europeană; Direcția Generală Sănătate și Siguranță Alimentară. Orientări privind validitatea studiilor clinice pentru evaluările clinice comune. Adoptat la 4 iulie 2024. Accesat la 18 mai 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
  • Higgins JPT, Altman DG, Gøtzsche PC, et al. Instrumentul Colaborării Cochrane pentru evaluarea riscului de părtinire în studiile randomizate. BMJ. 2011; 343:d5928.
  • Motheral B, Brooks J, Clark MA, et al. O listă de verificare pentru studiile retrospective ale bazelor de date. Valoare sănătate. 2003; 6(2):90-97.
  • Institutul Național pentru Excelență în Sănătate și Îngrijire. Utilizarea IA în generarea de dovezi: Declarație de poziție NICE. Publicat în 2024. Accesat la 18 mai 2026. https://www.nice.org.uk/corporate/ecd11 
  • Pagina MJ, McKenzie JE, Bossuyt PM, et al. Declarația PRISMA 2020. BMJ. 2021; 372:n71.
  • Wells GA, Shea B, O'Connell D, et al. Scala Newcastle-Ottawa (NOS) pentru evaluarea calității studiilor nerandomizate în meta-analize. Publicat în 2014.
  • Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: O evaluare comparativă a cerințelor SLR pentru ETM. Valoare sănătate. 2023; 26(12):S389-S390.
 

Resurse conexe

Buletin informativ

Trimestrialul HTA vara 2026

Articol

Dincolo de rezultatele directe privind sănătatea: Impactul social mai larg al tratamentelor inovatoare

Articol

Beyond public dashboards: Leveraging Germany’s National Cancer Registry for pharmaceutical research – Insights from a ZfKD Research Initiative