Článek

Hodnocení kvality s pomocí umělé inteligence v HEOR: Co funguje, co ne a jak GenAI zodpovědně aplikovat

  • Maria Arregui, PhD

  • Erika Wissinger

  • Evelyn Gomez-Espinosa, PhD

  • Maria Koufopoulou, MSc

Hodnocení kvality a preferované položky vykazování pro systematické přehledy a metaanalýzy (PRISMA) kontroly souladu jsou nezbytné pro syntézu důvěryhodných důkazů v ekonomice zdravotnictví a výzkumu výsledků (HEOR), ale jsou to také časově náročné kroky. Ve třech interních případových studiích jsme zkoumali, kde může chatbot s uzavřeným systémem generativní umělé inteligence (GenAI) skutečně přidat hodnotu a kde je stále rozdíl v odborném lidském úsudku.

Proč je tato otázka nyní důležitá

Systematické přehledy literatury (SLR) jsou jádrem hodnocení zdravotnických technologií (HTA) a HEOR. Poskytují informace pro rozhodnutí o úhradě, utvářejí klinické a politické pokyny a podporují hodnotové narativy napříč trhy. Důvěryhodnost jednooké zrcadlovky však závisí na více než jen na komplexním vyhledávání – spoléhá se na transparentní podávání zpráv a přísné hodnocení kvality podkladových důkazů.

Tento důraz na kvalitu důkazů se stále více odráží v regulačních rámcích pro hodnocení zdravotnických technologií. Podle nařízení EU o hodnocení zdravotnických technologií jsou společná klinická hodnocení (JCA) výslovně vyžadována k vyhodnocení platnosti, silných stránek, omezení a nejistoty základny klinických důkazů. Nedávné metodické pokyny JCA formalizují očekávání týkající se hodnocení interní a externí validity napříč designem klinických studií a zdůrazňují, že přísné hodnocení je zásadní pro srovnávací klinické hodnocení na evropské úrovni.
Úkoly v oblasti zajištění kvality, jako je kontrola shody PRISMA a strukturované hodnocení kvality studie, jsou proto zásadní. Zároveň jsou náročné na pracovní sílu. Vzhledem k tomu, že se balíčky důkazů zvětšují a lhůty HTA se zkracují, jsou týmy HEOR stále více vyzývány k tomu, aby dělaly více a rychleji – aniž by byla ohrožena přísnost.

GenAI vstoupila do této konverzace se značnou dynamikou. Politické a metodické orgány si začaly uvědomovat jeho potenciál podporovat syntézu důkazů a zároveň zdůrazňovat potřebu obezřetného, transparentního a dobře řízeného přijetí. Otázkou již není, zda by GenAI mohl být použit v HEOR, ale jak – a kde – by měl být používán zodpovědně.
 

Co jsme se rozhodli naučit

Místo toho, abychom se ptali, zda by GenAI mohla nahradit odborné recenzenty, zaměřili jsme se na praktičtější otázku: Může uzavřený systém chatbot GenAI spolehlivě podporovat strukturované úkoly hodnocení kvality (QA) na úrovni kontrolního seznamu – a za jakých podmínek zaostává?

Abychom na tuto otázku odpověděli, provedli jsme tři interní hodnocení, z nichž každé se zabývalo základní činností QA, která je v HEOR běžně vyžadována:

  • Kontrola shody PRISMA 2020 u publikovaných jednookých zrcadlovek
  • Hodnocení kvality studie napříč více návrhy studií v rámci SLR
  • Hodnocení kvality ekonomických hodnocení pomocí Drummond checklistu

Všechny tři studie používaly stejné základní principy: bezpečné interní prostředí, standardizované výzvy v souladu se zavedenými nástroji a přímé srovnání s vyškolenými lidskými recenzenty.

Společný, řízený přístup

V rámci hodnocení byl chatbot GenAI nasazen záměrně omezeně. Publikace byly nahrávány jednotlivě, výzvy byly explicitně mapovány na položky kontrolního seznamu a výstupy musely obsahovat jak kategorický úsudek, tak doslovný podpůrný text ze zdrojového dokumentu.

Jako referenční standard sloužila hodnocení na lidech, která podléhala validaci druhým recenzentem. Tento návrh nám umožnil vyhodnotit nejen míru shod, ale také to, proč k neshodám došlo.

Případová studie 1: Kontrolní seznam PRISMA 2020

V prvním hodnocení bylo šest publikovaných SLR posouzeno podle PRISMA 2020 pomocí 42 otázek odvozených z kontrolního seznamu. Celkově chatbot GenAI dosáhl 93% plné shody s lidskými recenzenty.

Jak se očekávalo, výkonnost byla nejsilnější v oblastech, které se vyznačují standardizovaným, explicitním vykazováním. Položky související s názvem, abstraktem, úvodem a dalšími informacemi ukázaly úplnou shodu mezi recenzí člověka a chatbota. Naproti tomu nesrovnalosti se shlukly v oblastech, které běžně vyzývají i lidské recenzenty, zejména v interpretačních diskusních bodech.

Zjištění naznačují, že GenAI je obzvláště efektivní při identifikaci a organizování informací, které jsou explicitně hlášeny, což z něj činí cenný nástroj pro počáteční kontroly PRISMA. Je-li však zapotřebí tlumočení, hraje i nadále důležitou roli lidský dohled. 

Případová studie 2: Hodnocení kvality studia

Druhé hodnocení rozšířilo tuto otázku na hodnocení kvality napříč heterogenními designy studií. Celkem bylo hodnoceno 28 studií: 6 randomizovaných kontrolovaných studií (RCT), 4 prospektivní kohortové studie a 18 retrospektivních kohortových studií. Při použití nástrojů vhodných pro návrh (tj. RoB 1, Newcastle-Ottawa Scale a Motheral checklist) byla shoda mezi GenAI a lidskými recenzenty pozoruhodně konzistentní a pohybovala se od 81 % do 83 %.

Neshody se opakovaly. Utajení alokace v RCT, spolehlivost zdroje dat v retrospektivních studiích a srovnatelnost kohort v prospektivních observačních studiích se ukázaly jako náročné, zejména pokud byly zprávy neúplné.

Je pozoruhodné, že výkon GenAI klesl v méně kvalitních studiích. Chatbot sice spolehlivě extrahoval nahlášené informace, ale potýkal se s absencí důkazů, což je nuance, kterou mohou lidští recenzenti interpretovat pomocí metodologického kontextu a zkušeností.

Případová studie 3: Ekonomická hodnocení

Třetí evaluace zkoumala hodnocení kvality ekonomických hodnocení za pomoci GenAI pomocí Drummondova kontrolního seznamu. V osmi studiích se shoda pohybovala od 65,7 % do 100 %, přičemž medián byl 94,3 %.

Tam, kde se nesrovnalosti vyskytly, byly opět spojeny s nejednoznačným nebo neúplným vykazováním. Opakující se vzorec vykazoval tendenci k optimistickým úsudkům, kdy chatbot GenAI občas přidělil "Ano" tam, kde lidští recenzenti hodnotili kritéria jako nesplněná.

Co nám tyto případové studie říkají

Společně tato hodnocení poukazují na několik ponaučení pro praxi HEOR.

Za prvé, vysoké shody lze dosáhnout, když se GenAI aplikuje na dobře ohraničené úkoly řízené kontrolním seznamem pomocí pečlivě navržených výzev. Za druhé, GenAI se nejvíce potýká s problémy na stejných místech jako lidé – když jsou zprávy nejasné, neúplné nebo vyžadují kontextovou interpretaci.

Za třetí, kvalita vykazování stanovuje strop pro automatizaci. Lepší vykazování umožňuje lepší kontrolu kvality, ať už ji provádějí lidé nebo umělá inteligence.

Tato zjištění hovoří proti tomu, aby se na GenAI pohlíželo jako na náhradu za odborné recenzenty. Místo toho jeho hodnota spočívá v tom, že působí jako druhý recenzent nebo akcelerátor: standardizuje výstupy, efektivně vynořuje podpůrný text a uvolňuje lidské odborné znalosti pro úsudky, které to skutečně vyžadují.

Závěrečné myšlenky

Ve třech odlišných, ale souvisejících případech použití prokázal chatbot GenAI uzavřený systém jasný potenciál urychlit zajištění kvality v HEOR, aniž by podkopal přísnost – za předpokladu, že je nasazen promyšleně a v rámci řízeného člověka ve smyčce.

Vzhledem k tomu, že se pokyny pro odpovědné používání umělé inteligence při syntéze důkazů neustále vyvíjejí, nabízejí tyto případové studie pragmatickou perspektivu: GenAI funguje nejlépe, když je její role jasně definována, její výstupy jsou transparentní a odborný úsudek zůstává ve smyčce. Při použití tímto způsobem může GenAI podpořit standardy důkazů, které jsou zásadní pro přísné studie HTA a HEOR.
Poznámka: Zdroje uvedené níže


Zřeknutí se odpovědnosti:
Tento článek shrnuje chápání tématu ze strany společnosti Cencora na základě veřejně dostupných informací v době psaní (viz uvedené zdroje) a odborných znalostí autorů v této oblasti. Jakákoli doporučení uvedená v článku nemusí být použitelná pro všechny situace a nepředstavují právní radu; Čtenáři by se neměli spoléhat na článek při rozhodování souvisejícím s diskutovanými tématy.


Spojte se s naším týmem

Náš tým špičkových odborníků se zaměřuje na přetváření důkazů, poznatků z analýz politik a informací o trhu v účinné strategie přístupu na globální trh. Dovolte nám, abychom vám pomohli s jistotou se orientovat v dnešním složitém prostředí zdravotní péče. Ozvěte se nám a zjistěte, jak můžeme podpořit dosažení vašich cílů.

 

Zdroje

  • Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Hodnocení výkonu nástroje poháněného umělou inteligencí pro hodnocení systematických recenzí literatury pomocí kontrolního seznamu Preferované položky vykazování pro systematické přehledy a metaanalýzy 2020. Važte si zdraví. V tisku. 2026.
  • Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Využití umělé inteligence k zefektivnění hodnocení kvality studie v systematických přehledech literatury. Važte si zdraví. 2025; 28(6 suppl 1):S400. DOI:10.1016/j.jval.2025.04.1783
  • Arregui M, Koufopoulou M. EE446: Hodnocení výkonnosti nástroje pro hodnocení kvality publikovaných ekonomických hodnocení poháněného umělou inteligencí: srovnání s lidskými recenzenty pomocí Drummondova kontrolního seznamu. Važte si zdraví. 2025; 28(12 suppl 1):S194. DOI:10.1016/j.jval.2025.09.829
  • Cochrane; Guidelines International Network; Campbellova spolupráce. ZVÝŠIT: Zodpovědné využití umělé inteligence při syntéze důkazů. Publikováno 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis 
  • Drummond MF, Sculpher MJ, Torrance GW, O'Brien BJ, Stoddart GL. Metody ekonomického hodnocení zdravotnických programů. Oxford University Press; 2005.
  • Evropská komise; Generální ředitelství pro zdraví a bezpečnost potravin. Pokyny k platnosti klinických studií pro společná klinická hodnocení. Přijato 4. července 2024. Přístup 18. května 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
  • Higgins JPT, Altman DG, Gøtzsche PC, et al. Nástroj Cochrane Collaboration pro hodnocení rizika zkreslení v randomizovaných studiích. BMJ. 2011; 343:D5928.
  • Motheral B, Brooks J, Clark MA, et al. Kontrolní seznam pro retrospektivní databázové studie. Važte si zdraví. 2003; 6(2):90-97.
  • Národní institut pro zdraví a péči. Využití umělé inteligence při generování důkazů: Stanovisko NICE. Publikováno 2024. Přístup 18. května 2026. https://www.nice.org.uk/corporate/ecd11 
  • Page MJ, McKenzie JE, Bossuyt PM, et al. Prohlášení PRISMA 2020. BMJ. 2021; 372:N71.
  • Wells GA, Shea B, O'Connell D, et al. Newcastle-Ottawská škála (NOS) pro hodnocení kvality nerandomizovaných studií v metaanalýzách. Vydáno 2014.
  • Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: Srovnávací posouzení požadavků na jednooké zrcadlovky pro HTA. Važte si zdraví. 2023; 26(12):S389-S390.
 

Související zdroje

Zpravodaj

HTA čtvrtletně léto 2026

Článek

Kromě přímých zdravotních výsledků: Širší společenský dopad inovativních léčebných postupů

Článek

Beyond public dashboards: Leveraging Germany’s National Cancer Registry for pharmaceutical research – Insights from a ZfKD Research Initiative