Artikkel

AI-assistert kvalitetsvurdering i HEOR: Hva som fungerer, hva som ikke fungerer, og hvordan du bruker GenAI på en ansvarlig måte

  • Maria Arregui, PhD

  • Erika Wissinger

  • Evelyn Gomez-Espinosa, PhD

  • Maria Koufopoulou, MSc

Kvalitetsvurderinger og Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) samsvarskontroller er avgjørende for troverdig evidenssyntese i helseøkonomi og resultatforskning (HEOR), men de er også tidkrevende trinn. På tvers av tre interne casestudier utforsket vi hvor en lukket system generativ kunstig intelligens (GenAI) chatbot virkelig kan tilføre verdi, og hvor ekspertmenneskelig vurdering fortsatt utgjør forskjellen.

Hvorfor dette spørsmålet er viktig nå

Systematiske litteraturoversikter (SLR) er kjernen i metodevurdering (HTA) og HEOR. De informerer refusjonsbeslutninger, former klinisk og politisk veiledning og underbygger verdifortellinger på tvers av markeder. Likevel avhenger troverdigheten til en speilreflekskamera av mer enn omfattende søk – den er avhengig av transparent rapportering og streng vurdering av kvaliteten på de underliggende bevisene.

Denne vektleggingen av evidenskvalitet gjenspeiles i økende grad i regulatoriske rammeverk for metodevurderinger. I henhold til EUs HTA-forordning er Joint Clinical Assessments (JCA) eksplisitt pålagt å evaluere validiteten, styrkene, begrensningene og usikkerheten til det kliniske kunnskapsgrunnlaget. Nyere JCA-metodisk veiledning formaliserer forventningene rundt vurdering av intern og ekstern validitet på tvers av kliniske studiedesign, og understreker at streng vurdering er sentralt for komparativ klinisk vurdering på europeisk nivå.
Kvalitetssikringsoppgaver som PRISMA-samsvarskontroll og strukturert studiekvalitetsvurdering er derfor avgjørende. Samtidig er de arbeidskrevende. Etter hvert som bevispakkene blir større og HTA-tidslinjene blir kortere, blir HEOR-teamene i økende grad utfordret til å gjøre mer, raskere – uten at det går på bekostning av strengheten.

GenAI har gått inn i denne samtalen med betydelig momentum. Politiske og metodiske organer har begynt å anerkjenne potensialet til å støtte evidenssyntese, samtidig som de understreker behovet for forsiktig, gjennomsiktig og velstyrt adopsjon. Spørsmålet er ikke lenger om GenAI kan brukes i HEOR, men hvordan – og hvor – det skal brukes ansvarlig.
 

Hva vi satte oss fore å lære

I stedet for å spørre om GenAI kunne erstatte ekspertanmeldere, fokuserte vi på et mer praktisk spørsmål: Kan en lukket system GenAI chatbot pålitelig støtte strukturerte, sjekklistebaserte kvalitetsvurderingsoppgaver på studienivå (QA) – og under hvilke forhold kommer den til kort?

For å svare på dette gjennomførte vi tre interne evalueringer, som hver tok for seg en kjernekvalitetssikringsaktivitet som vanligvis kreves i HEOR:

  • PRISMA 2020-samsvarskontroll for publiserte speilreflekskameraer
  • Vurdering av studiekvalitet på tvers av flere studiedesign i et speilreflekskamera
  • Kvalitetsvurdering av økonomiske evalueringer ved hjelp av Drummond-sjekklisten

Alle tre studiene brukte de samme grunnleggende prinsippene: et sikkert internt miljø, standardiserte forespørsler tilpasset etablerte verktøy og direkte sammenligning med opplærte menneskelige vurderere.

En vanlig, styrt tilnærming

På tvers av evalueringene ble GenAI-chatboten distribuert på en bevisst begrenset måte. Publikasjoner ble lastet opp individuelt, ledetekster ble eksplisitt kartlagt til sjekklistepunkter, og utdata ble pålagt å inkludere både en kategorisk vurdering og ordrett støttetekst fra kildedokumentet.

Menneskelige vurderinger fungerte som referansestandard og var gjenstand for andre vurderingsvalidering. Dette designet tillot oss å evaluere ikke bare avtalepriser, men også hvorfor uenigheter oppstod.

Casestudie 1: PRISMA 2020 sjekkliste

I den første evalueringen ble seks publiserte speilreflekskameraer vurdert opp mot PRISMA 2020 ved hjelp av 42 sjekklisteavledede spørsmål. Totalt sett oppnådde GenAI-chatboten 93 % full enighet med menneskelige anmeldere.

Som forventet var resultatene sterkest i domener preget av standardisert, eksplisitt rapportering. Elementer relatert til tittel, sammendrag, introduksjon og annen informasjon viste fullstendig samsvar mellom gjennomgangen av mennesker og chatbot. I motsetning til dette grupperte uoverensstemmelser seg på områder som rutinemessig utfordrer menneskelige anmeldere også, spesielt tolkende diskusjonspunkter.

Funnene tyder på at GenAI er spesielt effektiv til å identifisere og organisere informasjon som er eksplisitt rapportert, noe som gjør det til et verdifullt verktøy for innledende PRISMA-kontroller. Men når tolkning er nødvendig, fortsetter menneskelig tilsyn å spille en viktig rolle. 

Casestudie 2: Vurdering av studiekvalitet

Den andre evalueringen utvidet dette spørsmålet til kvalitetsvurdering på tvers av heterogene studiedesign. Totalt ble 28 studier evaluert: 6 randomiserte kontrollerte studier (RCT), 4 prospektive kohortstudier og 18 retrospektive kohortstudier. Ved å bruke designpassende verktøy (dvs. henholdsvis RoB 1, Newcastle–Ottawa-skalaen og Motheral-sjekklisten), var enigheten mellom GenAI og menneskelige anmeldere bemerkelsesverdig konsistent, fra 81 % til 83 %.

Uenigheter fulgte tilbakevendende mønstre. Allokeringsskjul i RCT-er, datakildepålitelighet i retrospektive studier og kohortsammenlignbarhet i prospektive observasjonsstudier viste seg alle å være utfordrende, spesielt når rapporteringen var ufullstendig.

Spesielt falt GenAI-ytelsen i studier av lavere kvalitet. Mens chatboten pålitelig hentet ut rapportert informasjon, slet den med fraværet av bevis, en nyanse som menneskelige anmeldere kan tolke ved hjelp av metodisk kontekst og erfaring.

Casestudie 3: Økonomiske evalueringer

Den tredje evalueringen undersøkte GenAI-assistert kvalitetsvurdering av økonomiske evalueringer ved hjelp av Drummond-sjekklisten. På tvers av åtte studier varierte enigheten fra 65,7 % til 100 %, med en median på 94,3 %.

Der det oppsto avvik, ble de igjen knyttet til tvetydig eller ufullstendig rapportering. Et tilbakevendende mønster viste en tendens til optimistiske vurderinger, med GenAI-chatboten som av og til tildelte et "Ja" der menneskelige anmeldere vurderte kriteriene som uoppfylte.

Hva disse casestudiene forteller oss

Samlet sett peker disse evalueringene på flere lærdommer for HEOR-praksis.

For det første er høy konkordans oppnåelig når GenAI brukes på godt avgrensede, sjekklistedrevne oppgaver ved hjelp av nøye utformede ledetekster. For det andre sliter GenAI mest på de samme stedene som mennesker gjør – når rapporteringen er uklar, ufullstendig eller krever kontekstuell tolkning.

For det tredje setter rapporteringskvalitet taket for automatisering. Bedre rapportering muliggjør bedre kvalitetssikring, enten den utføres av mennesker eller AI.

Disse funnene taler mot å se på GenAI som en erstatning for ekspertanmeldere. I stedet ligger verdien i å fungere som en andre anmelder eller akselerator: standardisere utdata, vise støttetekst effektivt og frigjøre menneskelig ekspertise for vurderingene som virkelig krever det.

Avsluttende tanker

På tvers av tre distinkte, men relaterte brukstilfeller, demonstrerte en lukket system GenAI-chatbot et klart potensial for å akselerere kvalitetssikring i HEOR uten å undergrave strenghet – forutsatt at den distribueres gjennomtenkt og innenfor et styrt, menneskelig i sløyfe-rammeverket.

Ettersom veiledning om ansvarlig bruk av kunstig intelligens i evidenssyntese fortsetter å utvikle seg, gir disse casestudiene et pragmatisk perspektiv: GenAI fungerer best når rollen er klart definert, resultatene er gjennomsiktige og ekspertvurderinger forblir i løkken. Brukt på denne måten kan GenAI støtte evidensstandardene som er grunnleggende for strenge HTA- og HEOR-studier.
Notat: Kilder oppført nedenfor


Ansvarserklæring:
Denne artikkelen oppsummerer Cencoras forståelse av emnet basert på offentlig tilgjengelig informasjon i skrivende stund (se oppførte kilder) og forfatternes ekspertise på dette området. Eventuelle anbefalinger gitt i artikkelen gjelder kanskje ikke for alle situasjoner og utgjør ikke juridisk rådgivning; Lesere bør ikke stole på artikkelen når de tar avgjørelser knyttet til temaene som diskuteres.


Ta kontakt med teamet vårt

Vårt team av ledende verdieksperter arbeider iherdig med å omsette bevis, policy-innsikt og markedsinformasjon til effektive tilgangsstrategier for det globale markedet. Vi hjelper deg med å finne frem i dagens komplekse helsetjenester. Kontakt oss, så hjelper vi deg med å nå målene dine.

 

Kilder

  • Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Evaluering av ytelsen til et kunstig intelligens-drevet verktøy for vurdering av systematiske litteraturoversikter ved hjelp av sjekklisten Preferred Reporting Items for Systematic Reviews and Meta-Analyses 2020. Vurder helse. I trykk. 2026.
  • Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Utnytte kunstig intelligens for å effektivisere studiekvalitetsvurdering i systematiske litteraturoversikter. Vurder helse. 2025; 28(6 suppl 1):S400. doi:10.1016/j.jval.2025.04.1783
  • Arregui M, Koufopoulou M. EE446: Evaluering av ytelsen til et kunstig intelligens-drevet verktøy for å vurdere kvaliteten på publiserte økonomiske evalueringer: en sammenligning med menneskelige anmeldere ved hjelp av Drummond-sjekklisten. Vurder helse. 2025; 28(12 suppl 1):S194. doi:10.1016/j.jval.2025.09.829
  • Cochrane; retningslinjer internasjonalt nettverk; Campbell-samarbeid. HEVE: Ansvarlig bruk av kunstig intelligens i evidenssyntese. Publisert 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis 
  • Drummond MF, Sculpher MJ, Torrance GW, O'Brien BJ, Stoddart GL. Metoder for økonomisk evaluering av helsetilbud. Oxford University Press; 2005.
  • Europakommisjonen; Generaldirektoratet for helse og mattrygghet. Veiledning om validitet av kliniske studier for felles kliniske vurderinger. Vedtatt 4. juli 2024. Åpnet 18 mai 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
  • Higgins JPT, Altman DG, Gøtzsche PC, et al. Cochrane-samarbeidets verktøy for å vurdere risiko for skjevheter i randomiserte studier. BMJ. 2011; 343:d5928.
  • Mor B, Brooks J, Clark MA, et al. En sjekkliste for retrospektive databasestudier. Vurder helse. 2003; 6(2):90-97.
  • Nasjonalt institutt for fremragende helse og omsorg. Bruk av AI i bevisgenerering: FIN posisjonserklæring. Publisert 2024. Åpnet 18 mai 2026. https://www.nice.org.uk/corporate/ecd11 
  • Side MJ, McKenzie JE, Bossuyt PM, et al. PRISMA 2020-uttalelsen. BMJ. 2021; 372:n71.
  • Wells GA, Shea B, O'Connell D, et al. Newcastle-Ottawa Scale (NOS) for å vurdere kvaliteten på ikke-randomiserte studier i metaanalyser. Publisert 2014.
  • Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: En komparativ vurdering av SLR-krav til metodevurdering. Vurder helse. 2023; 26(12):S389-S390.
 

Relaterte ressurser

Nyhetsbrev

HTA kvartalsvis sommer 2026

Artikkel

Utover direkte helseutfall: Den bredere samfunnsmessige effekten av innovative behandlinger

Artikkel

Beyond public dashboards: Leveraging Germany’s National Cancer Registry for pharmaceutical research – Insights from a ZfKD Research Initiative