Artikel

AI-ondersteunde kwaliteitsbeoordeling in HEOR: Wat werkt, wat niet, en hoe GenAI op verantwoorde wijze toe te passen

  • Maria Arregui, PhD

  • Erika Wissinger

  • Evelyn Gomez-Espinosa, PhD

  • Maria Koufopoulou, MSc

Kwaliteitsbeoordelingen en Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) nalevingscontroles zijn essentieel voor geloofwaardige bewijssynthese in gezondheidseconomie en uitkomstenonderzoek (HEOR), maar het zijn ook tijdrovende stappen. In drie interne casestudy's hebben we onderzocht waar een generatieve kunstmatige intelligentie (GenAI) chatbot met een gesloten systeem echt waarde kan toevoegen en waar deskundig menselijk oordeel nog steeds het verschil maakt.

Waarom deze vraag er nu toe doet

Systematische literatuuronderzoeken (SLR's) vormen de kern van de evaluatie van gezondheidstechnologie (HTA) en HEOR. Ze vormen de basis voor vergoedingsbeslissingen, geven vorm aan klinische en beleidsrichtlijnen en ondersteunen waardeverhalen in alle markten. Toch hangt de geloofwaardigheid van een SLR af van meer dan uitgebreid zoeken - het is afhankelijk van transparante rapportage en een rigoureuze beoordeling van de kwaliteit van het onderliggende bewijsmateriaal.

Deze nadruk op bewijskwaliteit wordt steeds meer weerspiegeld in regelgevende HTA-kaders. Op grond van de EU-EGT-verordening zijn gezamenlijke klinische evaluaties (JCA's) expliciet vereist om de validiteit, sterke punten, beperkingen en onzekerheid van de klinische bewijsbasis te evalueren. Recente methodologische richtlijnen van JCA formaliseren de verwachtingen rond de beoordeling van interne en externe validiteit in klinische onderzoeksontwerpen, en onderstrepen dat rigoureuze beoordeling centraal staat in vergelijkende klinische beoordeling op Europees niveau.
Kwaliteitsborgingstaken zoals PRISMA-nalevingscontrole en gestructureerde beoordeling van de studiekwaliteit zijn daarom essentieel. Tegelijkertijd zijn ze arbeidsintensief. Naarmate bewijspakketten groter worden en HTA-tijdlijnen korter worden, worden HEOR-teams steeds meer uitgedaagd om meer en sneller te doen, zonder afbreuk te doen aan de nauwkeurigheid.

GenAI is dit gesprek met veel vaart ingegaan. Beleids- en methodologische instanties beginnen het potentieel ervan te erkennen om de synthese van bewijsmateriaal te ondersteunen, terwijl ze tegelijkertijd de noodzaak benadrukken van voorzichtige, transparante en goed beheerde acceptatie. De vraag is niet langer of GenAI in HEOR kan worden gebruikt, maar hoe en waar het op verantwoorde wijze moet worden gebruikt.
 

Wat we wilden leren

In plaats van te vragen of GenAI deskundige recensenten zou kunnen vervangen, hebben we ons gericht op een meer praktische vraag: Kan een GenAI-chatbot met een gesloten systeem op betrouwbare wijze gestructureerde, op checklists gebaseerde kwaliteitsbeoordelingstaken (QA) op studieniveau ondersteunen - en onder welke voorwaarden schiet hij tekort?

Om dit te beantwoorden, hebben we drie interne evaluaties uitgevoerd, die elk betrekking hadden op een kernactiviteit van QA die gewoonlijk vereist is in HEOR:

  • PRISMA 2020 nalevingscontrole voor gepubliceerde spiegelreflexcamera's
  • Beoordeling van de kwaliteit van het onderzoek over meerdere onderzoeksontwerpen binnen een spiegelreflexcamera
  • Kwaliteitsbeoordeling van economische evaluaties met behulp van de Drummond-checklist

Alle drie de onderzoeken gebruikten dezelfde basisprincipes: een veilige interne omgeving, gestandaardiseerde prompts afgestemd op gevestigde tools en directe vergelijking met getrainde menselijke beoordelaars.

Een gemeenschappelijke, beheerste aanpak

Tijdens de evaluaties werd de GenAI-chatbot op een opzettelijk beperkte manier ingezet. Publicaties werden afzonderlijk geüpload, prompts werden expliciet toegewezen aan checklist-items en outputs moesten zowel een categorisch oordeel als woordelijke ondersteunende tekst uit het brondocument bevatten.

Menselijke beoordelingen dienden als referentiestandaard en waren onderworpen aan validatie door een tweede beoordelaar. Dit ontwerp stelde ons in staat om niet alleen de overeenkomsttarieven te evalueren, maar ook waarom meningsverschillen ontstonden.

Casestudy 1: PRISMA 2020 checklist

In de eerste evaluatie werden zes gepubliceerde spiegelreflexcamera's beoordeeld aan de hand van PRISMA 2020 met behulp van 42 van checklists afgeleide vragen. Over het algemeen bereikte de GenAI-chatbot 93% volledige overeenstemming met menselijke beoordelaars.

Zoals verwacht waren de prestaties het sterkst in domeinen die werden gekenmerkt door gestandaardiseerde, expliciete rapportage. Items met betrekking tot de titel, samenvatting, inleiding en andere informatie toonden volledige afstemming tussen de menselijke en chatbot-beoordeling. Discrepanties daarentegen geclusterd op gebieden die routinematig ook menselijke recensenten uitdagen, met name interpretatieve discussiepunten.

De bevindingen suggereren dat GenAI bijzonder effectief is in het identificeren en organiseren van informatie die expliciet wordt gerapporteerd, waardoor het een waardevol hulpmiddel is voor de eerste PRISMA-controles. Wanneer interpretatie echter nodig is, blijft menselijk toezicht een belangrijke rol spelen. 

Casestudy 2: Beoordeling van de kwaliteit van de studie

De tweede evaluatie breidde deze vraag uit tot kwaliteitsbeoordeling in heterogene onderzoeksontwerpen. In totaal werden 28 studies geëvalueerd: 6 gerandomiseerde gecontroleerde onderzoeken (RCT's), 4 prospectieve cohortstudies en 18 retrospectieve cohortstudies. Met behulp van ontwerpgeschikte tools (d.w.z. respectievelijk RoB 1, Newcastle-Ottawa Scale en de Motheral-checklist) was de overeenkomst tussen GenAI en menselijke beoordelaars opmerkelijk consistent, variërend van 81% tot 83%.

Meningsverschillen volgden terugkerende patronen. Het verbergen van de toewijzing in RCT's, de betrouwbaarheid van de gegevensbronnen in retrospectieve studies en de vergelijkbaarheid van cohorten in prospectieve observationele studies bleken allemaal een uitdaging, vooral wanneer de rapportage onvolledig was.

Met name de prestaties van GenAI daalden in onderzoeken van lagere kwaliteit. Hoewel de chatbot op betrouwbare wijze gerapporteerde informatie extraheerde, worstelde hij met de afwezigheid van bewijs, een nuance die menselijke beoordelaars kunnen interpreteren met behulp van methodologische context en ervaring.

Casestudy 3: Economische evaluaties

De derde evaluatie onderzocht de door GenAI ondersteunde kwaliteitsbeoordeling van economische evaluaties met behulp van de Drummond-checklist. In acht onderzoeken varieerde de overeenstemming van 65,7% tot 100%, met een mediaan van 94,3%.

Waar discrepanties ontstonden, werden deze opnieuw gekoppeld aan dubbelzinnige of onvolledige rapportage. Een terugkerend patroon vertoonde een neiging tot optimistische oordelen, waarbij de GenAI-chatbot af en toe een "Ja" toekende waar menselijke recensenten de criteria als niet vervuld beoordeelden.

Wat deze casestudy's ons vertellen

Samen bekeken wijzen deze evaluaties op verschillende lessen voor de HEOR-praktijk.

Ten eerste is een hoge concordantie haalbaar wanneer GenAI wordt toegepast op goed begrensde, checklistgestuurde taken met behulp van zorgvuldig ontworpen prompts. Ten tweede worstelt GenAI het meest op dezelfde plaatsen waar mensen dat doen - wanneer rapportage onduidelijk of onvolledig is of contextuele interpretatie vereist.

Ten derde bepaalt de kwaliteit van de rapportage het plafond voor automatisering. Betere rapportage maakt betere QA mogelijk, of deze nu door mensen of AI wordt uitgevoerd.

Deze bevindingen pleiten ervoor om GenAI niet te zien als een vervanging voor deskundige recensenten. In plaats daarvan ligt de waarde ervan in het optreden als een tweede recensent of versneller: het standaardiseren van output, het efficiënt naar boven halen van ondersteunende tekst en het vrijmaken van menselijke expertise voor de oordelen die dit echt vereisen.

Afsluitende gedachten

In drie verschillende maar gerelateerde gebruiksscenario's toonde een GenAI-chatbot met gesloten systeem een duidelijk potentieel om de kwaliteitsborging in HEOR te versnellen zonder de nauwkeurigheid te ondermijnen, op voorwaarde dat deze doordacht en binnen een bestuurd, menselijk in de lus-kader wordt ingezet.

Naarmate de richtlijnen voor verantwoord AI-gebruik bij bewijssynthese blijven evolueren, bieden deze casestudy's een pragmatisch perspectief: GenAI werkt het beste wanneer zijn rol duidelijk is gedefinieerd, zijn output transparant is en het oordeel van experts op de hoogte blijft. Op deze manier kan GenAI de bewijsstandaarden ondersteunen die fundamenteel zijn voor rigoureuze HTA- en HEOR-onderzoeken.
Notitie: Onderstaande bronnen


Disclaimer:
Dit artikel geeft een overzicht van Cencora's begrip van het onderwerp op basis van algemeen beschikbare informatie op het moment van schrijven (zie vermelde bronnen) en de expertise van de auteurs op dit gebied. Aanbevelingen in het artikel zijn mogelijk niet op alle situaties van toepassing en vormen geen juridisch advies; Lezers mogen niet op het artikel vertrouwen bij het nemen van beslissingen met betrekking tot de besproken onderwerpen.


Neem contact op met ons team

Ons ervaren team van waarde-experts creëert op basis van bewijsmateriaal, beleidsinzichten en marktinformatie effectieve strategieën voor toegang tot wereldwijde markten. We maken u wegwijs in de complexe wereld van de gezondheidszorg in verschillende delen van de wereld. Neem contact op om te ontdekken hoe we uw doelen kunnen ondersteunen.

 

Bronnen

  • Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Evaluatie van de prestaties van een door kunstmatige intelligentie aangedreven tool voor het beoordelen van systematische literatuuronderzoeken met behulp van de checklist Preferred Reporting Items for Systematic Reviews and Meta-Analyses 2020. Waarde gezondheid. Ter perse. 2026.
  • Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Gebruikmaken van kunstmatige intelligentie om de beoordeling van de studiekwaliteit in systematische literatuuronderzoeken te stroomlijnen. Waarde gezondheid. 2025; 28(6 suppl 1):S400. doi:10.1016/j.jval.2025.04.1783
  • Arregui M, Koufopoulou M. EE446: Evaluatie van de prestaties van een door kunstmatige intelligentie aangedreven tool voor het beoordelen van de kwaliteit van gepubliceerde economische evaluaties: een vergelijking met menselijke recensenten met behulp van de Drummond-checklist. Waarde gezondheid. 2025; 28(12 suppl 1):S194. doi:10.1016/j.jval.2025.09.829
  • Cochrane; Richtlijnen Internationaal Netwerk; Campbell-samenwerking. VERHOGEN: Verantwoord AI-gebruik bij bewijssynthese. Gepubliceerd in 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis 
  • Drummond MF, Sculpher MJ, Torrance GW, O'Brien BJ, Stoddart GL. Methoden voor de economische evaluatie van gezondheidszorgprogramma's. Oxford Universitaire Pers; 2005.
  • Europese Commissie; Directoraat-generaal Gezondheid en Voedselveiligheid. Richtsnoeren voor de validiteit van klinische studies voor gezamenlijke klinische evaluaties. Aangenomen op 4 juli 2024. Geraadpleegd op 18 mei 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
  • Higgins JPT, Altman DG, Gøtzsche PC, et al. De Cochrane Collaboration's tool voor het beoordelen van het risico op bias in gerandomiseerde studies. BMJ. 2011; 343:d5928.
  • Moeder B, Brooks J, Clark MA, et al. Een checklist voor retrospectieve databasestudies. Waarde gezondheid. 2003; 6(2):90-97.
  • Nationaal Instituut voor Excellentie in Gezondheid en Zorg. Gebruik van AI bij het genereren van bewijsmateriaal: NICE-positieverklaring. Gepubliceerd in 2024. Geraadpleegd op 18 mei 2026. https://www.nice.org.uk/corporate/ecd11 
  • Pagina MJ, McKenzie JE, Bossuyt PM, et al. De PRISMA 2020-verklaring. BMJ. 2021; 372:n71.
  • Wells GA, Shea B, O'Connell D, et al. De Newcastle-Ottawa Scale (NOS) voor het beoordelen van de kwaliteit van niet-gerandomiseerde studies in meta-analyses. Gepubliceerd in 2014.
  • Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: Een vergelijkende beoordeling van SLR-vereisten voor HTA. Waarde gezondheid. 2023; 26(12):S389-S390.
 

Gerelateerde bronnen

Nieuwsbrief

HTA Quarterly zomer 2026

Artikel

Meer dan directe gezondheidsresultaten: De bredere maatschappelijke impact van innovatieve behandelingen

Artikel

Beyond public dashboards: Leveraging Germany’s National Cancer Registry for pharmaceutical research – Insights from a ZfKD Research Initiative