Artikel

KI-gestützte Qualitätsbewertung in HEOR: Was funktioniert, was nicht und wie man GenAI verantwortungsvoll einsetzt

Maria Arregui, PhD
Erika Wissinger
Evelyn Gomez-Espinosa, PhD
Maria Koufopoulou, MSc

Qualitätsbewertungen und PRISMA-Compliance-Prüfungen (Preferred Reporting Items for Systematic Reviews and Meta-Analysis) sind für eine glaubwürdige Evidenzsynthese in der Gesundheitsökonomie und Ergebnisforschung (Health Economics and Outcomes Research, HEOR) unerlässlich, aber sie sind auch zeitintensive Schritte. In drei internen Fallstudien untersuchten wir, wo ein Chatbot mit geschlossener generativer künstlicher Intelligenz (GenAI) wirklich einen Mehrwert schaffen kann und wo das menschliche Expertenurteil immer noch den Unterschied ausmacht.

Warum diese Frage jetzt wichtig ist

Systematische Literaturübersichten (SLRs) stehen im Mittelpunkt der Bewertung von Gesundheitstechnologien (HTA) und HEOR. Sie dienen als Grundlage für Erstattungsentscheidungen, gestalten klinische und politische Leitlinien und untermauern Wertnarrative über alle Märkte hinweg. Die Glaubwürdigkeit eines SLR hängt jedoch von mehr als einer umfassenden Suche ab – er beruht auf einer transparenten Berichterstattung und einer strengen Bewertung der Qualität der zugrunde liegenden Beweise.

Diese Betonung der Evidenzqualität spiegelt sich zunehmend in den regulatorischen HTA-Rahmenbedingungen wider. Gemäß der EU-HTA-Verordnung sind Joint Clinical Assessments (JCAs) ausdrücklich verpflichtet, die Gültigkeit, Stärken, Grenzen und Unsicherheiten der klinischen Evidenzbasis zu bewerten. Jüngste JCA-Methodikleitlinien formalisieren die Erwartungen an die Bewertung der internen und externen Validität über klinische Studiendesigns hinweg und unterstreichen, dass eine strenge Bewertung für die vergleichende klinische Bewertung auf europäischer Ebene von zentraler Bedeutung ist.

Qualitätssicherungsaufgaben wie die PRISMA-Compliance-Prüfung und die strukturierte Bewertung der Studienqualität sind daher unerlässlich. Gleichzeitig sind sie arbeitsintensiv. Da die Evidenzpakete immer größer werden und die HTA-Fristen kürzer werden, stehen HEOR-Teams zunehmend vor der Herausforderung, mehr und schneller zu erledigen – ohne die Genauigkeit zu beeinträchtigen.

GenAI ist mit erheblicher Dynamik in dieses Gespräch eingetreten. Politische und methodische Gremien haben begonnen, ihr Potenzial zur Unterstützung der Evidenzsynthese anzuerkennen und gleichzeitig die Notwendigkeit einer vorsichtigen, transparenten und gut gesteuerten Einführung zu betonen. Die Frage ist nicht mehr, ob GenAI in HEOR eingesetzt werden könnte, sondern wie – und wo – es verantwortungsvoll eingesetzt werden sollte.

Was wir lernen wollten

Anstatt zu fragen, ob GenAI Expertengutachter ersetzen könnte, konzentrierten wir uns auf eine praktischere Frage: Kann ein geschlossener GenAI-Chatbot strukturierte, checklistenbasierte Qualitätsbeurteilungsaufgaben (QA) auf Studienebene zuverlässig unterstützen – und unter welchen Bedingungen greift er zu kurz?

Um dies zu beantworten, führten wir drei interne Bewertungen durch, die sich jeweils mit einer Kern-QS-Aktivität befassten, die in HEOR üblicherweise erforderlich ist:

PRISMA 2020 Compliance-Prüfung für veröffentlichte Spiegelreflexkameras
Bewertung der Studienqualität über mehrere Studiendesigns innerhalb eines SLR
Qualitätsbewertung von wirtschaftlichen Bewertungen anhand der Drummond-Checkliste

Alle drei Studien verwendeten die gleichen grundlegenden Prinzipien: eine sichere interne Umgebung, standardisierte Eingabeaufforderungen, die auf etablierte Tools abgestimmt sind, und direkter Vergleich mit geschulten menschlichen Gutachtern.

Ein gemeinsamer, kontrollierter Ansatz

Bei den Evaluierungen wurde der GenAI-Chatbot bewusst eingeschränkt eingesetzt. Die Veröffentlichungen wurden einzeln hochgeladen, Eingabeaufforderungen wurden explizit den Checklistenpunkten zugeordnet, und die Ergebnisse mussten sowohl ein kategorisches Urteil als auch einen wörtlichen Begleittext aus dem Quelldokument enthalten.

Menschliche Bewertungen dienten als Referenzstandard und wurden von einem zweiten Gutachter validiert. Dieses Design ermöglichte es uns, nicht nur die Übereinstimmungsraten zu bewerten, sondern auch, warum Meinungsverschiedenheiten auftraten.

Fallstudie 1: PRISMA 2020 Checkliste

In der ersten Bewertung wurden sechs veröffentlichte SLRs anhand von PRISMA 2020 anhand von 42 von der Checkliste abgeleiteten Fragen bewertet. Insgesamt erreichte der GenAI-Chatbot eine vollständige Übereinstimmung von 93 % mit den menschlichen Rezensenten.

Wie erwartet war die Leistung in Bereichen am stärksten, die durch standardisierte, explizite Berichterstattung gekennzeichnet sind. Items, die sich auf den Titel, die Zusammenfassung, die Einleitung und andere Informationen bezogen, zeigten eine vollständige Übereinstimmung zwischen der menschlichen und der Chatbot-Überprüfung. Im Gegensatz dazu häuften sich Diskrepanzen in Bereichen, die routinemäßig auch menschliche Gutachter herausfordern, insbesondere interpretative Diskussionspunkte.

Die Ergebnisse deuten darauf hin, dass GenAI besonders effektiv bei der Identifizierung und Organisation von Informationen ist, die explizit gemeldet werden, was es zu einem wertvollen Werkzeug für erste PRISMA-Prüfungen macht. Wenn jedoch eine Interpretation erforderlich ist, spielt die menschliche Aufsicht weiterhin eine wichtige Rolle.

Fallstudie 2: Bewertung der Studienqualität

Die zweite Evaluierung erweiterte diese Frage auf die Qualitätsbewertung über heterogene Studiendesigns hinweg. Insgesamt wurden 28 Studien ausgewertet: 6 randomisierte kontrollierte Studien (RCTs), 4 prospektive Kohortenstudien und 18 retrospektive Kohortenstudien. Unter Verwendung designgeeigneter Tools (z. B. RoB 1, Newcastle-Ottawa-Skala bzw. der Motheral-Checkliste) war die Übereinstimmung zwischen GenAI und menschlichen Prüfern bemerkenswert konsistent und lag zwischen 81 % und 83 %.

Meinungsverschiedenheiten folgten wiederkehrenden Mustern. Die Verschleierung der Zuordnung in RCTs, die Zuverlässigkeit der Datenquellen in retrospektiven Studien und die Vergleichbarkeit der Kohorten in prospektiven Beobachtungsstudien erwiesen sich als Herausforderung, insbesondere wenn die Berichterstattung unvollständig war.

Bemerkenswert ist, dass die Leistung von GenAI in Studien von geringerer Qualität abnahm. Während der Chatbot zuverlässig gemeldete Informationen extrahierte, kämpfte er mit dem Fehlen von Beweisen, einer Nuance, die menschliche Prüfer anhand des methodischen Kontexts und der Erfahrung interpretieren können.

Fallstudie 3: Wirtschaftliche Bewertungen

Die dritte Evaluierung untersuchte die GenAI-gestützte Qualitätsbewertung wirtschaftlicher Bewertungen anhand der Drummond-Checkliste. In acht Studien lag die Übereinstimmung zwischen 65,7 % und 100 % mit einem Median von 94,3 %.

Wo Diskrepanzen auftraten, waren sie wiederum mit einer mehrdeutigen oder unvollständigen Berichterstattung verbunden. Ein wiederkehrendes Muster zeigte eine Tendenz zu optimistischen Urteilen, wobei der GenAI-Chatbot gelegentlich ein "Ja" vergab, wenn menschliche Prüfer Kriterien als nicht erfüllt beurteilten.

Was uns diese Fallstudien sagen

Zusammengenommen weisen diese Bewertungen auf mehrere Lektionen für die HEOR-Praxis hin.

Erstens ist eine hohe Übereinstimmung erreichbar, wenn GenAI auf gut begrenzte, checklistengesteuerte Aufgaben mit sorgfältig gestalteten Eingabeaufforderungen angewendet wird. Zweitens kämpft GenAI am meisten an den gleichen Stellen wie Menschen – wenn die Berichterstattung unklar oder unvollständig ist oder eine kontextbezogene Interpretation erfordert.

Drittens legt die Berichtsqualität die Obergrenze für die Automatisierung fest. Eine bessere Berichterstattung ermöglicht eine bessere Qualitätssicherung, unabhängig davon, ob sie von Menschen oder KI durchgeführt wird.

Diese Ergebnisse sprechen dagegen, GenAI als Ersatz für Fachgutachter zu betrachten. Stattdessen liegt sein Wert darin, als zweiter Gutachter oder Beschleuniger zu fungieren: Ergebnisse zu standardisieren, unterstützende Texte effizient anzuzeigen und menschliches Fachwissen für die Urteile freizusetzen, die es wirklich erfordern.

Abschließende Gedanken

In drei unterschiedlichen, aber verwandten Anwendungsfällen zeigte ein geschlossener GenAI-Chatbot ein klares Potenzial, die Qualitätssicherung in HEOR zu beschleunigen, ohne die Strenge zu untergraben – vorausgesetzt, er wird durchdacht und innerhalb eines geregelten Human in the Loop-Rahmens eingesetzt.

Da sich die Leitlinien für den verantwortungsvollen Einsatz von KI in der Evidenzsynthese ständig weiterentwickeln, bieten diese Fallstudien eine pragmatische Perspektive: GenAI funktioniert am besten, wenn seine Rolle klar definiert ist, seine Ergebnisse transparent sind und das Urteil von Experten auf dem Laufenden bleibt. Auf diese Weise kann GenAI die Evidenzstandards unterstützen, die für strenge HTA- und HEOR-Studien von grundlegender Bedeutung sind.

Anmerkung: Nachfolgend aufgeführte Quellen

Hinweis:
Dieser Artikel fasst das Verständnis von Cencora zu diesem Thema auf der Grundlage öffentlich zugänglicher Informationen zum Zeitpunkt der Erstellung dieses Artikels (siehe aufgeführte Quellen) und der Expertise der Autoren in diesem Bereich zusammen. Die in diesem Artikel enthaltenen Empfehlungen sind möglicherweise nicht auf alle Situationen anwendbar und stellen keine Rechtsberatung dar. Die Leser sollten sich nicht auf den Artikel verlassen, wenn sie Entscheidungen in Bezug auf die besprochenen Themen treffen.

Verbinden Sie sich mit unserem Team

Unser Team aus führenden Value-Experten hat es sich zur Aufgabe gemacht, Evidenz, Wissen zu Richtlinien und Marktinformationen in effektive globale Marktzugangsstrategien umzuwandeln. Wir helfen Ihnen, sich in der komplexen Landschaft des heutigen Gesundheitswesens sicher zurechtzufinden. Kontaktieren Sie uns, um zu erfahren, wie wir Ihre Ziele unterstützen können.

Kontaktieren Sie uns

Quellen

Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Bewertung der Leistung eines auf künstlicher Intelligenz basierenden Tools zur Bewertung systematischer Literaturübersichten unter Verwendung der Checkliste Preferred Reporting Items for Systematic Reviews and Meta-Analyses 2020. Schätze Gesundheit. Im Druck. 2026.
Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Nutzung künstlicher Intelligenz zur Optimierung der Bewertung der Studienqualität in systematischen Literaturübersichten. Schätze Gesundheit. 2025; 28(6 suppl 1):S400. doi:10.1016/j.jval.2025.04.1783
Arregui M, Koufopoulou M. EE446: Bewertung der Leistung eines auf künstlicher Intelligenz basierenden Tools zur Bewertung der Qualität veröffentlichter wirtschaftlicher Bewertungen: ein Vergleich mit menschlichen Gutachtern unter Verwendung der Drummond-Checkliste. Schätze Gesundheit. 2025; 28(12 suppl 1):S194. doi:10.1016/j.jval.2025.09.829
Cochrane; Richtlinien Internationales Netzwerk; Campbell-Kollaboration. ERHÖHUNG: Verantwortungsvoller Einsatz von KI bei der Evidenzsynthese. Veröffentlicht 2025. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis
Drummond MF, Sculpher MJ, Torrance GW, O'Brien BJ, Stoddart GL. Methoden zur wirtschaftlichen Bewertung von Gesundheitsprogrammen. Oxford University Press; 2005.
Europäische Kommission; Generaldirektion Gesundheit und Lebensmittelsicherheit. Leitlinien zur Validität klinischer Studien für gemeinsame klinische Bewertungen. Angenommen am 4. Juli 2024. Abgerufen am 18. Mai 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
Higgins JPT, Altman DG, Gøtzsche PC, et al. Das Tool der Cochrane Collaboration zur Bewertung des Risikos von Verzerrungen in randomisierten Studien. BMJ. 2011; 343:D5928.
Mutter B, Brooks J, Clark MA et al. Eine Checkliste für retrospektive Datenbankstudien. Schätze Gesundheit. 2003; 6(2):90-97.
Nationales Institut für Exzellenz in Gesundheit und Pflege. Einsatz von KI bei der Evidenzgenerierung: NICE-Stellungnahme. Veröffentlicht 2024. Abgerufen am 18. Mai 2026. https://www.nice.org.uk/corporate/ecd11
Seite MJ, McKenzie JE, Bossuyt PM, et al. Die PRISMA 2020-Erklärung. BMJ. 2021; 372:n71.
Wells GA, Shea B, O'Connell D, et al. Die Newcastle-Ottawa-Skala (NOS) zur Bewertung der Qualität nicht-randomisierter Studien in Metaanalysen. Veröffentlicht 2014.
Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: Eine vergleichende Bewertung der SLR-Anforderungen für HTA. Schätze Gesundheit. 2023; 26(12):S389-S390.