Makale

HEOR'da yapay zeka destekli kalite değerlendirmesi: Ne işe yarıyor, ne yaramıyor ve GenAI'yi sorumlu bir şekilde nasıl uygulayacağınız

  • Maria Arregui, PhD

  • Erika Wissinger

  • Evelyn Gomez-Espinosa, PhD

  • Maria Koufopoulou, MSc

Kalite değerlendirmeleri ve Sistematik İncelemeler ve Meta-Analizler için Tercih Edilen Raporlama Öğeleri (PRISMA) uygunluk kontrolleri, sağlık ekonomisi ve sonuç araştırmalarında (HEOR) güvenilir kanıt sentezi için gereklidir, ancak aynı zamanda zaman alan adımlardır. Üç dahili vaka çalışmasında, kapalı sistem üretken yapay zeka (GenAI) sohbet robotunun gerçekten değer katabileceği ve uzman insan yargısının hala fark yarattığı yerleri araştırdık.

Bu soru neden şimdi önemli?

Sistematik literatür taramaları (SLR'ler), sağlık teknolojisi değerlendirmesi (HTA) ve HEOR'un merkezinde yer alır. Geri ödeme kararlarını bilgilendirir, klinik ve politika rehberliğini şekillendirir ve pazarlar genelinde değer anlatılarını destekler. Yine de bir SLR'nin güvenilirliği, kapsamlı bir araştırmadan daha fazlasına bağlıdır - şeffaf raporlamaya ve altta yatan kanıtların kalitesinin titiz bir şekilde değerlendirilmesine dayanır.

Kanıt kalitesine yapılan bu vurgu, düzenleyici STD çerçevelerine giderek daha fazla yansımaktadır. AB HTA Tüzüğü uyarınca, klinik kanıt tabanının geçerliliğini, güçlü yönlerini, sınırlamalarını ve belirsizliğini değerlendirmek için Ortak Klinik Değerlendirmeler (JCA'lar) açıkça gereklidir. Son JCA metodolojik kılavuzu, klinik çalışma tasarımlarında iç ve dış geçerliliğin değerlendirilmesine ilişkin beklentileri resmileştirerek, titiz değerlendirmenin Avrupa düzeyinde karşılaştırmalı klinik değerlendirmenin merkezinde olduğunun altını çizmektedir.
Bu nedenle, PRISMA uygunluk kontrolü ve yapılandırılmış çalışma kalite değerlendirmesi gibi kalite güvence görevleri çok önemlidir. Aynı zamanda, emek yoğundurlar. Kanıt paketleri büyüdükçe ve HTA zaman çizelgeleri kısaldıkça, HEOR ekipleri titizlikten ödün vermeden daha fazlasını daha hızlı yapmaya giderek daha fazla zorlanmaktadır.

GenAI bu sohbete hatırı sayılır bir ivme ile girdi. Politika ve metodolojik organlar, kanıt sentezini destekleme potansiyelini kabul etmeye başlarken, aynı zamanda temkinli, şeffaf ve iyi yönetilen benimseme ihtiyacını vurgulamaktadır. Soru artık GenAI'nin HEOR'da kullanılıp kullanılamayacağı değil, sorumlu bir şekilde nasıl ve nerede kullanılması gerektiğidir.
 

Ne öğrenmek için yola çıktık?

GenAI'nin uzman hakemlerin yerini alıp alamayacağını sormak yerine, daha pratik bir soruya odaklandık: Kapalı sistem bir GenAI sohbet robotu, yapılandırılmış, kontrol listesine dayalı, çalışma düzeyinde kalite değerlendirme (QA) görevlerini güvenilir bir şekilde destekleyebilir mi ve hangi koşullar altında yetersiz kalır?

Bu soruyu yanıtlamak için, her biri HEOR'da yaygın olarak gerekli olan temel bir KG faaliyetini ele alan üç iç değerlendirme gerçekleştirdik:

  • Yayınlanmış SLR'ler için PRISMA 2020 uyumluluk kontrolü
  • Bir SLR içindeki birden fazla çalışma tasarımında çalışma kalitesi değerlendirmesi
  • Drummond kontrol listesini kullanarak ekonomik değerlendirmelerin kalite değerlendirmesi

Her üç çalışmada da aynı temel ilkeler kullanıldı: güvenli bir iç ortam, yerleşik araçlarla uyumlu standartlaştırılmış istemler ve eğitimli insan gözden geçirenlerle doğrudan karşılaştırma.

Ortak, yönetilen bir yaklaşım

Değerlendirmeler boyunca, GenAI sohbet robotu kasıtlı olarak kısıtlanmış bir şekilde konuşlandırıldı. Yayınlar tek tek yüklendi, istemler açıkça kontrol listesi öğeleriyle eşleştirildi ve çıktıların hem kategorik bir yargıyı hem de kaynak belgeden kelimesi kelimesine destekleyici metni içermesi gerekiyordu.

İnsan değerlendirmeleri referans standart olarak hizmet etti ve ikinci gözden geçiren onayına tabi tutuldu. Bu tasarım sadece anlaşma oranlarını değil, aynı zamanda anlaşmazlıkların neden oluştuğunu da değerlendirmemizi sağladı.

Vaka çalışması 1: PRISMA 2020 kontrol listesi

İlk değerlendirmede, yayınlanmış altı SLR, 42 kontrol listesinden türetilmiş soru kullanılarak PRISMA 2020'ye göre değerlendirildi. Genel olarak, GenAI sohbet robotu, insan gözden geçirenlerle %93 tam anlaşma sağladı.

Beklendiği gibi, performans standartlaştırılmış, açık raporlama ile karakterize edilen alanlarda en güçlüydü. Başlık, özet, giriş ve diğer bilgilerle ilgili öğeler, insan ve sohbet robotu incelemesi arasında tam bir uyum olduğunu gösterdi. Buna karşılık, tutarsızlıklar, insan gözden geçirenleri de rutin olarak zorlayan alanlarda, özellikle de yorumlayıcı tartışma öğelerinde kümelenmiştir.

Bulgular, GenAI'nin açıkça bildirilen bilgileri belirleme ve düzenlemede özellikle etkili olduğunu ve bu da onu ilk PRISMA kontrolleri için değerli bir araç haline getirdiğini göstermektedir. Bununla birlikte, yorumlamaya ihtiyaç duyulduğunda, insan gözetimi önemli bir rol oynamaya devam etmektedir. 

Vaka çalışması 2: Çalışma kalitesi değerlendirmesi

İkinci değerlendirme, bu soruyu heterojen çalışma tasarımlarında kalite değerlendirmesine genişletti. Toplamda 28 çalışma değerlendirildi: 6 randomize kontrollü çalışma (RCT), 4 prospektif kohort çalışması ve 18 retrospektif kohort çalışması. Tasarıma uygun araçları (yani, sırasıyla RoB 1, Newcastle-Ottawa Ölçeği ve Anne kontrol listesi) kullanarak, GenAI ve insan gözden geçirenler arasındaki anlaşma, %81 ile %83 arasında değişen, oldukça tutarlıydı.

Anlaşmazlıklar tekrar eden kalıpları takip etti. RKÇ'lerde tahsis gizleme, retrospektif çalışmalarda veri kaynağı güvenilirliği ve prospektif gözlemsel çalışmalarda kohort karşılaştırılabilirliği, özellikle raporlama eksik olduğunda zor olmuştur.

Özellikle, GenAI performansı düşük kaliteli çalışmalarda düştü. Chatbot, bildirilen bilgileri güvenilir bir şekilde çıkarırken, insan gözden geçirenlerin metodolojik bağlam ve deneyim kullanarak yorumlayabileceği bir nüans olan kanıt yokluğuyla mücadele etti.

Örnek olay incelemesi 3: Ekonomik değerlendirmeler

Üçüncü değerlendirme, Drummond kontrol listesini kullanarak ekonomik değerlendirmelerin GenAI destekli kalite değerlendirmesini inceledi. Sekiz çalışmada, anlaşma %65.7 ile %100 arasında değişmekte olup, medyan %94.3'tür.

Tutarsızlıklar ortaya çıktığında, bunlar yine belirsiz veya eksik raporlamayla bağlantılıydı. Yinelenen bir model, iyimser yargılara yönelik bir eğilim gösterdi ve GenAI sohbet robotu, insan gözden geçirenlerin kriterleri karşılanmamış olarak değerlendirdiği durumlarda zaman zaman "Evet" verdi.

Bu vaka çalışmaları bize ne anlatıyor?

Birlikte bakıldığında, bu değerlendirmeler HEOR uygulaması için çeşitli derslere işaret etmektedir.

İlk olarak, GenAI, dikkatlice tasarlanmış istemler kullanılarak iyi sınırlanmış, kontrol listesine dayalı görevlere uygulandığında yüksek uyum elde edilebilir. İkincisi, GenAI en çok insanlarla aynı yerlerde mücadele eder - raporlama net olmadığında, eksik olduğunda veya bağlamsal yorumlama gerektirdiğinde.

Üçüncüsü, raporlama kalitesi otomasyon için tavanı belirler. Daha iyi raporlama, ister insanlar ister yapay zeka tarafından gerçekleştirilsin, daha iyi KG sağlar.

Bu bulgular, GenAI'nin uzman gözden geçirenlerin yerine geçmesine karşı çıkıyor. Bunun yerine, değeri ikinci bir gözden geçiren veya hızlandırıcı olarak hareket etmekte yatmaktadır: çıktıları standartlaştırmak, destekleyici metni verimli bir şekilde ortaya çıkarmak ve insan uzmanlığını gerçekten gerektiren yargılar için serbest bırakmak.

Sonuç düşünceleri

Üç farklı ancak ilgili kullanım durumunda, kapalı bir sistem GenAI sohbet robotu, düşünceli bir şekilde ve yönetilen, döngüde insan çerçevesi içinde konuşlandırılması koşuluyla, titizliği baltalamadan HEOR'da kalite güvencesini hızlandırma konusunda açık bir potansiyel gösterdi.

Kanıt sentezinde sorumlu yapay zeka kullanımına ilişkin rehberlik gelişmeye devam ettikçe, bu vaka çalışmaları pragmatik bir bakış açısı sunmaktadır: GenAI, rolü açıkça tanımlandığında, çıktıları şeffaf olduğunda ve uzman görüşü döngüde kaldığında en iyi şekilde çalışır. Bu şekilde kullanıldığında GenAI, titiz HTA ve HEOR çalışmaları için temel olan kanıt standartlarını destekleyebilir.
Not: Aşağıda listelenen kaynaklar


Yasal Uyarı:
Bu makale, bu yazının yazıldığı tarihte kamuya açık olan bilgilere (listelenen kaynaklara bakın) ve yazarların bu alandaki uzmanlığına dayanarak Cencora'nın konuya ilişkin anlayışını özetlemektedir. Makalede verilen tavsiyeler her durum için geçerli olmayabilir ve yasal tavsiye niteliğinde değildir; Okuyucular, tartışılan konularla ilgili kararlar verirken makaleye güvenmemelidir.


Ekibimizle iletişime geçin

Önde gelen değer uzmanlarından oluşan ekibimiz, kanıtları, politika içgörülerini ve pazar istihbaratını etkili küresel pazar erişim stratejilerine dönüştürmeye kendini adamıştır. Gelin, günümüzün karmaşık sağlık ortamında güvenle yol almanıza biz yardımcı olalım. Hedeflerinizi nasıl destekleyebileceğimizi öğrenmek için bize ulaşın.

 

Kaynak

  • Arregui M, Gomez Espinosa E, Wissinger E, Koufopoulou M. Sistematik İncelemeler ve Meta-Analizler için Tercih Edilen Raporlama Öğeleri 2020 kontrol listesini kullanarak sistematik literatür incelemelerini değerlendirmek için yapay zeka destekli bir aracın performansının değerlendirilmesi. Sağlığa değer verin. Basında. 2026.
  • Arregui M, Koufopoulou M, Cadarette S, Wissinger E. Sistematik literatür incelemelerinde çalışma kalitesi değerlendirmesini kolaylaştırmak için yapay zekadan yararlanma. Sağlığa değer verin. 2025; 28(6 ek 1):S400. doi:10.1016/j.jval.2025.04.1783
  • Arregui M, Koufopoulou M. EE446: Yayınlanan ekonomik değerlendirmelerin kalitesini değerlendirmek için yapay zeka destekli bir aracın performansının değerlendirilmesi: Drummond kontrol listesini kullanan insan gözden geçirenlerle bir karşılaştırma. Sağlığa değer verin. 2025; 28(12 ek 1):S194. doi:10.1016/j.jval.2025.09.829
  • Cochrane; Kılavuz İlkeler Uluslararası Ağı; Campbell İşbirliği. YÜKSELTMEK: Kanıt sentezinde sorumlu yapay zeka kullanımı. 2025'te yayınlandı. https://www.cochrane.org/about-us/news/setting-standards-responsible-ai-use-evidence-synthesis 
  • Drummond MF, Heykeltıraş MJ, Torrance GW, O'Brien BJ, Stoddart GL. Sağlık Programlarının Ekonomik Değerlendirilmesi için Yöntemler. Oxford Üniversitesi Yayınları; 2005.
  • Avrupa Komisyonu; Sağlık ve Gıda Güvenliği Genel Müdürlüğü. Ortak klinik değerlendirmeler için klinik çalışmaların geçerliliği konusunda rehberlik. 4 Temmuz 2024'te kabul edildi. Erişim tarihi: 18 Mayıs 2026. https://health.ec.europa.eu/publications/guidance-validity-clinical-studies-joint-clinical-assessments_en
  • Higgins JPT, Altman DG, Gøtzsche PC, et al. Cochrane Collaboration'ın randomize çalışmalarda yanlılık riskini değerlendirmek için kullandığı araç. BMJ. 2011; 343:D5928.
  • Anne B, Brooks J, Clark MA, et al. Retrospektif veri tabanı çalışmaları için bir kontrol listesi. Sağlığa değer verin. 2003; 6(2):90-97.
  • Ulusal Sağlık ve Bakım Mükemmelliği Enstitüsü. Kanıt Oluşturmada Yapay Zeka Kullanımı: GÜZEL pozisyon beyanı. 2024'te yayınlandı. Erişim tarihi: 18 Mayıs 2026. https://www.nice.org.uk/corporate/ecd11 
  • Sayfa MJ, McKenzie JE, Bossuyt PM, et al. PRISMA 2020 bildirisi. BMJ. 2021; 372:n71.
  • Wells GA, Shea B, O'Connell D, et al. Meta-analizlerde randomize olmayan çalışmaların kalitesini değerlendirmek için Newcastle-Ottawa Ölçeği (NOS). 2014 yılında yayınlandı.
  • Wright C, Swanston L, Nicholson L, Marjenberg Z. HTA360: HTA için SLR gereksinimlerinin karşılaştırmalı bir değerlendirmesi. Sağlığa değer verin. 2023; 26(12):S389-S390.
 

İlgili kaynaklar

Bülten

HTA Üç Aylık Yaz 2026

Makale

Doğrudan sağlık sonuçlarının ötesinde: Yenilikçi tedavilerin daha geniş toplumsal etkisi

Makale

Beyond public dashboards: Leveraging Germany’s National Cancer Registry for pharmaceutical research – Insights from a ZfKD Research Initiative