Artikel

Gefährliche Projektionen: Wie schlechte Überlebensmodellentscheidungen mit unausgereiften Daten HTA-Entscheidungen in die Irre führen und sich auf Patienten auswirken können

Henri Leleu, MD, PhD

Wie sehr können wir Überlebensprognosen vertrauen, wenn die Daten noch unausgereift sind? Bei Health Technology Assessments (HTAs) kann die Wahl des Modells den Unterschied zwischen robuster Evidenz und irreführenden Schlussfolgerungen ausmachen.

Die Bedeutung von Überlebensprojektionen in der HTA

Bei der Bewertung des Wertes einer Innovation in der Onkologie im Rahmen von Health Technology Assessments (HTAs) konzentriert sich die Bewertung häufig auf die Kosten-Nutzen-Analyse (CEA) oder die Kosten-Nutzen-Analyse (CUA). Diese Rahmenwerke bewerten den Wert, den neue Behandlungen den Patienten bieten, in der Regel quantifiziert als gewonnene Lebensjahre, abgeleitet vom Gesamtüberleben (OS), oder krebsfreie Lebensjahre, abgeleitet vom progressionsfreien Überleben (PFS), im Verhältnis zu den Kosten der Behandlungen. Die Projektion der gewonnenen Lebensjahre über einen Lebenshorizont ist für HTA von grundlegender Bedeutung, da sich die Vorteile einer neuen Therapie über längere Zeiträume ansammeln können, insbesondere für Behandlungen, die in früheren Krankheitsstadien oder bei Behandlungen mit Heilungspotenzial eingesetzt werden.

Wichtig ist, dass sich diese Gewinne in Lebensjahren von den mittleren OS- oder PFS-Werten unterscheiden. Immuntherapien bei Melanomen sind ein klares Beispiel. Während sich das mediane PFS zwischen CTLA-4-Antikörpern und Anti-PD-1-Therapien nur um wenige Monate unterscheidet, ist die durchschnittliche Zeit, die Patienten ohne Krankheitsprogression verbringen, bei denjenigen, die eine Anti-PD-1-Therapie erhalten, signifikant länger. Dies liegt daran, dass Anti-PD-1-Therapien mit einem PFS-Plateau verbunden sind, wobei mehr als 25 % der Patienten nach 66 Monaten progressionsfrei bleiben und im Vergleich zu denen, die mit CTLA-4-Antikörpern behandelt wurden, mehr Jahre ohne Progression ansammeln. In solchen Fällen kann das mediane PFS den durchschnittlichen Nutzen für die Patienten durch die Behandlung nicht genau erfassen, und es sind Lebensdauerprognosen erforderlich, die weit über die mediane Überlebenszeit hinausgehen.

Infolgedessen legen HTA-Prozesse großen Wert auf die Projektion von lebenslangen Überlebensvorteilen. Diese Prognosen stützen sich auf Daten aus randomisierten kontrollierten Studien (RCTs). RCTs haben jedoch zum Zeitpunkt des Markteintritts oft begrenzte Nachbeobachtungszeiträume, was zu einer hohen Rechtszensurrate in den Überlebensdaten führt. Folglich sind die für Überlebensprognosen verfügbaren Daten häufig unausgereift (d. h. mit einem erheblichen Maß an Rechtszensur), wenn erste regulatorische und HTA-Entscheidungen getroffen werden müssen.

Zunehmende Abhängigkeit von unreifen Überlebensdaten in der onkologischen HTA

Zur Abschätzung der langfristigen Überlebensergebnisse werden parametrische Überlebensfunktionen und Extrapolationstechniken eingesetzt, die auf Annahmen über Gefahrenfunktionen basieren, die aus beobachteten Daten abgeleitet werden. Aktuelle Empfehlungen des britischen National Institute for Health and Care Excellence (NICE) befürworten die Anpassung von sechs parametrischen Standardmodellen, exponentiell, Weibull, Gompertz, log-logistisch, log-normal und generalisiertes Gamma, an Überlebensdaten. Diese Modelle werden bewertet, indem ihre Anpassungsgüte durch visuelle Inspektion und Metriken wie das Akaike-Informationskriterium (AIC) bewertet sowie die Plausibilität extrapolierter Schwänze anhand externer Daten, Expertenmeinungen und biologischer Schlussfolgerungen berücksichtigt wird. Wenn keines der parametrischen Standardmodelle für die beobachteten Überlebensdaten geeignet ist, können flexiblere und komplexere Modellierungsansätze, wie z. B. parametrische Spline-Modelle, verwendet werden. Es ist wichtig zu erkennen, dass diese flexibleren Modelle so konzipiert wurden, dass sie besser zu den beobachteten Überlebensdaten passen, insbesondere wenn die Daten komplexe Gefahrenmuster aufweisen, wie es bei Immuntherapien der Fall ist. Dieser Modellierungsprozess ist unerlässlich, um robuste langfristige Überlebensprognosen zu erstellen, die letztendlich die Entscheidungsfindung unterstützen, die sich auf den Zugang der Patienten zu Behandlungen und die Zuweisung von Gesundheitsressourcen auswirkt.

In der Onkologie wurde dieser Prozess durch die zunehmende Abhängigkeit von unreifen Überlebensdaten behindert. Beispielsweise basierten zwischen 2015 und 2017 41 % der von NICE durchgeführten Bewertungen einzelner Krebstechnologien auf unreifen Überlebensdaten. Dieser Prozentsatz stieg bei Beurteilungen, die zwischen 2018 und 2022 veröffentlicht wurden, auf 56 %.

Dieser Trend zur Verwendung weniger ausgereifter Daten in HTA-Einreichungen wirft wichtige Fragen zur optimalen Modellauswahl auf. Während parametrische Standardmodelle nach wie vor weit verbreitet sind, hat die Einführung flexibler Modelle wie Spline-Modelle in den jüngsten HTA-Einreichungen zugenommen. Obwohl diese Modelle oft eine bessere Anpassung an die beobachteten Daten bieten, führt dies nicht unbedingt zu zuverlässigeren langfristigen Projektionen.

Aktuelle Richtlinien empfehlen, das Modell auszuwählen, das am besten zu den verfügbaren Daten passt, einschließlich des Vergleichs der Langzeitgenauigkeit anhand externer Daten und der Verwendung von Expertenmeinungen und biologischem Denken. Insbesondere im Zusammenhang mit einarmigen Studien und der unabhängigen Anpassung von Interventions- und Vergleichsarmen ist der Zugang zu langfristigen externen Daten jedoch oft begrenzt, während das Vertrauen auf Expertenmeinungen und biologische Schlussfolgerungen möglicherweise nicht ausreichend robust ist. In solchen Situationen können Daten aus der realen Welt wertvolle zusätzliche Beweise liefern, um die Plausibilität von Schwänzen zu bewerten und langfristige Prognosen zu stärken.

Auf der ISPOR Europe 2025 in Glasgow untersuchten wir, ob Überlebensextrapolationen der Anpassung vorhandener Daten oder der Verringerung zukünftiger Unsicherheiten Vorrang einräumen sollten, wenn die Überlebensdaten begrenzt sind. Wir konzentrierten uns auf parametrische Standardmodelle, die in HTA-Einreichungen am häufigsten verwendet werden.

Langfristige Genauigkeit vor Anpassung

Wir präsentierten eine Analyse, die OS- und PFS-Daten aus einer Vielzahl aktueller Onkologiestudien verwendete, die ausreichend ausgereifte Datensätze enthielten. Die erforderlichen Daten wurden durch die Digitalisierung der veröffentlichten Kaplan-Meier (KM)-Überlebenskurven und die Generierung von Datensätzen auf Pseudopatientenebene, einschließlich Zensur, gemäß der von NICE empfohlenen Methodik gewonnen. Zu den für diese Studie ausgewählten klinischen Studien gehörten CLEAR, CM-649, COU-AA-301, KEYNOTE-A39, KEYNOTE-A39 (8/8/24), SUNLIGHT und TROPICS-02. Für jede dieser Studien erstellten wir zusätzliche, unausgereiftere Datensätze, indem wir die Daten bei unterschiedlichen Ereignisschwellenwerten künstlich rechtszensierten: 60 % bis 70 %, 50 %, 30 % und 20 %. Dies wurde erreicht, indem alle verbleibenden Patienten nach Erreichen der angegebenen Ereignisschwelle zensiert wurden, wodurch Datensätze mit zunehmendem Unreifegrad simuliert wurden.

Anschließend führten wir eine Überlebensextrapolation gemäß den Standardrichtlinien für die HTA-Einreichung durch. Die Extrapolationen wurden unter Verwendung von fünf parametrischen Standardmodellen durchgeführt, die bei der HTA-Einreichung am häufigsten verwendet werden: verallgemeinertes Gamma, Weibull, exponentiell, log-normal und log-logistisch. Diese Modelle wurden auf alle Datensätze angewendet, um langfristige Überlebensergebnisse vorherzusagen. Die Vorhersagegenauigkeit jeder Extrapolation wurde anhand der eingeschränkten mittleren Überlebenszeit (RMST) bewertet. Der RMST stellt die mittlere Überlebenszeit dar, die auf eine bestimmte maximale Nachbeobachtungszeit begrenzt ist, die in unserem Fall der maximal beobachteten Dauer für jede KM-Kurve entsprach. Um die Genauigkeit der Überlebensprojektionen zu quantifizieren, berechneten wir die absolute durchschnittliche Differenz, die relative Differenz und den quadrierten Fehler zwischen dem RMST, der aus den KM-Kurven in den beobachteten, veröffentlichten Daten abgeleitet wurde, und dem RMST, der von jedem parametrischen Modell vorhergesagt wurde.

Wie erwartet, wie in Abbildung 1 dargestellt, war die Variation des extrapolierten RMST bei Modellen, die mit begrenzter Nachverfolgung geschätzt wurden (z. B. mit mehr als 25 % der zensierten Ereignisse), hoch. Mit den ausgewählten Daten und Zensurstufen könnten die Prognosen im Vergleich zu den ausgereifteren KM-Daten um bis zu 60 % abweichen. Dies ist nicht überraschend und wurde in früheren ähnlichen Arbeiten beobachtet. Potenzielle Unsicherheit ist jedoch wichtig. Dies könnte zu einer Verdoppelung oder Halbierung der CEA- oder CUA-Ergebnisse führen, wenn reifere Daten verfügbar sind, was die HTA-Schlussfolgerung radikal verändern und möglicherweise die Erstattungsentscheidungen und den Patientenzugang beeinflussen könnte. Die meisten Funktionen funktionierten ähnlich, wenn sie auf reife Daten angewendet wurden, und zeigten durchschnittliche Unterschiede von weniger als 2,5 % zwischen projizierten und KM-RMST-Ergebnissen, insbesondere für die am besten angepasste Funktion. Dies deutet darauf hin, dass die Anpassung des Modells an die verfügbaren Daten weniger Einfluss auf die Ergebnisse hat als die Wahl einer Funktion mit zuverlässigerem Langzeitprojektionsverhalten.

Abbildung 1. Relative RMST-Unterschiede zwischen Zensierungsstufen und Extrapolationsfunktionen

Schlüssel: RMST – eingeschränkte mittlere Überlebenszeit.

Interessanterweise zeigten verschiedene Funktionen unterschiedliche Grade der Langzeitgenauigkeit (Abbildung 2). Logarithmisch-normale und exponentielle Funktionen wiesen jeweils eine Gesamtunsicherheit von etwa ±6 % auf, während die verallgemeinerte Gammafunktion mit zunehmender Zensurschwelle zunehmend instabil wurde. Die meisten Funktionen neigten dazu, die langfristigen Überlebensprognosen zu unterschätzen, obwohl die exponentielle Funktion im Allgemeinen die Überlebensgewinne überschätzte. Unter den unterschätzten Modellen lieferten logarithmisch-normale und log-logistische Funktionen im Durchschnitt die genauesten langfristigen Schätzungen. Diese Ergebnisse werfen eine wichtige Frage bei der Auswahl von Überlebensmodellen für langfristige Projektionen auf: Sollten wir der Anpassung verfügbarer KM-Daten Vorrang einräumen und möglicherweise Unsicherheiten in unreifen Datensätzen ignorieren oder Modelle wählen, die bessere durchschnittliche Langzeitprojektionen liefern? Eine Alternative zu den aktuellen Richtlinien könnte darin bestehen, sich auf die Auswahl von Funktionen zu konzentrieren, die eine größere langfristige Vorhersagegenauigkeit bieten, anstatt nur kurzfristige Anpassungen zu erzielen.

Abbildung 2. Durchschnittliche RMST-Differenz gegenüber KM (0 % –10 %, 10 % bis 30 %, 30 % bis 50 %, >50 %) über Zensionsstufen und Extrapolationsfunktionen hinweg

Schlüssel: KM – Kaplan-Meier; RMST – eingeschränkte mittlere Überlebenszeit.

Diese Ergebnisse unterstreichen die Notwendigkeit, methodische Leitlinien neu zu bewerten, wenn sich die Umstände ändern. Da die Überlebensdaten immer unausgereifter und die Gefahrenfunktionen komplexer werden, lohnt es sich, zu überdenken, ob traditionelle Ansätze noch angemessen sind. Die Bereitstellung einer genauen HTA erfordert kontinuierliche Verbesserungen, um sicherzustellen, dass die Patienten eine optimale Behandlung erhalten und die Ressourcen des Gesundheitswesens effektiv genutzt werden. Bei Cencora hat die Förderung von Innovation und Fachwissen nach wie vor Priorität.

Quellen unten aufgeführt.

Hinweis:
Dieser Artikel fasst das Verständnis von Cencora zu diesem Thema auf der Grundlage öffentlich zugänglicher Informationen zum Zeitpunkt der Erstellung dieses Artikels (siehe aufgeführte Quellen) und der Expertise der Autoren in diesem Bereich zusammen. Die in diesem Artikel enthaltenen Empfehlungen sind möglicherweise nicht auf alle Situationen anwendbar und stellen keine Rechtsberatung dar. Die Leser sollten sich nicht auf den Artikel verlassen, wenn sie Entscheidungen in Bezug auf die besprochenen Themen treffen.

Verbinden Sie sich mit unserem Team

Unser Team aus führenden Value-Experten hat es sich zur Aufgabe gemacht, Evidenz, Wissen zu Richtlinien und Marktinformationen in effektive globale Marktzugangsstrategien umzuwandeln. Wir helfen Ihnen, sich in der komplexen Landschaft des heutigen Gesundheitswesens sicher zurechtzufinden. Kontaktieren Sie uns, um zu erfahren, wie wir Ihre Ziele unterstützen können.

Kontaktieren Sie uns

Quellen

Bakker LJ, Thielen FW, Redekop WK, Groot CU, Blommestein HM. Extrapolation empirischer Langzeitüberlebensdaten: der Einfluss aktualisierter Follow-up-Daten und parametrischer Extrapolationsmethoden auf Überlebensschätzungen beim Multiplen Myelom. BMC Med Res Methodol. 2023; 23(1):132. Doi: 10.1186/s12874-023-01952-2. PMID: 37248477; PMCID: PMC10226243.
Bullement A, Meng Y, Cooper M, et al. Eine Überprüfung und Validierung der Extrapolation des Gesamtüberlebens in gesundheitstechnologischen Bewertungen der Krebsimmuntherapie durch das National Institute for Health and Care Excellence: Wie war die anfängliche beste Schätzung im Vergleich zu den später zur Verfügung gestellten Studiendaten? J Med Econ. 2019; 22(3):205-214. Doi: 10.1080/13696998.2018.1547303. Epub 30. November 2018. PMID: 30422080.
Everest L, Blommaert S, Chu RW, Chan KKW, Parmar A. Parametrische Überlebensextrapolation früher Überlebensdaten in wirtschaftlichen Analysen: ein Vergleich des projizierten und des beobachteten aktualisierten Überlebens. Schätze Gesundheit. 2022; 25(4):622-629. Doi: 10.1016/j.jval.2021.10.004. Epub 24. November 2021. PMID: 35365306.
Fizazi K, Scher HI, Molina A, et al. . Abirateronacetat zur Behandlung von metastasiertem kastrationsresistentem Prostatakrebs: abschließende Gesamtüberlebensanalyse der randomisierten, doppelblinden, placebokontrollierten Phase-3-Studie COU-AA-301. Lancet Oncol. 2012; 13(10):983-992. Doi: 10.1016/S1470-2045(12)70379-0. Epub 18. September 2012. Erratum in: Lancet Oncol. 2012; 13(11):e464. Erratum in: Lancet Oncol. 2014; 15(9):e365. PMID: 22995653.
Gibbons CL, Latimer NR. Prävalenz unreifer Überlebensdaten für Krebsmedikamente, die dem National Institute for Health and Care Excellence zwischen 2018 und 2022 vorgelegt wurden. Schätze Gesundheit. 2025; 28(3):406-414. Doi: 10.1016/j.jval.2024.11.013. Epub 24. Dezember 2024. PMID: 39725010.
Gray J, Sullivan T, Latimer NR et al. Extrapolation von Überlebenskurven unter Verwendung von parametrischen Standardmodellen und flexiblen parametrischen Spline-Modellen: Vergleiche in großen Registerkohorten mit fortgeschrittenem Krebs. Med Decis Making. 2021; 41(2):179-193. Doi: 10.1177/0272989X20978958. Epub 22. Dezember 2020. PMID: 33349137.
Janjigian YY, Shitara K, Moehler M, et al. Erstlinientherapie mit Nivolumab plus Chemotherapie im Vergleich zur alleinigen Chemotherapie bei fortgeschrittenem Magen-, gastroösophagealem Übergang und ösophagealem Adenokarzinom (CheckMate 649): eine randomisierte, offene Phase-3-Studie. Lancet. 2021; 398(10294):27-40. Doi: 10.1016/S0140-6736(21)00797-2. Epub 5. Juni 2021. PMID: 34102137; PMCID: PMC8436782.
Kang J, Cairns J, Latimer NR, Duffield S, Grieve R. Eine Bewertung des Reifegrads von Krebsüberlebensdaten, die in Wirtschaftsmodellen für die Einzeltechnologiebewertungen des National Institute for Health and Care Excellence verwendet werden. Schätze Gesundheit. 2025; 28(11):1705-1713. Doi: 10.1016/j.jval.2025.07.010. Epub 2025 22. Juli. PMID: 40706705.
Latimer N. NICE DSU Dokument 14: Durchführung von Überlebensanalysen für wirtschaftliche Bewertungen neben klinischen Studien – Extrapolation mit Daten auf Patientenebene. Sheffield (Großbritannien): Decision Support Unit, ScHARR, Universität Sheffield; 2011.
Leleu H, Carette J, Berkovitch B. Ausgleichspassung und Genauigkeit: Bewertung von Überlebensmodellprojektionen mit unreifen Daten in der Bewertung von Gesundheitstechnologien. ISPOR EU25. 9.-12. November 2025. Glasgow, Großbritannien.
Motzer R, Alekseev B, Rha SY, et al. Lenvatinib plus Pembrolizumab oder Everolimus bei fortgeschrittenem Nierenzellkarzinom. N Engl J Med. 2021; 384(14):1289-1300. Doi: 10.1056/NEJMoa2035716. Epub 13. Februar 2021. PMID: 33616314.
Powles T, Valderrama BP, Gupta S, et al. Enfortumab, Vedotin und Pembrolizumab bei unbehandeltem fortgeschrittenem Urothelkarzinom. N Engl J Med. 2024; 390(10):875-888. Doi: 10.1056/NEJMoa2312117. PMID: 38446675.
Prager GW, Taieb J, Fakih M, et al. Trifluridin-Tipiracil und Bevacizumab bei refraktärem metastasiertem Darmkrebs. N Engl J Med. 2023; 388(18):1657-1667. Doi: 10.1056/NEJMoa2214963. PMID: 37133585.
Rugo HS, Bardia A, Marmé F, et al. Gesamtüberleben mit Sacituzumab-Govitecan bei Hormonrezeptor-positivem und humanem epidermalem Wachstumsfaktor-Rezeptor-2-negativem metastasierendem Brustkrebs (TROPiCS-02): eine randomisierte, offene, multizentrische Phase-3-Studie. Lancet. 2023; 402(10411):1423-1433. Doi: 10.1016/S0140-6736(23)01245-X. Epub 23. August 2023. PMID: 37633306.
van Not OJ, van den Eertwegh AJM, Jalving H, et al. Langzeitüberleben bei Patienten mit fortgeschrittenem Melanom. JAMA Netw Open. 2024; 7(8):e2426641. Doi: 10.1001/jamanetworkopen.2024.26641. PMID: 39141388; PMCID: PMC11325208.
Zhu Y, Liu K, Zhu H, Li S, Yuan D. Enfortumab Vedotin plus Pembrolizumab bei zuvor unbehandeltem lokal fortgeschrittenem oder metastasiertem Urothelkarzinom: eine Kosten-Nutzen-Analyse. Ther Adv Med Oncol. 2025;17:17588359241295544. Doi: 10.1177/17588359241295544. PMID: 39776535; PMCID: PMC11705323.