Nach Herzerkrankungen und Schlaganfall ist die postoperative Sterblichkeit innerhalb von 30 Tagen nach dem Indexeingriff die dritthäufigste Todesursache weltweit [24]. In der elektiven Orthopädie liegt die 30-Tage-Mortalitätsrate unter 1 % [4], dennoch können postoperative Komplikationen oft verheerend sein. In der Ära der „qualitativen Gesundheitsversorgung“ ist die Umsetzung von Strategien zur Risikostratifizierung und zur Optimierung der Zuweisung von Gesundheitsressourcen zur Verbesserung der postoperativen Ergebnisse von entscheidender wirtschaftlicher Bedeutung. Dieser Beitrag untersucht die transformative Rolle der künstlichen Intelligenz (KI) bei der Risikobewertung in der Orthopädie als Teil des ganzheitlichen Entscheidungsprozesses zur Verbesserung der Ergebnisse im Gesundheitswesen.
Hinweise
Redaktion
W. Petersen, Berlin
A. Voss, Regensburg
×
QR-Code scannen & Beitrag online lesen
Hinweis des Verlags
Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.
Der Einsatz von künstlicher Intelligenz (KI) in der präoperativen Risikobewertung bietet die Möglichkeit, individuelle postoperative Komplikationsrisiken genauer zu identifizieren. Idealerweise könnte ein individualisiertes Risikoprofil erstellt werden. Dies ermöglicht nicht nur eine optimierte Ressourcenverteilung und Infrastrukturnutzung, sondern auch das gezielte Implementieren patientenspezifischer präventiver Maßnahmen.
Interpretation der Modellleistung
Um das Vorhersagepotenzial der Modelle richtig interpretieren zu können, ist es wichtig, die Bedeutung der Leistungskennzahlen zu erläutern. Der Wert der „area under the (receiver operator) curve“ (AUC, auch AUROC) reicht von 0 bis 1 und bezieht sich auf die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person, bei der das vorhergesagte Ergebnis eintrat, eine höhere Vorhersagewahrscheinlichkeit hatte als eine zufällig ausgewählte Person, bei der das Ergebnis nicht eintrat. Ein Modell mit einer AUC von 0,5 ist also nicht besser als ein Münzwurf [3]. Nach gängiger Konvention ist ein AUC-Wert von 0,9 bis 1 exzellent, 0,8 bis 0,89 gut, 0,7 bis 0,79 mittelmäßig, 0,6 bis 0,69 schlecht und 0,5 bis 0,59 nicht bestanden [9, 10].
Anzeige
Außerdem ist es wichtig zu verstehen, wie die folgenden Ergebnisse mit den zahlreichen Studien zusammenhängen, die Risikofaktoren im Zusammenhang mit den Ergebnissen nach der Operation aufzeigen. Bei der Vorhersage geht es darum, ein Modell aus einer Reihe von Daten zu erstellen und zu bewerten, wie es sich in naiven Datensätzen verhält. Wenn die Leistung gut ist, kann das Modell in realen Szenarien getestet werden. Alternativ können Assoziationen und/oder Risikofaktoren mit einem Datensatz identifiziert werden, doch um die Robustheit dieser Assoziationen zu prüfen, sind unabhängige Datensätze erforderlich [11].
Auswahl des Patienten und Überweisung zur Indikationsstellung
Mit der zunehmenden Alterung unserer Bevölkerung steigt auch die Häufigkeit von Erkrankungen, die einen chirurgischen Eingriff erfordern könnten. Allein in den USA wird die Zahl der primären Hüft- und Knie-Totalendoprothesen (TEP) bis 2030 voraussichtlich um 71 bzw. 85 % steigen [25].
Bei degenerativen Erkrankungen, die schließlich eine chirurgische Behandlung erfordern, steht der Hausarzt oft vor der Entscheidung, Patienten zur weiteren Untersuchung und schließlich zur Indikation für eine Operation an einen Facharzt zu überweisen. Aufgrund der ständig wachsenden Zahl von Patienten in der hausärztlichen Praxis erfolgt die Überweisung an einen Facharzt oft in einem frühen Stadium der medizinischen Versorgung, in dem eine Operation noch nicht erforderlich ist. Ein idealer klinischer Triageprozess würde alle chirurgischen Kandidaten einem Chirurgen und alle nichtchirurgischen Kandidaten einem nichtoperativen Anbieter zuweisen, damit eine allfällige Operation nicht unnötig zu früh oder zu spät erfolgt. Der ideale Zeitpunkt einer Operation kann so die Lebensqualität verbessern und gleichzeitig Kosten sparen.
Jang et al. entwickelten Deep-Learning-Algorithmen, die anhand von 110 demografischen und klinischen Parametern und 26 radiologischen Messvariablen auf Röntgenbildern des Beckens die Notwendigkeit einer Hüft-TEP innerhalb von 10 Jahren vorhersagten. Sie erreichten eine AUC von 0,81 − also eine gute Vorhersageleistung [18].
Anzeige
Heisinger et al. analysierten die Veränderungen der radiographischen Marker von Kniearthrose während eines Zeitraums von 4 Jahren vor einer Knie-TEP. Sie entwickelten selbstlernende künstliche neuronale Netze, um bei 80 % ihrer Kohorte korrekt vorherzusagen, bei welchen Patienten innerhalb der nächsten 2 Jahre eine Knie-TEP eingesetzt werden würde. Dabei erreichten sie einen positiven Vorhersagewert von 84 % und einen negativen Vorhersagewert von 73 % [15].
Houserman et al. gingen noch einen Schritt weiter und trainierten ein KI-Modell, um anhand von 3‑Ansichts-Röntgenaufnahmen des Knies festzustellen, ob Patienten mit Knieschmerzen Kandidaten für eine Knie-TEP, eine unikompartimentelle Knie-TEP oder eine konservative Behandlung sind. Die beste Leistung erzielten sie bei der Vorhersage der Notwendigkeit einer Operation mit einer Genauigkeit von 93,8 %. Sie behaupteten auch, dass ihr Modell in der Lage war, genau vorherzusagen, welche Patienten Kandidaten für eine unikompartimentelle bzw. Knie-TEP sind, und erreichten einen AUC von 0,957 bzw. 0,974 [17].
Im Bereich der Wirbelsäulenchirurgie konnten Broida et al. anhand von Fragebogendaten und Magnetresonanztomographie(MRT)-Berichten genau vorhersagen, ob Patienten eine Empfehlung zur Operation von Wirbelsäulenerkrankungen erhalten werden [6]. Xie er al. kombinierten erfolgreich bildgebende und klinische Daten, um den Verlauf einer elektiven Lendenwirbelsäulenoperation vorherzusagen und erreichten dabei eine Vorhersagegenauigkeit von 92 % [27].
Der Einsatz von KI-Modellen in Hausarztpraxen könnte dazu beitragen, die Überweisung an geeignete Orthopäden für eine chirurgische Behandlung zu optimieren.
Präoperative Risikostratifizierung: KI vs. traditionelle Instrumente zur Risikobewertung
Grundsätzlich sollte das Potenzial zur Verbesserung der Lebensqualität des Patienten die mit der chirurgischen Behandlung verbundenen Risiken überwiegen. Eine individualisierte Vorhersage der Wahrscheinlichkeit postoperativer Komplikationen ermöglicht es Chirurgen, zu entscheiden, welche Patienten für eine Operation in Frage (Tab. 1).
Tab. 1
Vergleich zwischen einem klinischen Workflow mit mittels künstlicher Intelligenz (KI) gestützter präoperativer Risikobewertung und einem traditionellen Workflow ohne KI
Kategorie
KI-gestützte präoperative Risikobewertung
Traditionelle präoperative Risikobewertung
Patientenauswahl und Überweisung nach Indikation
Erhöht die Genauigkeit bei der Identifizierung von Patienten, die gute Kandidaten für einen chirurgischen Eingriff sind, und optimiert so die Ressourcenverteilung
Verlässt sich auf etablierte Überweisungsmuster, die auf klinischem Urteilsvermögen beruhen und zu einer frühen oder verzögerten Überweisung zur chirurgischen Versorgung führen können
Präoperative Risikostratifizierung: KI vs. traditionelle Modelle
KI kann ein breiteres Spektrum von Variablen berücksichtigen, was zu einer genaueren und individuelleren Risikostratifizierung führen kann
Herkömmliche Risikostratifizierungsmodelle erfassen möglicherweise nicht das nuancierte Zusammenspiel einer großen Anzahl von patientenspezifischen Variablen
Vorhersage postoperativer Komplikationen
KI-Modelle könnten bestimmte Komplikationen mit hoher Präzision vorhersagen und so eine bessere Vorbereitung und Präventionsstrategie ermöglichen
Erfahrung und Intuition sind von Natur aus begrenzt und benutzerabhängig. Die herkömmliche Risikostratifizierung mittels ASA- oder ähnliche Methoden stützt sich auf eine begrenzte Anzahl von Variablen, die möglicherweise nicht alle Risiken konsequent erkennen
Es gibt mehrere verschiedene Modelle zur Risikostratifizierung und Vorhersage. Der ASA-Score (American Society of Anesthesiologists), der ACS-SRC (American College of Surgeons Surgical Risk Calculator) und der POSSUM (Physiologic and Operative Severity Score for the Enumeration of Mortality and Morbidity) sind weithin bekannte Beispiele für diese Stratifikationsinstrumente [5, 7, 12]. Sie beruhen auf der proportionalen Cox-Hazard-Regressionsanalyse oder logistischen Regressionsmodellen. Zu den wichtigsten Einschränkungen gehört, dass sie mit Ausnahme der Mortalität keine spezifischen Komplikationen direkt messen, sondern eher als Indikator für die systemische physiologische Belastbarkeit dienen und nicht als deterministischer Prädiktor für spezifische postoperative Komplikationen.
Höhere ASA-Werte korrelierten mit einem erhöhten Risiko für verschiedene schwere Komplikationen
So korrelierten beispielsweise höhere ASA-Werte mit einem erhöhten Risiko für verschiedene schwere Komplikationen wie Infektionen, Krankenhausaufenthalte, Herz-Kreislauf-Erkrankungen und Tod bei älteren Patienten mit einer Hüftfraktur [23]. Dennoch liefert der ASA-Score keine detaillierte Risikobewertung, welche Komplikation bei jedem einzelnen Patienten wahrscheinlich auftreten wird.
Anzeige
Lineare Modelle wie die oben genannten können nur eine relativ kleine Anzahl von Variablen berücksichtigen und so Ausreißerfälle und wichtige Einflussfaktoren auf die Ergebnisse ausschließen [14]. Modelle der künstlichen Intelligenz können eine größere Anzahl von klinischen Variablen analysieren und nichtlineare Analysen durchführen. Unter Verwendung von Daten aus mehreren Quellen wie Diagnosen, Behandlungen und Laborwerten haben KI-Modelle die logistische Regression bei der Vorhersage postoperativer Ergebnisse übertroffen ([16, 21, 26]; Abb. 1).
×
Vorhersage von postoperativen Komplikationen
Obwohl sie sich noch im Versuchsstadium befinden, wurden einige KI-Modelle entwickelt, um das Risiko für bestimmte Komplikationen bei bestimmten orthopädischen Patientengruppen mit interessanten Methoden abzuschätzen.
Kim et al. trainierten ein künstliches neuronales Netz auf Daten von 22.629 Patienten, die sich einer posterioren lumbalen Fusion unterzogen hatten, und verglichen die Vorhersagen auf der Grundlage des ASA-Scores und der logistischen Regression als Benchmark. Das künstliche neuronale Netz hatte die beste AUC für die Vorhersage kardialer Komplikationen mit 0,712, während der ASA-Score eine AUC von 0,480 erreichte. Bei der Vorhersage von venösen Thromboembolien, Wundkomplikationen und Mortalität zeigte die logistische Regression bei allen Parametern eine bessere Leistung [21].
Intra- oder postoperative Bluttransfusionen sind manchmal notwendig, um die hämodynamische Stabilität im Rahmen eines größeren orthopädischen Eingriffs zu erhalten. Der großzügige Einsatz von Bluttransfusionen wurde jedoch mit einem erhöhten Risiko für tiefe Venenthrombosen, Infektionen und einer höheren Sterblichkeitsrate in Verbindung gebracht. Jo et al. trainierten das Modell anhand der präoperativen Daten von 1686 Patienten. Sie begannen mit der Isolierung von 6 kritischen Variablen aus 43 mittels einer rekursiven Merkmalseliminierung. Mit diesen Variablen wurde dann eine Gradientenverstärkungsmaschine trainiert und ein AUC von 0,842 erreicht. Um die Umsetzung in der Klinik zu vereinfachen, erstellten sie einen einfach zu bedienenden Webrechner namens „SafeTKA“ [19].
Anzeige
Beeindruckenderweise wandte die Gruppe anschließend dieselbe Methodik bei einem größeren Patientenkollektiv an, um eine akute Nierenschädigung [22] mit einer Gradient-Boosting-Maschine und ein postoperatives Delirium mit einem Extreme-Gradient-Boosting-Algorithmus [20] bei der Implantation einer Knie-TEP vorherzusagen. Sie erreichten jeweils gute Vorhersagewerte mit einer AUC von 0,78 und 0,80 (Abb. 2).
×
Harris et al. verwendeten Methoden des maschinellen Lernens zur Vorhersage kardialer Komplikationen und der 30-Tage-Sterblichkeit bei 65.499 Medicare-Patienten, die sich einer Hüft-TEP unterzogen, und 137.546, die eine Knie-TEP erhielten. Eine Stärke ihrer Methodik besteht darin, dass sie auch die Wahrscheinlichkeit der Komplikation bei Patienten berechnet haben, bei denen diese nicht auftrat, um den Chirurgen bei der Bestimmung des praktischen Werts dieser Risikobewertung zu unterstützen.
Die mittlere prädiktive Wahrscheinlichkeit einer kardialen Komplikation innerhalb von 30 Tagen lag bei 1,1 % und damit signifikant höher als 0,60 % bei denjenigen ohne kardiale Komplikation (p < 0,001); die 30-Tage-Mortalität lag bei 0,51 % und damit signifikant höher als 0,27 % bei denjenigen, die nicht starben (p = 0,009). Diese Ergebnisse stellen eine gute Vorhersagefähigkeit dar. [13].
Das breite Spektrum an Techniken der KI stellt eine große Herausforderung dar, wenn es darum geht zu entscheiden, welches Modell für welches Problem am besten geeignet ist. Devana et al. entwickelten AutoPrognosis, ein neuartiges algorithmisches Framework, das automatisch die bestmöglichen KI-Algorithmen auswählt, kombiniert und zu einem einzigen, gut kalibrierten Vorhersagemodell-Ensemble für einen beliebigen Datensatz abstimmt, um dieses Problem zu lösen [2].
Anzeige
AutoPrognosis wurde dann anhand einer Datenbank mit über 150.000 Patienten trainiert. Seine Leistung wurde im Vergleich zur traditionellen logistischen Regression und verschiedenen anderen häufig verwendeten maschinellen Lernmethoden wie logistische Regression, verstärkte Regression, kleinste absolute Schrumpfung und Selektionsoperator für die Vorhersage größerer Komplikationen nach primärer Knie-TEP trainiert. Sie erhielten AUROC-Werte von 0,5–0,7 und zeigten damit eine mäßige Leistung. Dennoch zeigte AutoPrognosis im Vergleich zu anderen KI-Methoden eine überlegene Vorhersageleistung [8].
In einer vielbeachteten Studie, die für ihre Offenheit bei der Interpretation der Ergebnisse gelobt wurde, haben El-Galaly et al. versucht, Revisionen innerhalb von 2 Jahren nach Knie-TEP vorherzusagen. Als Trainingsdatensatz wurden alle präoperativen Variablen von 25.104 primären Knie-TEP aus dem National Danish Knee Arthroplasty Registry herangezogen. Vier verschiedene Vorhersagemodelle, nämlich die logistische Regression mit dem Least Shrinkage and Selection Operator (LASSO), zwei Klassifikationsbaummodelle (Random Forest und Gradient Boosting Model) und ein überwachtes neuronales Netzwerk, wurden verglichen, um das beste Modell zu finden. Alle Modelle zeigten eine tiefe Vorhersageleistung, die zwischen 0,47 und 0,59 lag. Die Autoren selbst kamen aber zu dem Schluss, dass diese Vorhersageleistung nicht klinisch relevant ist [9].
Eine höhere Wahrscheinlichkeit für kurzfristige postoperative Komplikationen wie 30-Tage-Sterblichkeit, Bluttransfusionen, tiefe Venenthrombosen und Lungenembolien wurde mit einer aseptischen Revision einer Hüft- oder Knie-TEP in Verbindung gebracht. Abraham et al. trainierten einen Extreme-Gradient-Boosting-Algorithmus zur Vorhersage von Komplikationen nach aseptischen Revisionen und versuchten, die wichtigsten Patientenvariablen zu identifizieren. Das maschinelle Lernmodell sagte die 30-Tage-Mortalität (AUC 0,88), kardiale (AUC 0,80) und respiratorische Komplikationen (AUC 0,78) nach einer aseptischen Revision einer Hüft- oder Knie-TEP genau voraus. Wundinfektionen, tiefe Schnittverletzungen, Sepsis oder septischer Schock, Rückkehr in den Operationssaal, tiefe Venenthrombose und andere erreichten keine prädiktive klinische Signifikanz (AUC < 0,7). Sie entwickelten auch ein einfach zu verwendendes Webtool (Abb. 3; [1]).
×
Fazit für die Praxis
Eines der wichtigsten Merkmale, das erfahrene von unerfahrenen Chirurgen unterscheidet, ist die Fähigkeit, Indikationen korrekt zu stellen, sowie intraoperative und postoperative Komplikationen frühzeitig zu erkennen.
Das berühmte Bauchgefühl von erfahrenen Chirurgen stellt eine komplexe subjektive Berechnung der Risiken dar, die berücksichtigt werden müssen, aber leider schlecht übertragbar sind.
Künstliche Intelligenz (KI) hat das Potenzial, die Risikobewertung in der orthopädischen Chirurgie zu individualisieren und zu objektivieren.
Durch den Einsatz fortschrittlicher Algorithmen zur Analyse großer Datenmengen und komplexer Muster kann die KI dazu beitragen, chirurgische Risiken individuell vorherzusagen und so die Entscheidungsfindung zu erleichtern und zu verbessern.
Allerdings befinden sich diese KI-basierten Bewertungsinstrumente noch in der Entwicklungsphase.
Vor dem klinischen Einsatz dieser Technologien sind weitere Verfeinerungen und vor allem ein Validierungsprozess erforderlich.
Einhaltung ethischer Richtlinien
Interessenkonflikt
G. Sanchez Rosenberg und C. Egloff geben an, dass kein Interessenkonflikt besteht.
Für diesen Beitrag wurden von den Autor/-innen keine Studien an Menschen oder Tieren durchgeführt. Für die aufgeführten Studien gelten die jeweils dort angegebenen ethischen Richtlinien.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Mit e.Med Orthopädie & Unfallchirurgie erhalten Sie Zugang zu CME-Fortbildungen der Fachgebiete, den Premium-Inhalten der dazugehörigen Fachzeitschriften, inklusive einer gedruckten Zeitschrift Ihrer Wahl.
Der Einsatz von Operationsrobotern für den Einbau von Totalendoprothesen des Kniegelenks hat die Präzision der Eingriffe erhöht. Für die postoperative Zufriedenheit der Patienten scheint das aber unerheblich zu sein, wie eine Studie zeigt.
Mit dem Hebelzeichen-Test lässt sich offenbar recht zuverlässig feststellen, ob ein vorderes Kreuzband gerissen ist. In einer Metaanalyse war die Vorhersagekraft vor allem bei positivem Testergebnis hoch.
Extreme Arbeitsverdichtung und kaum Supervision: Dr. Andrea Martini, Sprecherin des Bündnisses Junge Ärztinnen und Ärzte (BJÄ) über den Frust des ärztlichen Nachwuchses und die Vorteile des Rucksack-Modells.
Bewegungs-, Dehnungs- und Entspannungsübungen im Wasser lindern die Beschwerden von Patientinnen mit Fibromyalgie besser als das Üben auf trockenem Land. Das geht aus einer spanisch-brasilianischen Vergleichsstudie hervor.
Update Orthopädie und Unfallchirurgie
Bestellen Sie unseren Fach-Newsletter und bleiben Sie gut informiert.