Die Auswirkungen inkonsistenter menschlicher Anmerkungen auf die KI-gesteuerte klinische Entscheidungsfindung

npj Digital Medicine Band 6, Artikelnummer: 26 (2023) Diesen Artikel zitieren

3203 Zugriffe

5 Zitate

18 Altmetrisch

Details zu den Metriken

Bei der Entwicklung von überwachten Lernmodellen werden häufig Domänenexperten eingesetzt, um die Klassenbezeichnungen (Anmerkungen) bereitzustellen. Anmerkungsinkonsistenzen treten häufig dann auf, wenn selbst sehr erfahrene klinische Experten das gleiche Phänomen (z. B. medizinisches Bild, Diagnose oder Prognosestatus) kommentieren, was unter anderem auf inhärente Expertenvoreingenommenheit, Urteile und Verfehlungen zurückzuführen ist. Obwohl ihre Existenz relativ gut bekannt ist, sind die Auswirkungen solcher Inkonsistenzen in realen Umgebungen, wenn überwachtes Lernen auf solche „verrauschten“ gekennzeichneten Daten angewendet wird, weitgehend unzureichend erforscht. Um Licht in diese Fragen zu bringen, haben wir umfangreiche Experimente und Analysen an drei realen Datensätzen von Intensivstationen (ICU) durchgeführt. Insbesondere wurden einzelne Modelle aus einem gemeinsamen Datensatz erstellt, der von 11 Intensivberatern des Glasgow Queen Elizabeth University Hospital unabhängig voneinander kommentiert wurde, und die Schätzungen der Modellleistung wurden durch interne Validierung verglichen (Fleiss' κ = 0,383, d. h. faire Übereinstimmung). Darüber hinaus wurde eine umfassende externe Validierung (sowohl an statischen als auch an Zeitreihen-Datensätzen) dieser 11 Klassifikatoren an einem externen HiRID-Datensatz durchgeführt, wobei festgestellt wurde, dass die Klassifizierungen der Modelle geringe paarweise Übereinstimmungen aufwiesen (durchschnittliches Cohens κ = 0,255, d. h. minimale Übereinstimmung). . Darüber hinaus sind sie bei Entlassungsentscheidungen eher unterschiedlicher Meinung (Fleiss' κ = 0,174) als bei der Vorhersage der Sterblichkeit (Fleiss' κ = 0,267). Angesichts dieser Inkonsistenzen wurden weitere Analysen durchgeführt, um die aktuellen Best Practices bei der Erlangung von Goldstandardmodellen und der Konsensfindung zu bewerten. Die Ergebnisse legen nahe, dass: (a) es möglicherweise nicht immer einen „Superexperten“ in akuten klinischen Situationen gibt (wobei die Leistung interner und externer Validierungsmodelle als Stellvertreter verwendet wird); und (b) die Suche nach Standardkonsens (z. B. Mehrheitsentscheidung) führt durchweg zu suboptimalen Modellen. Eine weitere Analyse legt jedoch nahe, dass die Bewertung der Lernfähigkeit von Annotationen und die Verwendung nur „lernbarer“ annotierter Datensätze zur Konsensbestimmung in den meisten Fällen zu optimalen Modellen führt.

Beim klassischen überwachten maschinellen Lernen wird davon ausgegangen, dass die Bezeichnungen der Trainingsbeispiele alle korrekt sind, und ignoriert das Vorhandensein von Klassenrauschen und Ungenauigkeiten1. Im Gesundheitswesen trifft diese Annahme möglicherweise nicht zu, selbst wenn sehr erfahrene Kliniker diese Bezeichnungen bereitstellen, und zwar aufgrund des Ausmaßes an Rauschen, der Subjektivität des Beobachters und der damit verbundenen Voreingenommenheit. Wenn sie beim Training eines Machine Learning Decision-Support-Systems (ML-DSS) vernachlässigt werden, können Annotationsinkonsistenzen zu einer willkürlich unvollständigen Version der Grundwahrheit und zu nachfolgenden unvorhersehbaren klinischen Konsequenzen, einschließlich fehlerhafter Klassifizierungen, führen2,3,4.

Im Idealfall werden Klassenbezeichnungen durch einen Prozess des Wissenserwerbs erlangt, bei dem der geeignete „Goldstandard“ ausgewählt wird, auf dem diese Grundwahrheitsklassenbezeichnungen basieren, um ein wissensbasiertes System (Knowledge-Based System, KBS) aufzubauen. Im Gesundheitswesen und in der Biomedizin werden häufig Experten aus dem klinischen Bereich mit der Bereitstellung dieser Etiketten beauftragt5. In vielen klinischen Bereichen sind diese Grundwahrheiten jedoch aufgrund der pathophysiologischen, diagnostischen und prognostischen Unsicherheiten, die der Medizin innewohnen, schwer zu finden und zu definieren2,6.

Die kognitive Psychologie hat experimentell gezeigt, dass Menschen (und damit auch Experten) „Ausrutscher“ machen, beispielsweise aufgrund kognitiver Überlastung und aufgrund von Vorurteilen. Andererseits geht man im Bereich der Expertensysteme und der KBS davon aus, dass es für (die meisten) Disziplinen „schlüpffreie“ hochqualifizierte Experten gibt und die zentrale Aufgabe darin besteht, wie solche Experten objektiv oder subjektiv identifiziert werden können. Allerdings zeigen zunehmende Belege aus der Literatur, dass Expertengruppen bei gemeinsamen Aufgabenstellungen (z. B. Klassifizierung) häufig erheblich anderer Meinung sind5,7,8. Im Jahr 2021 veröffentlichten Kahneman et al.9 einen wichtigen Beitrag zu diesem Thema mit dem Titel „Noise: a fail in Human Judgment“, der überzeugend darlegt, dass Experten in vielen Disziplinen unterschiedlicher Meinung sind. Diese Autoren9 unterscheiden zwischen Urteilen und Meinungen, wobei bei ersteren von Experten erwartet wird, dass sie eine Antwort auf der Grundlage einer (festen) Reihe von Alternativen geben, während Meinungen viel offener sind. In dieser Arbeit befassen wir uns mit Aufgaben, die eine Beurteilung durch die verschiedenen Experten erfordern.

Es gibt vier Hauptquellen für Annotationsinkonsistenzen2,8,10,11,12,13,14,15,16,17: (a) Unzureichende Informationen für eine zuverlässige Kennzeichnung (z. B. schlechte Datenqualität oder unklare Richtlinien); (b) Unzureichende Fachkompetenz; (c) Menschliches Versagen (z. B. Ausrutscher und Lärm); (d) Subjektivität bei der Kennzeichnungsaufgabe (dh Urteilsvermögen und Voreingenommenheit). In dieser Studie, in der sehr erfahrene klinische Annotatoren eingesetzt wurden und die Kennzeichnungsaufgabe mit 60 zu kommentierenden Instanzen gut verstanden wurde, gehen wir davon aus, dass die Hauptquelle der untersuchten Inkonsistenz die Interrater-Variabilität ist, die aus Voreingenommenheit, Urteilsvermögen und Rauschen des Beobachters resultiert. In diesem Artikel definieren wir „Rauschen“ als Systemrauschen, also unerwünschte Variabilität bei Urteilen, die im Idealfall identisch sein sollten9.

Kahneman et al.9 weisen darauf hin, dass zwischenmenschliche Störungen (d. h. Interrater-Variabilität) in der Ärzteschaft am häufigsten vorkommen, wenn von Ärzten verlangt wird, Urteile zu fällen, im Gegensatz zur Befolgung einer routinemäßigen oder größtenteils mechanischen Diagnose (d. h. bestehend aus festgelegten oder quantitativen Tests). Regeln); Kahneman et al. skizzieren Sie eine Reihe von Beispielen. Jain et al.18. fanden heraus, dass die Übereinstimmung zwischen Pathologen bei der Diagnose von Brustproliferationsläsionen nur „fair“ war (Fleiss‘ κ = 0,34). Regier et al.19 zeigten, dass sich hochqualifizierte Fachpsychiater nur in 4–15 % der Fälle auf die Diagnose einer „schwerwiegenden depressiven Störung“ einigten (Fleiss' κ = 0,28)20. Halford et al.21 zeigten eine minimale Übereinstimmung zwischen EEG-Experten hinsichtlich der Identifizierung periodischer Entladungen in kontinuierlichen EEG-Aufzeichnungen auf der Intensivstation (durchschnittlicher paarweiser Cohen-κ = 0,38). Moor et al.22 beschreiben die erheblichen Meinungsverschiedenheiten über die Definition von Sepsis – einer der häufigsten Todesursachen auf Intensivstationen weltweit. Zhang et al.23 untersuchten die Überweisungen von Ärzten der Notaufnahme an stationäre Teams und stellten fest, dass bei 39,4 % der Einweisungen Patienten in ein anderes stationäres Team aufgenommen wurden als das, das ursprünglich von der Notaufnahme verwiesen wurde. Xia und Yetisgen-Yildiz24 zeigten fast keine Übereinstimmung zwischen klinischen Annotatoren, die eine Lungenentzündung anhand von Röntgenberichten des Brustkorbs identifizierten (Cohens κ = 0,085), und dass „medizinische Ausbildung allein nicht ausreicht, um eine hohe Übereinstimmung zwischen Annotatoren zu erreichen“. Das Vorhandensein von Lärm ist eindeutig in einer Vielzahl medizinischer Bereiche, einschließlich Intensivstationen, allgegenwärtig.

Der Einsatz solcher Kliniker zur Erstellung der Wissensdatenbank führt zu einer „veränderlichen“ Grundwahrheit, je nachdem, welche Experten eingesetzt werden. Es wurde empirisch gezeigt, dass Etikettenrauschen in Trainingsdaten zu einer verringerten Klassifizierungsgenauigkeit, einer erhöhten Komplexität der abgeleiteten Modelle (z. B. einer zunehmenden Größe der Entscheidungsbäume), einer erhöhten Anzahl benötigter Trainingsstichproben und mehr führt4,11,25,26,27,28 eine Schwierigkeit bei der Funktionsauswahl. Nach unserem besten Wissen ist dieses Papier eine der ersten Studien, die Vorurteile/Inkonsistenzen bei einer beträchtlichen Anzahl (11) von Klinikern in akuten klinischen Entscheidungsszenarien (Intensivstationen) unter Verwendung eines externen Validierungsdatensatzes untersucht.

Häufig werden zwei Ansätze verwendet, um das Rauschen von Klassenbezeichnungen in der ML-Entwicklung zu beheben. Die erste beinhaltet die Verwendung von Datenbereinigungsmethoden, bei denen verrauschte Etiketten identifiziert und vor dem Training neu gekennzeichnet/entfernt werden. Die zweite beinhaltet die Verwendung von Label-Rauschen-toleranten Algorithmen, bei denen Label-Rauschen beim Lernen berücksichtigt wird10,12,29. Darüber hinaus kann die Anwendung dieser Methoden dazu führen, dass subtile und potenziell wichtige Unterschiede zwischen den Klassenbezeichnungen der Annotatoren verloren gehen. (Letzteres Problem wird im Abschnitt „Weitere Arbeiten“ behandelt.) Es gibt einige informative Literatur über Methoden zur Verbesserung der Qualität klinischer Etiketten, einschließlich der Festlegung klarer Anmerkungsrichtlinien24 und der Modellierung von Anmerkungsfehlern menschlicher Experten30. Der Großteil dieser Literatur befasst sich jedoch mit Bildklassifizierungsaufgaben – es mangelt an empirischen Studien zur Verbesserung der Qualität symbolischer Beschriftungen bei medizinischen Anmerkungsaufgaben.

Ziel dieser Studie ist es, die (In-)Konsistenz menschlicher Anmerkungen für die Entwicklung von KI-Modellen und die Auswirkungen auf die klinische Entscheidungsfindung in der Praxis auf Intensivstationen zu bewerten. Die Gesamtqualität der Klassenbeschriftung wird stark durch Meinungsverschiedenheiten zwischen Annotatoren beeinflusst. Der Schwerpunkt dieser Studie liegt auf der Untersuchung der Auswirkungen und der effektiven Nutzung der Meinungsverschiedenheiten von Experten (über ihre Anmerkungen) bei der Entwicklung von ML-Modellen, anstatt die Abweichung ihrer Urteile zur Bildung einer „Grundwahrheit“ aufzulösen. Wir führen umfangreiche Experimente durch, um zu zeigen, wie unterschiedliche Urteile zwischen Kommentatoren klinischer Experten zu Klassifizierungsmodellen mit unterschiedlicher Leistung (und damit unterschiedlichem klinischem Nutzen) führen können und wie aus solchen Unterschieden ein optimaler Konsens erzielt werden kann, um eine KI-gesteuerte klinische Entscheidungsfindung zu erleichtern. Insbesondere berichteten Sleeman et al.5,7, dass klinische Experten manchmal anderer Meinung sind, wenn sie den Schweregrad eines Intensivpatienten auf einer Fünf-Punkte-Skala (AE) kennzeichnen, die auf den Werten von sechs klinischen Variablen basiert. Die aktuelle Studie befasst sich mit der Frage: „Welche Auswirkungen haben diese Unterschiede in der Beurteilung auf die resultierende Leistung des Klassifikatormodells und die klinische Entscheidungsfindung auf der Intensivstation in der Praxis?“ Wir haben daher die Hypothese aufgestellt, dass die M-Klassifikatoren, die aus von klinischen M-Experten individuell gekennzeichneten Datensätzen abgeleitet werden, konsistente Klassifizierungen erzeugen, wenn sie auf einen relevanten externen Datensatz angewendet werden. Die Ziele dieser Studie sind: 1) Erstellen von Klassifikatoren aus den 11 individuell kommentierten Intensiv-Datensätzen des Queen Elizabeth University Hospital (QEUH). 2) Bewerten Sie die Leistung der Klassifikatoren anhand realer Entlassungsergebnisse (lebend von der Intensivstation entlassen und auf der Intensivstation gestorben) in einem externen Intensivdatensatz: HiRID. 3) Bewerten Sie verschiedene Ansätze zum Umgang mit Annotationsinkonsistenzen, da diese häufig zu suboptimalen KI-Modellen führen.

Diese Studie konzentriert sich auf ein Szenario des Einsatzes von KI-Technologien zur Erleichterung eines klinischen Entscheidungsproblems, mit dem Intensivberater täglich konfrontiert sind, wie unten beschrieben.

Können wir eine Fünf-Punkte-Skala (AE) des ICU Patient Scoring System (ICU-PSS) verwenden, um die Frage „Wie krank ist der Patient?“ zu beantworten, wobei E für eine schwere kardiovaskuläre Instabilität und A für einen relativ stabilen Patienten steht. Abbildung 1a enthält eine Beschreibung der ICU-PSS-Skala und Ergänzungstabelle 1 enthält weitere Details.

a ICU-PSS-Annotationskategorien. b Beispielinstanzen eines mit QEUH ICU annotierten Datensatzes.

Der Trainingsdatensatz wurde vom Intensivpatientenmanagementsystem des Glasgow Queen Elizabeth University Hospital (QEUH) bezogen. Es enthält 60 Dateninstanzen, die durch sechs klinische Merkmale beschrieben werden: zwei Arzneimittelvariablen (Adrenalin und Noradrenalin) und vier physiologische Parameter (FiO2, SpO2, mittlerer arterieller Druck (MAP) und Herzfrequenz (HR)). Beachten Sie, dass es sich bei den sechs Variablen um diejenigen handelt, die Ärzte auf der Intensivstation regelmäßig verwenden, um zu beurteilen, wie krank ein bestimmter Patient ist. Beispielanmerkungen sind in Abb. 1b dargestellt. Der QUEH-Datensatz kann Trauma- und Nicht-Trauma-Patientendaten auf der Intensivstation enthalten.

Unser Hauptziel besteht darin, die (In-)Konsistenz menschlicher Anmerkungen für die Entwicklung von KI-Modellen und die Auswirkungen auf die klinische Entscheidungsfindung in der Praxis auf Intensivstationen zu bewerten. Dies gliedert sich in die folgenden Aspekte.

Evaluierungsaufbau: (a) ML-Modelle werden unter Verwendung der QEUH-annotierten Datensätze entwickelt; (b) Es werden externe Validierungsdatensätze erstellt und alle Modellleistungsbewertungen müssen anhand dieser Datensätze durchgeführt werden.

Konsistenzquantifizierung: Wir wählen die κ-Skala von Cohen31,32 und die κ-Skala von Fleiss33,34, um das Ausmaß zu messen, in dem die KI-Modelle der Annotatoren derselben Instanz dieselbe Kategorie zuordnen. Höhere Werte auf diesen Skalen deuten auf ein stärkeres Maß an Übereinstimmung hin. Cohens Skala kann wie folgt zusammengefasst werden: 0,0–0,20 (Keine); 0,21–0,39 (Minimal); 0,40–0,59 (schwach); 0,60–0,79 (mäßig); 0,80–0,90 (stark); > 0,90 (fast perfekt).

Auswirkungen auf die Entscheidungsfindung in der realen Welt: Wir haben zwei reale Entscheidungsszenarien auf der Intensivstation ausgewählt, bei denen es sich beide um binäre Klassifizierungsaufgaben handelt. Erstens, ob ein Patient in der nächsten Stunde von der Intensivstation entlassen werden sollte; Zweitens, ob ein Patient innerhalb der nächsten Stunde auf der Intensivstation sterben wird. Wir untersuchen zwei Methoden der externen Validierung – eine unter Verwendung stündlicher Schnappschüsse von Patientendaten (d. h. statischer Daten) und eine andere unter Verwendung von Zeitreihendaten (d. h. zeitlicher Daten).

Bewerten Sie aktuelle „Best Practices“ zur Erlangung des Goldstandards: Wir bewerten (a) ob es einen „Superexperten“ gibt, dessen Urteil als Goldstandard verwendet werden sollte, wenn Meinungsverschiedenheiten auftreten; (b) Kann aus allen Expertenurteilen ein Konsens zur Erreichung des Goldstandards erzielt werden?

Eine Übersicht über den oben beschriebenen experimentellen Ansatz findet sich in Abb. 2.

Die linke Komponente (mit drei Kästchen) veranschaulicht die Modellableitung einschließlich Datensatz, Modellen und internen Validierungsmethoden. Die obere Komponente mit zwei grünen Kästchen kennzeichnet die Auswahl und Vorbereitung des externen Validierungsdatensatzes. Die mittlere Komponente (durch eine gestrichelte Linie eingekreist) zeigt die externen Validierungsexperimente. Die rechte Komponente (mit vier rosafarbenen Kästchen) beschreibt die Details des externen Validierungsexperiments, einschließlich inkonsistenter Messungen, Methoden zur Konsenssuche und Entscheidungsfindung unter Berücksichtigung sich ändernder Muster.

Denken Sie daran, dass die zentrale Hypothese dieser Studie lautet: Die M-Klassifikatoren, die aus den von klinischen M-Experten individuell gekennzeichneten Datensätzen abgeleitet werden, erzeugen identische Klassifizierungen, wenn sie auf einen relevanten externen Datensatz angewendet werden.

Entscheidungsbaum- (DT) und Random-Forest-Klassifikatoren (RF) wurden aus den QEUH-annotierten Datensätzen erstellt, teilweise weil beide beliebte Optionen in der Literatur zum klinischen maschinellen Lernen sind. DT wurde ausgewählt, da die resultierenden Baumdiagramme verwendet werden können, um den Entscheidungsprozess der erlernten Modelle abzuleiten und die unterschiedlichen Komplexitäten zwischen Annotatormodellen zu vergleichen. RF wurde verwendet, um zu vergleichen, ob leistungsfähigere Modelle (im Vergleich zu DT) die Inkonsistenz weniger signifikant machen würden – was, wie wir in späteren Unterabschnitten zeigen werden, nicht der Fall ist.

Aus jedem der annotierten Datensätze der 11 Berater wurden 11 Klassifikatoren abgeleitet, die Daten für 6 klinische Variablen (Adrenalin, Noradrenalin, FiO2, SpO2, MAP, HR) und die Schweregradklassenbezeichnungen (AE) enthielten. Die Annotationskennzeichnung (AE) der 60 Trainingsinstanzen unterscheidet sich bei den 11 Annotatoren, wie in Abb. 3a dargestellt. Beachten Sie, dass wir vor dem Training Klassenausgleichstechniken ausprobiert haben, um die Klassenbezeichnungen in den annotierten Datensätzen auszugleichen. Dies führte jedoch nicht zu einem signifikanten Leistungsunterschied (siehe Ergänzungstabelle 2). Aus diesem Grund haben wir uns entschieden, Klassifikatoren unter Verwendung der ursprünglich annotierten Datensätze zu erstellen. Den 11 Beratern, die die QEUH-Datensätze kommentierten, wurden im Anschluss an die Kommentierungsübung in der vorherigen Studie von Sleeman et al.5 zufällig anonyme Codenamen (C1–C11) zugewiesen. Auf diese Codenamen wird im gesamten Dokument Bezug genommen. Der entsprechende RF-Klassifikator jedes Beraters wird als Cn-RF bezeichnet, wobei sich n auf die Berater 1–11 bezieht.

a Anmerkungsverteilungen über die mit QEUH gekennzeichneten Trainingsdatensätze aller Berater (C1–C11). b Vorhergesagte Labelverteilungen über die RF-Mehrklassenmodelle der Berater hinweg, ausgeführt auf dem HiRID-Validierungsdatensatz. c Paarweise Cohens κ-Werte über alle Beraterpaare für die vorhergesagten Bezeichnungen, die von den Multiklassen-RF-Modellen im externen HiRID-Validierungsdatensatz erstellt wurden.

Die trainierten Modelle sagen ICU-PSS-Labels (AE) für einen Patienten voraus und geben den Schweregrad an. Ein standardmäßiges internes Validierungsexperiment über mehrere annotierte Datensätze hinweg umfasst zunächst die Ermittlung einer Grundwahrheit, höchstwahrscheinlich durch eine Mehrheitsabstimmung aller Annotatoren für jede Instanz. Dann würde jedes trainierte Beratermodell mit dieser Grundwahrheit verglichen, um die interne Validierungsleistung zu ermitteln. Wir haben eine andere, für diese Studie relevantere Methode entwickelt und verwendet, bei der jedes trainierte Modell mit den ursprünglichen Annotationen verglichen wurde, aus denen es gelernt hat. Somit zeigen diese internen Validierungsergebnisse die „Lernbarkeit“ der ursprünglich annotierten Datensätze an, d. h. wie gut die Zusammenhänge zwischen den Attributvariablen und bereitgestellten Annotationen können erlernt werden und dadurch wiederum, wie einfach die Entscheidungsfindung des Annotators reproduziert werden kann. Dieser F1-(Mikro-)Wert für die interne Validierung liegt zwischen 0,50 und 0,77 für die 11 RF-Klassifikatoren, wie in Abb. 5a dargestellt. Die Merkmalsbedeutung der sechs Vorhersagevariablen unterscheidet sich je nach Klassifikator, wie in Abb. 4 dargestellt.

Auf der x-Achse sind die 11 Klassifikatoren aufgeführt und auf der y-Achse ist der Wichtigkeitswert mit einem Bereich von 0 bis 1 angegeben, wobei 1 die größte Wichtigkeit angibt.

Bei allen externen Validierungsexperimenten liegt der Schwerpunkt auf der Vorhersage der beiden extremen klinischen Szenarien (lebend von der Intensivstation entlassen oder auf der Intensivstation gestorben). In diesem ersten externen Validierungsexperiment wurden die trainierten Modelle mit einem HiRID-Testdatensatz ausgeführt, um Schweregrade (AE) für 2600 Instanzen vorherzusagen, die Daten für dieselben 6 klinischen Variablen enthielten (1300 dieser Instanzen entsprechen Patienten, die daraus lebend entlassen wurden). Intensivstation und weitere 1300 Patienten, die auf dieser Intensivstation starben). Da unser Fokus auf einer binären Klassifizierungsaufgabe (Entlassungsstatus) liegt, haben wir die Multiklassen-Klassifizierungen der AE-Schweregradbezeichnungen wie folgt binären Klassifikationen für Entlassungen/Verstorbene zugeordnet:

In der letzten Stunde, bevor ein Patient (lebend) von der Intensivstation entlassen wird, ist seine Einstufung auf der ICU-PSS-Skala „A“.

In der letzten Stunde, bevor ein Patient auf der Intensivstation stirbt, ist seine Einstufung auf der ICU-PSS-Skala „E“.

Beachten Sie, dass im HiRID-Datensatz nicht alle Patienten mit der Klassifizierung „A“ innerhalb der nächsten Stunde entlassen wurden. Ebenso starben nicht alle Patienten mit der Einstufung „E“ innerhalb der folgenden Stunde; Viele Patienten sind bei ihrer Ankunft auf der Intensivstation extrem krank und werden oft mit „E“ eingestuft.

Die vorhergesagten Bezeichnungen für die 2600 HiRID-Testinstanzen unterscheiden sich je nach Annotator, wie in Abb. 3b dargestellt. Bei der Durchsicht dieses Diagramms wird deutlich, dass es große Unterschiede in der Klassifizierung der Expertenmodelle gibt und nur wenige Modelle vergleichbare Bezeichnungen haben. Die entsprechenden paarweisen Inter-Annotator-Übereinstimmungen (IAAs) für diese AE-vorhergesagten Beschriftungen liegen unter Verwendung der Cohen-Skala zwischen –0,01 (Niedrig/Keine) und 0,48 (Schwach) über die Annotator-Modelle hinweg und sind in Abb. 3c dargestellt. Der durchschnittliche paarweise Cohen-κ-Score beträgt 0,255 (minimale Übereinstimmung). Fleiss' κ für diese vorhergesagten Bezeichnungen beträgt 0,236 (gute Übereinstimmung). Beachten Sie, dass IAA in diesem Dokument als Abkürzung für „Inter-Annotator Agreement“ verwendet wird.

Diese Ergebnisse wurden mithilfe der Random-Forest-Klassifikatoren35 ermittelt, die auf den kommentierten Datensätzen der 11 Berater trainiert wurden. Die entsprechenden Klassifikatoren, die mit dem Entscheidungsbaumalgorithmus25 ermittelt wurden, lieferten vergleichbare Ergebnisse, siehe Lit. 36. Mit XGBoost und SVM trainierte Klassifikatoren lieferten ebenfalls vergleichbare Ergebnisse wie die RF-Modelle, wie in der ergänzenden Abbildung 3 dargestellt.

Darüber hinaus betrachten wir die tatsächlichen Entscheidungen, die die Klassifikatoren der 11 QEUH-Berater in Bezug auf den HiRID-Validierungsdatensatz getroffen haben, der, wie Sie sich erinnern werden, 1300 Fälle enthielt, die der lebenden Entlassung des Patienten in der nächsten Stunde entsprechen (d. h. ICU-PSS-Kennzeichnung „A ', wie in der obigen Zuordnung dargestellt) und 1300 Fälle, in denen der Patient innerhalb der folgenden Stunde auf der Intensivstation starb (d. h. ICU-PSS-Kennzeichnung 'E'). Diese Ergebnisse sind in Abb. 5a zusammengefasst. Zur Erinnerung: Die geschulten Klassifikatoren sagen die ICU-PSS-Klassifizierungsbezeichnungen (AE) für einen Patienten voraus und geben dabei den Schweregrad an. In diesem ersten externen Validierungsexperiment behandeln wir die trainierten Modelle so, dass sie drei Klassen vorhersagen: CL1 = A, CL2 = B/C/D und CL3 = E. Die in Abb. 5a angegebenen externen Validierungs-F1-Scores werden mithilfe des F1-Mikro berechnet Durchschnitt – Berechnen eines globalen durchschnittlichen F1-Scores durch Zählen der Summen der True Positives, False Negatives und False Positives. Der F1-Score37 ist das harmonische Mittel der Präzision und Empfindlichkeit des Klassifikators, wobei ein höherer Score auf ein leistungsstärkeres Modell hinweist.

a Interne und externe Validierungsleistungen der RF-Modelle der Berater. Für jeden Klassifikator wird die Anzahl der korrekt klassifizierten Etiketten „Discharged Alive“ und „Discharged Dead“ im externen HiRID-Datensatz gemeldet. b Externe Validierungsverwirrungsmatrixdarstellung für Berater 1, die die wahren Etiketten des HiRID-Datensatzes und die vom RF-Modell vorhergesagten Etiketten für die fünf Klassen (AE) zeigt: 0 = ICU-PSS-Etikett „A“, 4 = ICU-PSS-Etikett „E“.

Abbildung 5a zeigt die Anzahl der korrekt klassifizierten Etiketten „Lebendig entlassen“ und „Tot entlassen“ für alle 11 Klassifikatoren. Diese Ergebnisse deuten darauf hin, dass C10 bei der Entlassung von Patienten am „sehr zurückhaltend“ ist und die geringste Anzahl korrekter „Lebend entlassen“-Klassifizierungen aufweist, was sich auf die Anzahl korrekt vorhergesagter Einweisungen bezieht, die innerhalb einer Stunde lebend entlassen wurden. Im Gegensatz dazu sind C2 und C4 die „wahrscheinlichsten“ Patienten, die entlassen werden, mit der höchsten Anzahl an korrekten „Lebend entlassen“-Fällen.

Wenn wir uns nur auf die Fälle konzentrieren, in denen der Patient lebend entlassen wurde, beobachten wir, dass die durchschnittliche paarweise Übereinstimmung zwischen Annotatoren (Cohens κ) 0,21 beträgt (minimale Übereinstimmung). Fleiss' κ für diese vorhergesagten Bezeichnungen beträgt 0,174 (leichte Übereinstimmung).

Wenn wir uns nun auf die Fälle konzentrieren, in denen der Patient auf der Intensivstation starb, stellen wir fest, dass die durchschnittliche paarweise Übereinstimmung zwischen den Annotatoren (Cohens κ) 0,28 beträgt (minimale Übereinstimmung). Fleiss' κ für diese vorhergesagten Bezeichnungen beträgt 0,267 (gute Übereinstimmung).

Dies deutet darauf hin, dass sich Experten im klinischen Bereich bei der Vorhersage der Sterblichkeit eher einig sind als bei Entlassungsentscheidungen. Beachten Sie, dass aufgrund der geringen Anzahl von „E“-Labels in den annotierten Datensätzen nur begrenzte Einblicke und Vergleiche für diese vorhergesagten „gestorbenen“ Labels abgeleitet werden können. In zukünftigen verwandten Studien werden wir weitere klassenausgeglichene Datensätze erfassen, um dieses Problem anzugehen.

Abbildung 5b zeigt ein Beispiel für das Verwirrungsmatrixdiagramm eines Beraters (C1), das die Verteilung der vorhergesagten RF-Labels bei der Ausführung mit dem HiRID-Validierungsdatensatz skizziert. Die vorhergesagten Labels 0–4 entsprechen jeweils den ICU-PSS-Labels AE. True Label = 0 bedeutet, dass der Patient innerhalb der nächsten Stunde lebend von der Intensivstation entlassen wird (d. h. ICU-PSS-Label „A“); und wahre Markierung = 4 entspricht dem Tod des Patienten auf der Intensivstation innerhalb der folgenden nächsten Stunde (d. h. ICU-PSS-Kennzeichnung „E“). Diese Verwirrungsmatrix zeigt, dass C1-RF den Patienten in 337 Fällen korrekt als „lebend entlassen“ und in 229 Fällen korrekt als „tot entlassen“ klassifiziert hat. Die trainierten Modelle wurden so behandelt, als würden sie drei Klassen vorhersagen: CL1 = A, CL2 = B/C/D und CL3 = E.

Da die QEUH-Trainingsdaten aus stündlichen Schnappschüssen der physiologischen/pharmakologischen Messwerte des Patienten bestehen, führten wir dieses externe Validierungsexperiment mit einem HiRID-Validierungsdatensatz durch, der ähnlich statische Daten enthielt. Allerdings zeigt Abb. 5a, dass die externe Validierungsleistung deutlich geringer ist als die interne Validierungsleistung. Dies könnte darauf hindeuten, dass extreme Entscheidungen auf Intensivstationen (Vorhersage von Entlassung/Tod) möglicherweise eine kontinuierliche Überwachung erfordern (z. B. unter Verwendung von Zeitreihendaten) – dies wird im späteren Unterabschnitt „Bewertung externer Validierungsmethoden für Zeitreihen“ weiter untersucht. Darüber hinaus deuten die in Abb. 3a gezeigten Annotationsverteilungen darauf hin, dass menschliche Annotatoren möglicherweise weniger wahrscheinlich extreme Beschriftungskategorien (z. B. A oder E) wählen, wenn sie mit einer Beschriftungsaufgabe mit mehreren Klassen konfrontiert werden, was wiederum zu einer schlechten Leistung bei der Vorhersage dieser Szenarien führt.

Für die Klassifikatoren mit hoher interner Validierungsleistung (C2-RF, C4-RF, C8-RF) können wir daraus schließen, dass die annotierten Datensätze dieser Berater gut lernbar waren (zur Erinnerung: „Lernbarkeit“ gibt an, wie gut die Zusammenhänge zwischen den Eingabevariablen sind). und bereitgestellte Anmerkungen erlernt werden können und wie leicht wiederum die klinische Begründung des Kommentators reproduziert werden kann). Trotz einer ähnlich hohen internen Validierungsleistung unterscheiden sich die Berater C2 und C8 in ihren anfänglichen QEUH-Annotationsverteilungen und den nachfolgenden Feature-Wichtigkeitsverteilungen, wie in Abb. 3a und Abb. 4 dargestellt, was zu unterschiedlichen Verteilungen in ihren vorhergesagten Bezeichnungen im HiRID-Validierungsdatensatz führt. Wie in den Abb. gezeigt. In den 6a und 6b besteht der mit C2 QEUH annotierte Datensatz aus 3,3 % „C“-Labels und 10,0 % „E“-Labels, während der mit C8 annotierte Datensatz aus 36,7 % „C“-Labels und 1,7 % „E“-Labels besteht. Die abgeleiteten vorhergesagten Etiketten des C2-RF-Klassifikators bestehen aus 1,4 % „C“-Markierungen und 11,2 % „E“-Markierungen, während die abgeleiteten vorhergesagten Etiketten des C8-RF-Klassifikators aus 12,5 % „C“-Markierungen und 1,5 % „E“-Markierungen bestehen. Insgesamt weisen die C2-RF- und C8-RF-Klassifikatoren eine minimale Übereinstimmung zwischen ihren Klassifizierungen auf, wenn sie auf dem HiRID-Datensatz ausgeführt werden (paarweise Cohens κ = 0,27).

a Anmerkungsverteilungen über die mit QEUH gekennzeichneten Datensätze für C2, C4 und C8. b Vorhergesagte Etikettenverteilungen, die von den Klassifikatoren C2-RF, C4-RF und C8-RF generiert werden, wenn sie auf dem HiRID-Validierungsdatensatz ausgeführt werden.

In diesem Unterabschnitt bewerten wir zwei Arten von Best Practices zur Erlangung des Goldstandards von Experten für mehrere Domänen:

(a) Superexperte: Verwenden Sie die Bezeichnungen eines erfahreneren Kommentators oder nutzen Sie die Entscheidungen eines Schiedsrichters, wenn Meinungsverschiedenheiten auftreten; (b) Mehrheitsentscheidung: Konsens aller unterschiedlichen Urteile als Grundwahrheit anstreben38,39,40.

Bezüglich der „Superexperten“-Annahme konnten wir diese Einschätzung nicht direkt vornehmen, da wir aufgrund der Anonymisierung des Datensatzes nicht wissen, welche Annotatoren höherrangig sind. Um dies zu umgehen, verwenden wir die Korrelation zwischen internen und externen Modellleistungen als Proxy-Indikator. Denn wenn die Superexperten-Annahme zutrifft, könnte man davon ausgehen, dass Modelle mit höherer (oder niedrigerer) Leistung intern wahrscheinlich auch höhere (oder niedrigere) Leistungen bei externen Validierungen aufweisen. Abbildung 5a listet die internen und externen Validierungsergebnisse auf. Die Pearson-Korrelation zwischen den beiden Ergebnissen beträgt 0,51, was bedeutet, dass sie nicht stark miteinander verbunden sind. Die Ergebnisse dieser Analyse legen nahe, dass die Superexpertenannahme, dass der Goldstandard immer vom dienstältesten Kollegen bereitgestellt werden kann, nicht immer zutrifft. Wir stellen fest, dass selbst die gut funktionierenden Modelle in der internen Validierung in externen Datensätzen (z. B. C4-RF und C8-RF) nicht so gut funktionieren. Tatsächlich zeigen die ersten Anmerkungen des QEUH-Datensatzes ein ähnliches Maß an Uneinigkeit unter den Beratern wie der HiRID-Validierungsdatensatz. Wie wir später zeigen werden, kann ein überlegenes Modell häufig durch die Berücksichtigung unterschiedlicher Urteile in einem selektiven Mehrheitsentscheidungsansatz erreicht werden.

Darüber hinaus haben wir untersucht, ob ein Konsens über die Anmerkungen aller Experten erzielt werden kann (eine gängige Praxis). Abbildung 5a zeigt die unterschiedliche interne Validierungsleistung in den QEUH-Datensätzen, was auf einen Unterschied in der Lernfähigkeit zwischen den 11 kommentierten Datensätzen hinweist. Die Modelle mit höherer interner Validierungsleistung weisen auf eine einfachere Erlernbarkeit hin (z. B. C8), was möglicherweise konsistentere Annotationsregeln und einen einfacheren Entscheidungsprozess widerspiegelt. Modelle mit geringerer interner Leistung weisen auf eine schlechtere Lernfähigkeit und möglicherweise weniger konsistente/komplexere Klassifizierungsregeln hin (z. B. C7).

Um die Zuverlässigkeit der Konsensfindung zu bewerten, verglichen wir die externe Validierungsleistung eines Konsens-Mehrheitsabstimmungsmodells (MV), das aus den Mehrheitsabstimmungsbezeichnungen aller 11 kommentierten Datensätze erstellt wurde, mit einem Top-Mehrheitsabstimmungsmodell (TMV), das daraus erstellt wurde die Mehrheitsabstimmungslabels in den leistungsstärksten Beratermodellen (wobei die interne Validierung F1 Mikro > 0,7 ist). Abbildung 7 zeigt, dass TMV (F1 Mikro = 0,438) deutlich besser abschneidet als MV (F1 Mikro = 0,254). Tatsächlich übertrifft TMV fast alle Beratermodelle. Dies weist darauf hin, dass es wichtig ist, die Erlernbarkeit der Urteile jedes Fachexperten zu bewerten, bevor ein Konsens erzielt wird, da schlecht erlernbare (Experten-)Urteile häufig zu schlechten Leistungen führen.

Mehrheitsabstimmung (MV) bezieht sich auf ein Konsensmodell mit vollständiger Mehrheitsabstimmung. Top Majority Vote (TMV) wurde aus den Mehrheitsabstimmungslabels der leistungsstärksten Beratermodelle erstellt.

Nach weiteren Gesprächen mit Fachleuten auf der Intensivstation haben wir festgestellt, dass die klinische Entscheidungsfindung von Intensivberatern üblicherweise den Trend der physiologischen und pharmakologischen Parameter des Patienten im Zeitraum vor der Beurteilung (z. B. in den letzten 5–10 Stunden) berücksichtigt. Wir haben daher eine Zeitreihenkomponente in dieses zweite externe Validierungsexperiment integriert und untersucht, wie sich dies auf die Leistung der QEUH-Klassifikatoren auswirkt. Wir glauben, dass es sich bei diesem Experiment um eine klinisch relevantere Bewertung der Expertenmodelle handelt, da es die realistischere Aufgabe bietet, den Entlassungsstatus anhand der Messwerte der Patientenparameter über einen bestimmten Zeitraum zu klassifizieren (und nicht anhand einer einzelnen Momentaufnahme).

Im Rahmen dieses zweiten externen Validierungsexperiments verglichen wir die Leistung von DT-Klassifikatoren, die auf den mit QEUH annotierten Datensätzen trainiert wurden, sowohl auf statischen als auch auf zeitlichen HiRID-Datensätzen. Der statische HiRID-Validierungsdatensatz enthält 1064 Datensätze (von 1064 einzelnen Patienten), wobei es sich bei allen Dateninstanzen um Messwerte innerhalb einer Stunde vor der lebenden Entlassung des Patienten (d. h. ICU-PSS-Kennzeichnung „A“) oder innerhalb einer Stunde vor dem Tod des Patienten handelt ( d. h. ICU-PSS-Kennzeichnung „E“). Die zeitlichen HiRID-Validierungsdatensätze enthalten 5320 Datensätze (von denselben 1064 einzelnen Patienten), bestehend aus fünf Datensätzen pro Patient – ein Messwert für jede der 5 Stunden vor der Entlassung/dem Tod.

Um die Leistung der trainierten DT-Klassifikatoren anhand der zeitlichen Validierungsdatensätze zu bewerten, wurde für jeden Patientenzeitpunkt die gewichtete Summe der fünf (stündlichen) ICU-PSS-Vorhersagen berechnet und ein Mittelwert ermittelt (was zu 1.064 Schweregradklassifizierungen innerhalb der zeitlichen Validierung führte). Datensätze). Diese vorhergesagten AE-Bezeichnungen wurden als Ordinalskala von 1–5 behandelt, daher lagen die gewichteten Summenwerte alle im Bereich 1–5. Auch hier wurden die trainierten Modelle so behandelt, als würden sie drei Klassen vorhersagen: CL1 = A, CL2 = B/C/D und CL3 = E. Wir haben zwei Methoden zur Zuordnung der gewichteten Summenwerte (1–5) zu diesen drei Klassen untersucht, mit unterschiedliche Grenzwerte, wie unten gezeigt. Weitere Details finden Sie im Abschnitt „Methoden“.

„Extrem“: CL1 = 1, CL2 = > 1–4, CL3 = > 4.

„Neutral“: CL1 = ≤ 3, CL2 = > 3-<4, CL3 = ≥ 4.

Im Rahmen dieses Experiments wurde zusätzlich zu den MV- und TMV-Konsensmodellen ein zusätzliches „Fuzzy Consensus“ (FC)-Modell erstellt. Dieses FC-Modell wurde erstellt, indem die Ausgaben der einzelnen Modelle kombiniert wurden, indem ihre Ausgaben als Konfidenzwerte für die binäre Klassifizierungsaufgabe für die zeitlichen externen Validierungsdatensätze (lebend entlassen vs. gestorben) betrachtet wurden. Wir haben die vorhergesagten AE-Bezeichnungen als Vorhersagen auf einer Ordinalskala von 1–5 behandelt (d. h. A = 1, B = 2, C = 3, D = 4, E = 5). In dieser Skala steht A für die lebende Entlassung innerhalb der nächsten Stunde und E für den Tod innerhalb der folgenden Stunde. Im Rahmen dieser Konsensmethode werden alle Vorhersagen erfasst und als „unscharfe“ Bezeichnungen41 bei der Berechnung der Gesamtvorhersage zum Entlassungsstatus für jeden Patienten interpretiert. Für jede stündliche Vorhersage pro Patient wurden die Modellergebnisse (1–5) gemittelt, jedoch unter Ausschluss etwaiger „3“ (d. h. „C“) vorhergesagter Bezeichnungen in dieser Berechnung. „3“ ist ausgeschlossen, da dieser Konfidenzwert direkt in der Mitte der Skala von 1–5 liegt und daher als „unsicher“ interpretiert wird. Im Anschluss an diese Durchschnittsberechnung wurde für jeden Patientenzeitpunkt die gewichtete Summe der fünf (stündlichen) ICU-PSS-Vorhersagen berechnet, wobei sowohl die oben beschriebenen Grenzwerte „Extrem“ als auch „Neutral“ verwendet wurden. Die Ergebnisse sind in Abb. 8a dargestellt. Weitere Details zur FC-Modellberechnung finden Sie im Abschnitt Methoden. Außerdem wurde ein „Top Fuzzy Consensus“ (TFC)-Modell aus den Mehrheitsabstimmungsetiketten der leistungsstärksten Beratermodelle erstellt (wobei die interne Validierung F1 Mikro > 0,7 ist).

ein Vergleich der externen Validierungsleistung bei statischen und zeitlichen HiRID-Validierungsdatensätzen. b Korrekt klassifizierte Etiketten „lebend entlassen“ und „tot entlassen“, die auf statischen und zeitlichen externen HiRID-Validierungsdatensätzen erstellt wurden. c Odds-Ratio-Verteilungen des auf HiRID-Vorhersageetiketten trainierten logistischen Regressionsmodells 1–5 Stunden vor Entlassung/Tod.

Abbildung 8a zeigt, dass alle Annotatormodelle beim zeitlichen (neutralen) Validierungsdatensatz eine bessere Leistung erbringen als bei den zeitlichen (extremen) und statischen Datensätzen. Die Modelle weisen im Vergleich zur extremeren Zuordnungsmethode eine höhere Leistung bei dem Datensatz auf, der mit einer neutraleren Klassifizierungszuordnung generiert wurde, da die extreme Zuordnungsmethode eine viel größere Anzahl von Patientendatenpunkten aus den Klassen CL1 und CL3 ausschließt (zur Erinnerung, nur die Klassen CL1 und CL3 sind betroffen). in den HiRID-Validierungsdatensätzen vorhanden). Eine zusätzliche Zuordnung wurde unter Verwendung der folgenden Grenzwerte untersucht: CL1 = ≤ 2, CL2 = > 2-< 4, CL3 = ≥ 4, diese Ergebnisse finden Sie in der ergänzenden Abbildung 1.

Wie in Abb. 8a dargestellt, stellen wir fest, dass die gut funktionierenden Modelle in der internen Validierung (C4-RF und C8-RF) nicht so gut funktionieren, wenn sie auf den externen zeitlichen externen Datensätzen ausgeführt werden. Die Pearson-Korrelation zwischen den internen Validierungsergebnissen und den zeitlichen (extremen) externen Validierungsergebnissen beträgt 0,64, was bedeutet, dass sie nicht stark miteinander verbunden sind. Ebenso beträgt die Pearson-Korrelation zwischen dem internen Validierungsergebnis und den zeitlichen (neutralen) externen Validierungsergebnissen –0,51. Dies liefert einige weitere Beweise dafür, dass die Superexperten-Annahme in akuten klinischen Situationen möglicherweise nicht immer zutrifft.

Abbildung 8a zeigt, dass das Top Majority-Vote-Modell (TMV) beim statischen Validierungsdatensatz eine deutlich bessere Leistung erbringt als das Konsens-Majority-Vote-Modell (MV), wie im vorherigen Experiment beobachtet. TMV schneidet auch im zeitlichen (extremen) Datensatz deutlich besser ab als MV und im zeitlichen (neutralen) Datensatz etwas besser als MV. Dies legt außerdem nahe, wie wichtig es ist, die Erlernbarkeit der Urteile von Fachexperten zu bewerten und die schlecht erlernbaren Expertenanmerkungen auszuschließen, bevor ein Konsens als Grundwahrheit erzielt wird. Das Top Fuzzy Consensus (TFC)-Modell schneidet ebenfalls gut ab – ein Hinweis darauf, dass der Konsens durch die Auswahl von Modellen auf der Grundlage der Lernfähigkeit der einzelnen Modelle kontinuierlich verbessert wird.

Abbildung 8b zeigt die Anzahl der korrekt klassifizierten „Discharged Alive“- und „Discharged Dead“-Labels für alle 11 Klassifikatoren, die auf den statischen und zeitlichen HiRID-Validierungsdatensätzen ausgeführt wurden.

Wenn wir uns nur auf die Fälle konzentrieren, in denen der Patient lebend entlassen wurde, stellen wir fest, dass die durchschnittliche paarweise IAA, d Vereinbarung). Bei der Ausführung mit dem zeitlichen (neutralen) Datensatz beträgt die durchschnittliche paarweise IAA 0,284 (minimale Übereinstimmung) und Fleiss' κ beträgt 0,294 (gute Übereinstimmung).

Wenn wir uns nun auf die Fälle konzentrieren, in denen der Patient auf der Intensivstation verstarb, stellen wir fest, dass die durchschnittliche paarweise IAA im zeitlichen (extremen) Datensatz 0,327 (minimale Übereinstimmung) beträgt, wobei Fleiss' κ für diese vorhergesagten Bezeichnungen 0,326 (ausreichende Übereinstimmung) beträgt. Bei der Ausführung mit dem zeitlichen (neutralen) Datensatz beträgt der durchschnittliche paarweise IAA 0,587 (schwache Übereinstimmung) und Fleiss' κ beträgt 0,579 (mäßige Übereinstimmung). Dies deutet weiter darauf hin, dass sich Experten im klinischen Bereich bei der Vorhersage der Mortalität möglicherweise eher einig sind als bei Entlassungsentscheidungen.

Wir führten zusätzliche Analysen durch, um zu untersuchen, wie Modelle für überwachtes Lernen bei der Klassifizierung des Entlassungsstatus von Patienten funktionieren, nachdem sie mit den vorhergesagten Etiketten (AE) trainiert wurden, die (von den DT-Klassifikatoren) im zeitlichen HiRID-Datensatz generiert wurden. Dies beinhaltete das Training von Entscheidungsbaum- und logistischen Regressionsmodellen (LR) anhand der vom DT-Klassifikator vorhergesagten Etiketten (AE) jedes Beraters über die fünf Stunden vor der Entlassung/dem Tod für jeden Patienten (d. h. 5 Prädiktormerkmale), siehe ergänzende Abbildung 2.

Die Odds-Ratio-Verteilungen geben den Unterschied in der Gewichtung (dh der Wichtigkeit) der fünf Stundenvariablen bei der Klassifizierung des Entlassungsstatus des Patienten (lebend entlassen oder gestorben) an. Die Vorhersagen 5 Stunden vor Entlassung/Tod waren bei der Klassifizierung des Entlassungsstatus des LR-Modells in den meisten Beratermodellen sowie für MV und TMV am wichtigsten. Bei den meisten Modellen waren die Vorhersagen eine Stunde vor der Entlassung/dem Tod am wenigsten wichtig für die endgültige Klassifizierung des Entlassungsstatus. Dies ist bemerkenswert, da dies einer intuitiven Hypothese widerspricht, dass Entlassungsvorhersagen, die näher am Zeitpunkt der Entlassung/des Todes liegen, auf den endgültigen Entlassungsstatus schließen lassen Entlassungsstatus.

Diese Studie konzentrierte sich auf die Bewertung der Meinungsverschiedenheiten zwischen klinischen Annotatoren und die Bewertung der Auswirkungen dieser Meinungsverschiedenheiten auf die Leistung der resultierenden ML-Modelle auf Intensivstationen. Insbesondere haben wir aktuelle „Best Practices“ zur Konsensfindung bewertet und unsere Ergebnisse deuten darauf hin, dass diese in akuten klinischen Situationen möglicherweise nicht gut funktionieren. Unsere Analyse zeigt einen neuartigen, zuverlässigeren Ansatz auf: die Bewertung der Lernfähigkeit vor der Suche nach einem Konsens.

Die in Abb. 3b gezeigten unterschiedlichen Label-Klassifizierungen und die geringe paarweise Übereinstimmung in Abb. 3c (durchschnittliches Cohen-κ = 0,255, d. h. minimale Übereinstimmung) reichen aus, um die zentrale Hypothese abzulehnen – mit der Schlussfolgerung, dass die Klassifikatoren aus Datensätzen abgeleitet wurden, die durch die 11 individuell gekennzeichnet wurden Klinische Experten erstellen keine konsistenten Klassifizierungen, wenn sie auf einen relevanten externen Datensatz angewendet werden. Weitere Analysen zu zwei Entscheidungsszenarien auf der Intensivstation zeigten, dass die Inkonsistenz in verschiedenen Situationen variiert: Diese Experten aus dem klinischen Bereich scheinen bei kritischeren Situationen wie der Vorhersage der Mortalität eine höhere Übereinstimmung zu haben.

Ein tiefer Einblick in die Bewertung der aktuellen Praktiken zur Erlangung der Grundwahrheit bringt zwei umsetzbare Vorschläge hervor: (a) Superexperten (die zuverlässiger sind als alle anderen) gibt es möglicherweise nicht in akuten klinischen Situationen, und unterschiedliche Antworten könnten zuverlässiger sein, um optimale Ergebnisse zu erzielen Modelle; (b) Lernfähigkeit (quantifiziert als interne Validierungsleistung) ist eine Schlüsselmetrik, die anhand der Urteile von Fachexperten bewertet werden muss, und die Vermeidung schlecht erlernbarer Urteile könnte zu besseren Grundwahrheiten und damit zu besseren externen Validierungsleistungen führen.

Weiter zu Punkt b) lässt sich ein Ansatz zur Erkennung und zum Ausschluss von Experten, die ihre Annotationsregeln inkonsistent anwenden, wie folgt zusammenfassen: Alle Experten sollen denselben Satz von (Trainings-)Instanzen annotieren; Aus diesen annotierten Datensätzen würde für jeden Experten ein Klassifikator abgeleitet. Die „Lernbarkeit“ jedes Klassifikators wird durch eine geeignete Methode ermittelt, z. B. die k-fache Kreuzvalidierung, bei der die trainierten Modelle mit ihren ursprünglichen Annotationen ausgeführt werden – dies ist eine Überprüfung der Konsistenz der Annotationsregeln jedes Experten. Schließen Sie dann alle Modelle aus, deren Leistung nicht über einem vordefinierten Schwellenwert liegt (z. B. Modelle, die aus annotierten Datensätzen mit geringer Lernfähigkeit erstellt wurden). Die in den Abb. gezeigten Ergebnisse. 7 und 8a zeigen, dass diese Methode angewendet werden kann, um Meinungsverschiedenheiten zwischen klinischen Kommentatoren zu nutzen, um leistungsstärkere Konsensmodelle (z. B. TMV und TFC) zu generieren.

Nachdem wir schlecht lernbare Modelle ausgeschlossen haben, stellen wir fest, dass es erhebliche Unterschiede in den Klassifizierungen geben kann, die von den verschiedenen Expertenmodellen (z. B. C2-RF und C8-RF) vorgenommen werden, wie im Abschnitt „Ergebnisse“ beschrieben. Dies stimmt mit der Beobachtung von Welinder et al.42 überein, dass einige Annotatoren tendenziell extremer in ihrer Kennzeichnung sind, während andere eher gemäßigt sind. Da die Klassifikatoren C2-RF und C8-RF aus lernbaren annotierten Datensätzen abgeleitet wurden (was durch eine gute interne Validierungsleistung angezeigt wird), deutet dies darauf hin, dass die Unterschiede in den resultierenden vorhergesagten Etikettenverteilungen möglicherweise auf Unterschiede in den Urteilen der Berater zurückzuführen sind. Daher handelt es sich möglicherweise um gültige und klinisch nützliche Unterschiede, die wir möglicherweise nicht ignorieren möchten. Aktuelle ML-Ansätze zur Bekämpfung von Label-Rauschen in Trainingsdatensätzen umfassen die Datenbereinigung (d. h. das Entfernen der verrauschten Labels) oder die Verwendung von rauschrobusten/rauschtoleranten Algorithmen. Die Anwendung dieser Methoden kann dazu führen, dass die nützlichen granularen Unterschiede zwischen den Beurteilungen des Annotators verloren gehen. Darüber hinaus kann die Anwendung des Mehrheitsabstimmungs- oder Top-Mehrheitsabstimmungsansatzes (beschrieben im Abschnitt „Ergebnisse“) dazu führen, dass subtile Unterschiede zwischen den Urteilen des Annotators verloren gehen. Dieses Problem soll im Abschnitt „Weitere Arbeiten“ behandelt werden.

Die meisten in dieser Studie erstellten Klassifikatoren weisen eine schlechte interne und externe Validierungsleistung auf, was auf eine schlechte Entscheidungsfindung in der Praxis zurückzuführen ist. Diese schlechte Leistung kann jedoch verschiedene Gründe haben: kleiner/unausgeglichener Trainingsdatensatz, ausgewählte Merkmale sind nicht besonders aussagekräftig, die Notwendigkeit, Patienten zu mehreren Zeitpunkten zu beurteilen, Unterschiede zwischen den Einstellungen auf der Intensivstation usw. Eine ähnliche Studie mit einem größeren Satz von Anmerkungen mit ausgewogeneren Klassen (und möglicherweise mehr/unterschiedlichen Merkmalen) sind erforderlich, um die Eigenschaften dieses realen, nicht zufälligen Rauschens weiter zu untersuchen und zuverlässigere Ergebnisse für die Auswirkungen auf die Modellleistung sowie die Wirksamkeit unserer zu erhalten vorgeschlagene Methode zur Konsenssuche (d. h. Bewertung der Lernfähigkeit vor der Konsenssuche). Dies sollte eine sehr große Kohorte klinischer Annotatoren aus einer beträchtlichen Anzahl britischer Intensivstationen umfassen, um vielfältige Beurteilungen bereitzustellen, sowie mehrere externe Validierungsdatensätze aus verschiedenen Ländern, um zu bewerten, wie Modelle in verschiedenen Umgebungen funktionieren.

Unter Verwendung dieser größeren annotierten Datensätze sollten weitere Analysen zu den Gründen für die Inkonsistenzen zwischen Annotatoren durchgeführt werden, z. B. Verzerrung, Beurteilungen, Rauschen, eingeschränkte Merkmalsauswahl – sowie Möglichkeiten, diese zu beheben. Dabei sollte die Art und Weise analysiert werden, in der die Berater unterschiedlicher Meinung sind, einschließlich der Merkmale einfacher Fälle (hohe Übereinstimmung unter den Kommentatoren) und schwerer Fälle (hohe Meinungsverschiedenheiten unter den Kommentatoren). Darüber hinaus sollten Studien in Betracht gezogen werden, die darauf abzielen, das Ausmaß der Meinungsverschiedenheiten zwischen (klinischen) Experten durch eine Verbesserung der Beschreibung/Präsentation der Kennzeichnungsaufgabe(n) zu verringern5.

Im Anschluss an die besprochenen Ergebnisse sind weitere Forschungsarbeiten zur Erkennung und Untersuchung der Experten-Intra-Annotator-Konsistenz geplant. Die Intra-Annotator-Konsistenz kann leicht erkannt werden, indem wiederholte Elemente in zu annotierende Datensätze einbezogen werden. Anschließend können inkonsistente Experten aus weiteren Analysen entfernt werden. Darüber hinaus werden wir weiter untersuchen, ob das Entfernen der „schlecht lernbaren“ annotierten Datensätze vor dem Training die Übereinstimmung zwischen Annotatoren erhöht und zu besseren externen Validierungsergebnissen sowie einer konsistenteren Entscheidungsfindung führt. Sollte sich herausstellen, dass dies wahr ist, würde dies bestätigen, dass die Bewertung der Lernfähigkeit einzelner Expertenurteile ein wichtiger Schritt beim Training von ML-Modellen ist, was bedeutet, dass die derzeitigen Praktiken, einen Konsens direkt aus allen verfügbaren Expertenurteilen zu suchen, um einen „Goldstandard“ zu erhalten, überarbeitet werden müssen Schlecht erlernbare Urteile können Probleme bei der Erreichung eines echten Goldstandards verursachen.

Darüber hinaus neigen Menschen in der Praxis dazu, sehr erfahrenen („Super-“) Experten mehr zu vertrauen, weshalb deren Urteile eine wichtigere Rolle bei der Erlangung eines „Goldstandards“ spielen. Weitere Untersuchungen sind erforderlich, um zu bestätigen, ob Ensemble-Modelle eine bessere Leistung erbringen als einzelne erfahrene Domänenexperten.

Darüber hinaus könnte in einer weiteren Studie die Anmerkungsaufgabe geändert werden, indem jeder Berater aufgefordert wird, jeder seiner Anmerkungen einen Konfidenzfaktor zwischen 0 und 1 zuzuweisen. Darüber hinaus kann das Qualifikationsniveau (basierend auf jahrelanger Erfahrung oder Spezialisierung) jedes Annotators erfasst werden. Diese könnten dann als Gewichtungsfaktoren während des Modelltrainings verwendet werden, wodurch die Auswirkungen von Labels mit geringer Konfidenz verringert und der Beitrag höher qualifizierter Experten zur Berechnung des Konsenses erhöht werden. Darüber hinaus erleichtern diese Konfidenzwerte die Analyse einfacher/schwieriger Fälle. Nettleton et al.41,43 haben umfangreiche Experimente durchgeführt, bei denen Gewichtungs- und Konfidenzfaktoren bei der Erfassung von Antworten zum Einsatz kamen.

Wenn davon ausgegangen wird, dass das ML-Entscheidungsunterstützungssystem ein sicherheitskritisches System ist, ist es wichtig, einige weitere Analysen einzubeziehen, um festzustellen, welche(r) eindeutige(n) Expertenklassifikator(e) verwendet werden soll(en). Führen Sie beispielsweise jeden der Klassifikatoren mit einem Satz von Aufgaben-Lösungs-Paaren durch, die von einem Expertengremium vorab festgelegt wurden, und eliminieren Sie die Klassifikatoren/Experten, die weniger als einen vordefinierten Prozentsatz korrekt lösen. Die Wirksamkeit solcher Filter hängt entscheidend von den vom Gremium gewählten Instanzen ab. Dies ist jedoch ein geeigneter Ansatz für Arbeiten in (sicherheitskritischen) Bereichen, in denen die Unterschiede zwischen zwei (oder mehr) Klassen gering sind, die Folgen einer Fehlklassifizierung jedoch hoch sind. Dieser Ansatz wurde ausgiebig im Jeopardy System44 von IBM und früher im KRUST-System45 verwendet. (Dieser Schritt sollte ebenso ausgeführt werden wie die zuvor besprochenen statistischen/numerischen Schritte.)

Abbildung 8c liefert einen sehr interessanten Einblick, nämlich dass die vorhergesagten Schweregrade (AE) 5 Stunden vor Entlassung/Tod in der Klassifizierung des Entlassungsstatus des LR-Modells in den meisten Expertenmodellen am wichtigsten waren, wohingegen die Vorhersagen 1 Stunde vor Entlassung/Tod am geringsten waren wichtig – ein etwas kontraintuitiver Befund. Hier ist weitere Forschung in Zusammenarbeit mit Intensivmedizinern erforderlich, um zu untersuchen, wie die Trends der physiologischen Messwerte über einen Zeitraum vor der Entlassung/dem Tod als Grundlage für Prognosen zum Entlassungsstatus genutzt werden können.

Diese Studie konzentriert sich auf die Simulation eines realen Entscheidungsszenarios auf der Intensivstation, in dem Meinungsverschiedenheiten ziemlich häufig und unvermeidbar sind, und auf die Untersuchung der Auswirkungen dieser Meinungsverschiedenheiten unter Klinikern auf resultierende Modelle für maschinelles Lernen. Um dieses Ziel zu erreichen, wurden alle Aspekte des experimentellen Ansatzes (in Abb. 2 dargestellt) sorgfältig geprüft. Die Hauptfaktoren werden im Folgenden besprochen.

Der Trainingsdatensatz des Queen Elizabeth University Hospital besteht aus 60 Instanzen von Intensivpatientendaten über 6 beschreibende Variablen. Da Meinungsverschiedenheiten unter Klinikern häufig auftreten (die Gründe sind multifaktoriell und im Abschnitt „Einführung“ zusammengefasst), haben wir eine einfache Klassifizierungsaufgabe ausgewählt, die aus einem begrenzten Satz von Merkmalen und Dateninstanzen besteht, um die Inkonsistenz zwischen Annotatoren und Annotatoren zu minimieren. Die als Grundlage dieser Forschung ausgewählte Annotationsaufgabe war daher klinisch relevant, aber stärker auf die Forschung ausgerichtet – so konnte der Entscheidungsprozess der Kliniker korrekt erfasst werden.

Die ICU-PSS-Skala (entwickelt im Zeitraum 2000–2005)46 ermöglicht es Ärzten, den Zustand eines Patienten zu bestimmten Zeitpunkten auf der Grundlage einer begrenzten Anzahl von sechs Deskriptoren zu beurteilen. Es gibt viele Situationen in der Medizin, in denen Entscheidungen/Urteile auf der Grundlage unvollständiger Informationen getroffen werden müssen – dieses Szenario wird in diesem Artikel behandelt. Die ICU-PSS-Skala verfügt über fünf Annotationskategorien, die zwar kategorisch sind, aber als Konfidenzwerte jedes Annotators über den Schweregradstatus des Patienten angesehen werden können (wobei A = stabiler, wahrscheinlich bald entlassen und E = sehr instabiler Patient, der erhebliche pharmakologische Unterstützung benötigt). . Diese AE-Konfidenzskala kann daher auf eine binäre externe Validierungsaufgabe angewendet werden, wie im Unterabschnitt „Bewertung externer Validierungsmethoden für Zeitreihen“ erläutert. Darüber hinaus ist diese ICU-PSS-Skala im Vergleich zu alternativen klinischen Bewertungstools (z. B. SOFA47) einfacher und leichter zu verstehen, was zu einer einfacheren Klassifizierungsaufgabe führt, die es ermöglicht, die Entscheidungs-/Annotationsregeln jedes Klinikers besser zu erfassen und zu vergleichen.

Die sechs klinischen Variablen wurden ausgewählt und die qualitative Fünf-Punkte-Beschreibung von Intensivpatienten (AE) wurde in Zusammenarbeit mit mehreren Intensivspezialisten in einer früheren Studie entwickelt. Die vier grundlegenden physiologischen Parameter (FiO2, SpO2, mittlerer arterieller Druck, Herzfrequenz) werden von Ärzten als Indikatoren für jede nennenswerte Verbesserung oder Verschlechterung des Patientenzustands verwendet. Die Arzneimittelfelder (Adrenalin und Noradrenalin) geben den Umfang der pharmakologischen Unterstützung an, die der Patient benötigt. Eine detaillierte Beschreibung dieser ICU-PSS-Kategorien finden Sie in der Ergänzungstabelle 1.

Es gibt mehrere rauschtolerante ML-Klassifizierungsalgorithmen10,12, die die Probleme des Label-Rauschens beim Lernen angehen können. In dieser Studie waren Entscheidungsbaum-Klassifikatoren (DT) und Random-Forest-Klassifikatoren (RF) die geeignetere Wahl, teilweise weil beide in klinischen Umgebungen weit verbreitet sind. Noch wichtiger ist, dass DT ausgewählt wurde, da die resultierenden Baumdiagramme verwendet werden können, um den Entscheidungsprozess der erlernten Modelle abzuleiten und die unterschiedlichen Annotationsregeln und Komplexitäten zwischen Annotatormodellen zu vergleichen. RF wurde verwendet, um zu vergleichen, ob leistungsfähigere Modelle diese Inkonsistenzen weniger signifikant machen würden (was, wie wir gezeigt haben, nicht der Fall ist).

Um die Modellleistungen der Berater zu vergleichen, wurde eine externe Modellvalidierung mithilfe von HiRID-Validierungsdatensätzen durchgeführt. Die QEUH-Klassifikatoren wurden entwickelt, um Urteile auf einer 5-Punkte-AE-ICU-PSS-Skala vorherzusagen. Allerdings konzentrierten sich die HiRID-Validierungsdatensätze auf eine binäre Klassifizierungsaufgabe zur Vorhersage von Entlassung/Tod in der nächsten Stunde (d. h. A- oder E-Werte auf der ICU-PSS-Skala). Die HiRID-Datenbank enthält weder ICU-PSS-Ground-Truth-Werte noch ähnliche Schweregradbewertungen für mehrere Klassen. Daher wurde der Ground-Truth-Entlassungsstatus als Validierungsklassifizierungsaufgabe ausgewählt, da die ICU-PSS-AE mit einem Konfidenzwert für den Entlassungsstatus des Patienten vergleichbar ist (wobei A = innerhalb einer Stunde lebend entlassen und E = innerhalb einer Stunde gestorben). Da der Schwerpunkt dieser Studie auf der Untersuchung der Auswirkungen von Unstimmigkeiten zwischen klinischen Annotatoren auf die Modellleistung und nicht auf der Verbesserung der Etikettenqualität/Modellleistung liegt, hat der Unterschied zwischen der anfänglichen Annotationsaufgabe und der Modellvalidierungsaufgabe nur minimale Auswirkungen auf die Experimentergebnisse.

Die Trainingsdaten des Glasgow Queen Elizabeth University Hospital werden anonymisiert. Die 60 Fälle wurden nach dem Zufallsprinzip aus einem Pool von 80.291 stündlichen Patientenakten ausgewählt, die aus dem QEUH-Patientenmanagementsystem stammen (mit Daten von Trauma- und Nicht-Trauma-Patienten).

Beachten Sie, dass in der vorherigen Studie von Sleeman et al.5 keine fundierten Daten zum Schweregrad oder Entlassungsstatus der Patienten in diesem QEUH-Datensatz erfasst wurden. Aufgrund der Anonymisierung der Patienten konnten diese Daten später nicht mehr abgerufen werden.

Wir haben Klassenausgleichsmethoden untersucht, um die Klassenbezeichnungen innerhalb der annotierten Datensätze während des Trainings auszugleichen, indem wir den RandomForestClassifier-Parameter class_weight =balanced hinzugefügt haben. Dies führte zu keinem signifikanten Leistungsunterschied im Vergleich zur Verwendung der ursprünglichen annotierten Datensätze. Die internen und externen Validierungsergebnisse mit dieser ausgewogenen Klassengewichtungsbedingung sind in der Ergänzungstabelle 2 aufgeführt.

Interne Validierungsmetriken wurden durch fünffache Kreuzvalidierung unter Verwendung des gesamten Trainingsdatensatzes ermittelt. Jedes trainierte Modell wurde mit den ursprünglichen Annotationen verglichen, aus denen es gelernt hatte – diese internen Validierungsergebnisse geben somit Aufschluss über die „Lernbarkeit“ der ursprünglich annotierten Datensätze, d wie einfach die Entscheidungsfindung des Annotators reproduziert werden kann. Abbildung 5a zeigt die Leistung des optimalen RF-Modells für jeden der 11 Berater-Annotatoren. Diese Modelle wurden auf F1 micro optimiert.

Die in Abb. 4 gezeigten Merkmalswichtigkeitsverteilungen wurden mit scikit learn feature_importances_property ermittelt. Dies wird als die normalisierte Gesamtreduktion der Knotenverunreinigung (Gini oder Entropie) berechnet, die durch das Feature verursacht wird. Bei den Modellen mit guter interner Validierungsleistung (F1 micro > 0,7) spiegeln die unterschiedlichen Merkmalswichtigkeitsverteilungen die unterschiedlichen Begründungen und Entscheidungsprozesse zwischen Annotatoren wider. Für bestimmte Annotatoren (C4) können wir daraus schließen, dass Noradrenalin das wichtigste Merkmal ist, wenn wir uns für die Annotation einer „A“-Klassifizierung entscheiden. Für einige (C2) ist FiO2 bei dieser Klassifizierung am wichtigsten. Bei anderen (C10) ist die Begründung bei Noradrenalin und FiO2 ausgewogener.

Eine umfassende externe Validierung unter Verwendung von Daten ähnlicher Teilnehmer, jedoch aus einem anderen Krankenhaus oder Land, gilt als Goldstandard für zuverlässige Schätzungen der Modellleistung und Generalisierbarkeit/Transportierbarkeit48,49,50,51,52,53,54,55,56. Es wurden zwei externe Datensätze auf der Intensivstation untersucht, nämlich:

HiRID (v1.1.1): ein frei zugänglicher Datensatz zur Intensivpflege, der nicht identifizierte Daten für 33.000 Intensivaufnahmen im Berner Universitätsspital, Schweiz, zwischen 2008 und 201657,58 enthält.

MIMIC-III (v1.4): eine frei verfügbare Datenbank mit anonymisierten Daten von 40.000 Intensivpatienten des Beth Israel Deaconess Medical Centre, Boston, USA, zwischen 2001 und 201258,59.

Beide Datenbanken enthalten im Vergleich zu den Glasgow QEUH-Trainingsdaten Intensivpatientendaten aus einem anderen Krankenhaus und Land und erfüllen somit die Kriterien für eine breite externe Validierung. Da die von den QEUH-Klinikern aus den annotierten Datensätzen extrahierten Klassifikatoren bestimmte Deskriptoren enthalten, musste unbedingt sichergestellt werden, dass diese in den externen Datensätzen vorhanden sind. Im Einzelnen wurden die folgenden Prüfungen an den HiRID- und MIMIC-III-Datensätzen durchgeführt:

Die Datensätze enthielten die gleichen 6 Deskriptoren und die mit jeder dieser Variablen verbundenen Einheiten waren entweder identisch oder zumindest bekannt, sodass bei Bedarf eine numerische Skalierung angewendet werden konnte.

Es war ein erheblicher Aufwand erforderlich, um alle in diesen beiden Datensätzen verwendeten Synonyme für die 6 Deskriptoren zu finden, die in den (annotierten) QEUH-Datensätzen verwendet werden. Da sich die für die beiden in QEUH verwendeten Arzneimittelvariablen gemeldeten Werte außerdem auf eine kontinuierliche Verabreichung und nicht auf gelegentliche Bolusgaben beziehen, war es wichtig festzustellen, dass die Arzneimittelverabreichungsarten gleichwertig sind.

Die QEUH-Datensätze melden Informationen auf stündlicher Basis, während die Datenmeldungen in den externen Datensätzen sowohl häufiger als auch in unregelmäßigen Abständen erfolgen. Daher wurden erhebliche Anstrengungen unternommen, um sowohl die HiRID- als auch die MIMIC-III-Datensätze in „stündliche“ Datensätze umzuwandeln Diese Datensätze wären mit den für die QEUH-Berater abgeleiteten Klassifikatoren kompatibel. Einzelheiten zum Zugriff auf die vollständigen HiRID-Vorverarbeitungsschritte finden Sie im Abschnitt „Codeverfügbarkeit“.

Die Inter-Annotator-Übereinstimmung (IAA), auch Inter-Rater-Reliabilität genannt, ist ein Maß dafür, inwieweit die Annotatoren derselben Instanz dieselbe Kategorie zuordnen. IAA stellt die Konsistenz von Anmerkungen sowie die Reproduzierbarkeit der Beschriftungsaufgabe dar. Eine hohe Konsistenz wird bevorzugt, da dadurch Fehler aufgrund der Subjektivität minimiert und die Zuverlässigkeit der Trainingsdaten erhöht wird.

There are multiple statistics used to measure IAA, including Cohen’s κ, Fleiss’ κ and Krippendorff’s α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d201818550e1597">62.

Cohens κ misst die Zuverlässigkeit zwischen zwei Annotatoren unter Berücksichtigung der Möglichkeit, dass die Übereinstimmung zufällig zustande kommt. Cohens Skala kann wie folgt zusammengefasst werden: 0,0–0,20 (Keine); 0,21–0,39 (Minimal); 0,40–0,59 (schwach); 0,60–0,79 (mäßig); 0,80–0,90 (stark); > 0,90 (fast perfekt)32.

Fleiss' κ ist eine Erweiterung von Cohens κ, die die Konsistenz von Annotatorvereinbarungen im Gegensatz zu absoluten Vereinbarungen berücksichtigt. Es bewertet die Zuverlässigkeit der Übereinstimmung über mehrere Annotatoren hinweg. Die Fleiss-Skala kann wie folgt zusammengefasst werden: < 0 (schlecht); 0,0–0,20 (leicht); 0,21–0,40 (Mittelmäßig); 0,41–0,60 (mäßig); 0,61–0,80 (wesentlich); 0,81–1,0 (fast perfekt)34.

Krippendorffs α63 berücksichtigt die Konsistenz von Annotatorvereinbarungen im Gegensatz zu absoluten Vereinbarungen. Es bewertet die Zuverlässigkeit der Übereinstimmung über mehrere Annotatoren hinweg.

Systematische Überprüfungen von Modellvalidierungsstudien haben gezeigt, dass es an gut durchgeführten und klar berichteten externen Validierungsstudien mangelt55,56. Eine detaillierte Untersuchung der Kompatibilität zwischen Trainings- und Validierungsdatensätzen, einschließlich Patientenpopulationen, ist ungewöhnlich, aber dennoch notwendig, um die Zuverlässigkeit der externen Validierung zu verbessern.

Im Rahmen dieser Studie wurde die Verabreichung von Adrenalin/Noradrenalin untersucht, um die Kompatibilität der Patientenpopulation zwischen den Trainings- und Validierungsdatensätzen zu beurteilen. Adrenalin/Noradrenalin wird Patienten verabreicht, deren Herz-Kreislauf-System instabil ist und auf einen Patientenstatus mit hohem Schweregrad hinweist. Nur 5,9 % der MIMIC-III-Intensivaufnahmen erhielten Adrenalin/Noradrenalin, verglichen mit 31,5 % der HiRID-Intensivaufnahmen. Dies weist darauf hin, dass der Schweregrad der Intensivpatienten im Berner Universitätsspital in der Schweiz höher war als im Beth Israel Deaconess Medical Center in den USA. Darüber hinaus wurde 40 % der QEUH-Intensivschulungen Adrenalin/Noradrenalin verabreicht. Dies weist darauf hin, dass die Intensivpatientenpopulation in den Trainingsdaten einen höheren Schweregrad aufweist und daher eine gute Kompatibilität mit HiRID aufweist, wohingegen die Kompatibilität mit MIMIC-III schlecht ist. Daher haben wir uns entschieden, HiRID als Validierungsdatensatz in dieser Studie zu verwenden. (Da wir eine Studie durchführen, um vorherzusagen, ob Patienten lebend entlassen werden oder auf der Intensivstation sterben, ist es wichtig, eine signifikante Anzahl dieser beiden Ereignisse im Validierungsdatensatz zu haben.)

Dieses Experiment testet die Fähigkeit der Klassifikatoren, die Ergebnisse der Patientenentlassung (lebend oder tot) zu klassifizieren, unter der Annahme, dass der physiologische/pharmakologische Status des Patienten innerhalb der letzten Stunde vor der Entlassung/dem Tod ein guter Indikator für seinen Entlassungsstatus ist. Der „vollständige“ HiRID-Datensatz, der sich aus der oben besprochenen Vorverarbeitung ergab, umfasst 2.022.313 Instanzen, die aus 20.073 einzelnen Intensivaufnahmen stammen. Nur Zeitpunkte, die im Datensatz als lebend oder tot entlassene Entlassungen innerhalb der nächsten Stunde erfasst sind, kamen zur Auswahl. Als Validierungsdatensatz wurden 1300 „Lebend von der Intensivstation entlassen“ und 1300 „Auf der Intensivstation gestorben“-Fälle zufällig ausgewählt.

Nach Gesprächen mit Fachleuten auf der Intensivstation haben wir festgestellt, dass „lebend von der Intensivstation entlassen“ in der Regel darauf hinweist, dass der Patient von der Intensivstation auf eine Krankenhausstation außerhalb der Intensivstation entlassen wird (und nicht aus dem Krankenhaus entlassen wird). Daten zum Entlassungsort oder zur Rückübernahme auf die Intensivstation wurden in der HiRID-Datenbank nicht bereitgestellt. In unserer Studie hat der Entlassungsort keinen Einfluss auf unseren experimentellen Ansatz oder unsere Ergebnisse, da die Kohorte „Lebend von der Intensivstation innerhalb einer Stunde entlassen“ immer noch die stabilsten Patienten darstellt (d. h. ICU-PSS = A).

Tatsächlich berücksichtigen Intensivberater den Trend der physiologischen und pharmakologischen Parameter des Patienten über einen bestimmten Zeitraum hinweg, bevor sie ihre Beurteilung vornehmen. Um diese Aufgabe zur Klassifizierung des Schweregrads von Intensivpatienten in der Praxis genauer zu erfassen, führten wir ein zweites externes Validierungsexperiment mit HiRID-Zeitreihendaten durch und verglichen die Leistung der 11 DT-Klassifikatoren (trainiert anhand der mit QEUH annotierten Datensätze) mit statischen und zeitlichen HiRID-Validierungsdatensätzen . Alle Validierungsdatensätze enthalten die gleichen 6 Variablen wie im Trainingsdatensatz (Adrenalin, Noradrenalin, FiO2, SpO2, MAP, Herzfrequenz).

Um die Leistung der Klassifikatoren in den zeitlichen HiRID-Validierungsdatensätzen zu bewerten, wird die gewichtete Summe der fünf (stündlichen) ICU-PSS-Vorhersagen pro Patient verwendet. Die stündlichen Gewichte wurden wie folgt definiert, wobei die Messwerte näher an der Entlassung/dem Tod stärker gewichtet wurden: (a) 5 Stunden vor der Entlassung/dem Tod: 0,1, (b) 4 Stunden vor der Entlassung/dem Tod: 0,1, (c) 3 Stunden davor Entlassung/Tod 0,2, (d) 2 h vor Entlassung/Tod: 0,3, (e) 1 h vor Entlassung/Tod: 0,3. Beachten Sie, dass für dieses Experiment Zeiträume von mehr als 5 Stunden untersucht wurden, diese jedoch zu kleineren Validierungsdatensätzen führten – ein Zeitraum von 5 Stunden bot ein optimales Gleichgewicht zwischen genügend Zeitreihendatenpunkten pro Patient und der Größe des Validierungsdatensatzes.

Die vorhergesagten AE-Bezeichnungen wurden als Ordinalskala von 1–5 behandelt, daher lagen die gewichteten Summenwerte alle im Bereich 1–5. Die trainierten Modelle wurden so behandelt, als würden sie drei Klassen vorhersagen: CL1 = A, CL2 = B/C/D und CL3 = E.

Im Abschnitt „Ergebnisse“ wurden zwei Methoden zur Zuordnung der gewichteten Summenwerte (1–5) zu diesen drei Klassen mit unterschiedlichen Grenzwerten beschrieben:

„Extrem“: CL1 = 1, CL2 = > 1–4, CL3 = > 4.

„Neutral“: CL1 = ≤ 3, CL2 = > 3-<4, CL3 = ≥ 4.

Wir haben auch einen zusätzlichen „Extrem (2)“-Grenzwert mit der unten gezeigten gewichteten Summenzuordnung untersucht. Diese Ergebnisse sind in der ergänzenden Abbildung 1 dargestellt.

iii. „Extrem (2)“: CL1 = ≤ 2, CL2 = > 2-<4, CL3 = ≥ 4.

In der weiteren Analyse wurden DT- und LR-Modelle auf die vorhergesagten Etiketten trainiert, die von den 11 QEUH-DT-Klassifikatoren auf dem zeitlichen HiRID-Validierungsdatensatz für jede der fünf Stunden vor der Entlassung/dem Tod erstellt wurden (d. h. die Kombination von ICU-PSS-Etiketten über fünf aufeinanderfolgende Stunden hinweg). ). Hierbei handelt es sich um einen einfachen, aber interpretierbaren Ansatz zur Nachahmung des Entscheidungsprozesses von Intensivärzten, bei denen Änderungsmuster bei den pharmakologischen/physiologischen Parametern des Patienten berücksichtigt werden, bevor eine Entlassungsentscheidung getroffen wird. Für diese Analyse können komplexere Modelle mit nichtlinearen Kerneln wie SVM verwendet werden – dies würde jedoch die Interpretierbarkeit der Ergebnisse beeinträchtigen. Die DT- und LR-Modelle wurden auf F1 Micro optimiert und über eine 5-fache Kreuzvalidierung ausgewertet Die abhängige Variable ist der tatsächliche Entladungsstatus (siehe ergänzende Abbildung 2).

Im Rahmen dieses zweiten externen Validierungsexperiments wurde zusätzlich zu den MV- und TMV-Konsensmodellen ein zusätzliches „Fuzzy Consensus“ (FC)-Modell erstellt. Der Zweck dieses aufbauenden FC-Modells besteht darin, die Kombination der Ausgaben der einzelnen Modelle zu untersuchen, indem ihre Ausgaben als Konfidenzwerte für die binäre Klassifizierungsaufgabe im externen Validierungsdatensatz (Entlassung vs. Tod) betrachtet werden. Bei dieser Konsensmethode werden alle Vorhersagen erfasst und als „unscharfe“ Bezeichnungen auf einer Ordinalskala von 1–5 (d. h. AE) interpretiert, wenn die allgemeine Vorhersage des Entlassungsstatus für jeden Patienten berechnet wird. Abbildung 9 veranschaulicht den verwendeten Maßstab.

Insbesondere die vorhergesagten Bezeichnungen 1–5 (d. h. A–E) auf einer Ordinalskala, wobei die beiden Extreme die binäre Klassifizierungsaufgabe darstellen: 1 = innerhalb der nächsten Stunde lebend von der Intensivstation entlassen, 5 = innerhalb der folgenden Stunde auf der Intensivstation gestorben.

Die QEUH-Trainingsdaten, die die Ergebnisse dieser Studie stützen, sind möglicherweise auf Anfrage beim Datenverantwortlichen und Co-Autor Malcolm Sim erhältlich. Die Daten sind nicht öffentlich zugänglich, da individuelle Gesundheitsdaten durch Datenschutzgesetze geschützt sind. HiRID und MIMIC-III sind unter den folgenden URLs öffentlich zugänglich:

1. MIMIC-III-Datenbank: https://mimic.mit.edu/docs/gettingstarted/.

2. HiRID-Datenbank: https://www.physionet.org/content/hirid/1.1.1/.

Aus Gründen der Reproduzierbarkeit sind alle Datensatzvorverarbeitungs- und maschinellen Lernmodellcodes für diese Studie hier zugänglich: https://github.com/aneeta-sylo/npjDigitalMedicine. Die externen Validierungsdatensätze und Modelle für maschinelles Lernen wurden mit Python 3.6 erstellt.

Bootkrajang, J. & Kabán, A. Mehrklassenklassifizierung bei Vorhandensein von Kennzeichnungsfehlern. Vorträge des Europäischen Symposiums 2011 über künstliche neuronale Netze, Computerintelligenz und maschinelles Lernen (ESANN 2011), 345–350 (2011).

Cabitza, F., Ciucci, D. & Rasoini, R. Ein Riese auf tönernen Füßen: Über die Gültigkeit der Daten, die maschinelles Lernen in der Medizin speisen. Organ. Digitale Welt 28, 121–136 (2019).

Artikel Google Scholar

Mahato, D., Dudhal, D., Revagade, D. Bhargava, Y. Eine Methode zur Erkennung inkonsistenter Anmerkungen in einem medizinischen Dokument mithilfe von UMLS. Tagungsband des 11. Forums zur Bewertung des Informationsabrufs. 47–51, https://doi.org/10.1145/3368567.3368577 (2019).

Garcia, LPF, De Carvalho, AC & Lorena, AC Einfluss von Etikettenrauschen auf die Komplexität von Klassifizierungsproblemen. Neurocomputing 160, 108–119 (2015).

Artikel Google Scholar

Sleeman, D., Kostadinov, K., Moss, L. & Sim, M. Lösung von Meinungsverschiedenheiten zwischen medizinischen Experten: Eine Fallstudie mit dem IS-DELPHI-System. Proz. 13. Int. Jt. Konf. Biomed. Ing. Syst. Technol. 5, 66–76 (2020).

Artikel Google Scholar

Bachmann, LM et al. Konsequenzen unterschiedlicher diagnostischer „Goldstandards“ in der Testgenauigkeitsforschung: Beispiel Karpaltunnelsyndrom. J. Clin. Epidemiol. 34, 953–955 (2005).

Google Scholar

Sleeman, D. et al. Erkennen und Beheben von Inkonsistenzen zwischen den unterschiedlichen Sichtweisen von Fachexperten auf (Klassifizierungs-)Aufgaben. Artif. Intel. Med. 55, 71–86 (2012).

Artikel PubMed Google Scholar

Rogers, S., Sleeman, D. & Kinsella, J. Untersuchung der Meinungsverschiedenheiten zwischen den Bewertungen von Patienten auf Intensivstationen durch Ärzte. IEEE J. Biomed. Gesundheitsinformationen. 17, 843–852 (2013).

Artikel PubMed Google Scholar

Kahneman, D., Sibony, O., Sunstein, CR Lärm: Ein Fehler im menschlichen Urteilsvermögen. 124–127 (London, William Collins, S. 124–127, Erstausgabe. 2021).

Frénay, B. & Verleysen, M. Klassifizierung bei Vorhandensein von Etikettenrauschen: eine Umfrage. IEEE Trans. Neuronales Netz. Lernen. Syst. 25, 845–869 (2014).

Artikel PubMed Google Scholar

Zhu, X. & Wu, X. Klassenlärm vs. Attributlärm: eine quantitative Studie ihrer Auswirkungen. Artif. Intel. Rev. 22, 177–210 (2004).

Artikel Google Scholar

Frénay, B., Kabán, A. Eine umfassende Einführung in Etikettenrauschen: Vorträge des Europäischen Symposiums 2014 über künstliche neuronale Netze, Computerintelligenz und maschinelles Lernen (ESANN 2014). Vorträge des Europäischen Symposiums 2014 über künstliche neuronale Netze, Computerintelligenz und maschinelles Lernen (ESANN 2014) (2014).

Yin, H., Dong, H. Das Problem des Lärms bei der Klassifizierung: Vergangene, aktuelle und zukünftige Arbeiten. 2011 IEEE 3rd International Conference on Communication Software and Networks (ICCSN), 412–416 (2011).

Indrayan, A., Holt, MP Concise Encyclopedia of Biostatistics for Medical Professionals. 44 (CRC Press, 2017).

Sun, DQ et al. Verbesserung von menschlich gekennzeichneten Daten durch dynamische automatische Konfliktlösung. Tagungsband der 28. Internationalen Konferenz für Computerlinguistik, 3547–3557, (2020).

Cabitza, F., Rasoini, R. & Gensini, GF Unbeabsichtigte Folgen maschinellen Lernens in der Medizin. JAMA 318, 517–518 (2017).

Artikel PubMed Google Scholar

Fischhoff, B. Wissensgewinnung für die analytische Darstellung. IEEE Trans. Syst., Mann, Cybern. 19, 448–461 (1989).

Artikel Google Scholar

Jain, RK et al. Atypische duktale Hyperplasie: Interobserver- und Intraobserver-Variabilität. Mod. Pathol. 24, 917–923 (2011).

Artikel PubMed Google Scholar

Regier, DA et al. DSM-5-Feldversuche in den Vereinigten Staaten und Kanada, Teil II: Test-Retest-Zuverlässigkeit ausgewählter kategorialer Diagnosen. Bin. J. Psychiatry 170, 59–70 (2013).

Artikel PubMed Google Scholar

Lieblich, S. et al. Eine hohe Heterogenität und geringe Zuverlässigkeit bei der Diagnose einer schweren Depression werden die Entwicklung neuer Medikamente beeinträchtigen. Br. J. Psychiatry Open 1, e5–e7 (2015).

Artikel Google Scholar

Halford, JJ Interrater-Vereinbarung zur Identifizierung elektrografischer Anfälle und periodischer Entladungen bei der EEG-Aufzeichnung auf der Intensivstation. Klin. Neurophysiol. 126, 1661–1669 (2015).

Artikel CAS PubMed Google Scholar

Moor, M., Rieck, B., Horn, M., Jutzeler, CR, Borgwardt, K. Frühzeitige Vorhersage von Sepsis auf der Intensivstation mithilfe von maschinellem Lernen: Eine systematische Überprüfung. Sek. Infektionskrankheiten – Überwachung, Prävention und Behandlung, Vorderseite. Med. https://doi.org/10.3389/fmed.2021.607952 (2021).

Zhang, W., Wong, LY, Liu, J. & Sarkar, S. MONitoring Knockbacks in EmergencY (MONITER) – Eine Prüfung der Dispositionsergebnisse bei Notfallpatienten mit abgelehnten Aufnahmeanträgen. Open Access Emerg. Med. 14, 481–490 (2022).

Artikel PubMed PubMed Central Google Scholar

Xia, F., Yetisgen-Yildiz, M. Annotation zum klinischen Korpus: Herausforderungen und Strategien. Vorträge des dritten Workshops zum Aufbau und zur Bewertung von Ressourcen für das biomedizinische Text-Mining (BioTxtM'2012) in Verbindung mit der internationalen Konferenz zu Sprachressourcen und -bewertung (LREC) (2012).

Quinlan, JR Induktion von Entscheidungsbäumen. Mach. Lernen. 1, 81–106 (1986).

Artikel Google Scholar

Quinlan, JR Lernen aus verrauschten Daten. Vorträge des zweiten internationalen Workshops zum maschinellen Lernen 58–64 (1983).

Nettleton, DF, Orriols-Puig, A. & Fornells, A. Eine Studie über die Auswirkung verschiedener Lärmarten auf die Präzision überwachter Lerntechniken. Artif. Intel. Rev. 33, 275–306 (2010).

Artikel Google Scholar

Svensson, CM, Hubler, R., Figge, MT Automatisierte Klassifizierung zirkulierender Tumorzellen und der Einfluss der Variabilität zwischen Beobachtungen auf das Training und die Leistung von Klassifikatoren. J. Immunol. Res. https://doi.org/10.1155/2015/573165 (2015).

Johnson, MJ & Khoshgoftaar, MT Eine Umfrage zur Klassifizierung von Big Data mit Label Noise. J. Daten informieren Qualität. 14, 1–43 (2022).

Karimi, D., Dou, H., Warfield, SK & Gholipour, A. Deep Learning mit verrauschten Etiketten: Erkundung von Techniken und Abhilfemaßnahmen in der medizinischen Bildanalyse. Med. Bild Anal. 65, 101759 (2019).

Artikel Google Scholar

Cohen, J. Ein Übereinstimmungskoeffizient für Nominalskalen. Educ. Psychol. Mess. 20, 37–46 (1960).

Artikel Google Scholar

McHugh, ML Interrater-Zuverlässigkeit: Die Kappa-Statistik. Biochemie Med. 22, 276–282 (2012).

Artikel Google Scholar

Fleiss, JL, Levin, B., Paik, MC Statistische Methoden für Raten und Proportionen. (John Wiley & Sons, Inc., 2003).

Landis, JR & Koch, GG Die Messung der Beobachterübereinstimmung für kategoriale Daten. Biometrie 33, 159–174 (1977).

Artikel CAS PubMed Google Scholar

Breiman, L. Zufällige Wälder. Mach. Lernen. 45, 5–32 (2001).

Artikel Google Scholar

Sylolypavan, A. Der Einfluss inkonsistenter Anmerkungen auf die durch maschinelles Lernen gesteuerte klinische Entscheidungsfindung (University College London, 2021).

Raschka, S., Mirjalili, V. Python Machine Learning. (Packt Publishing Ltd, Dritte Auflage. 2019).

Sheng, VS, Provost, F., Ipeirotis, PG Ein anderes Label erhalten? Verbesserung der Datenqualität und des Data Mining mithilfe mehrerer, verrauschter Labeler. Tagungsband der ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 614–622, (2008).

Snow, R., O'Connor, B., Jurafsky, D. & Yg, AY Günstig und schnell – aber ist es gut? Bewertung von Nicht-Experten-Annotationen für Aufgaben in natürlicher Sprache. Tagungsband der Konferenz 2008 über empirische Methoden in der Verarbeitung natürlicher Sprache (EMNLP 2008). 254–263 (2008).

Yang, H., Mityagin, A., Svore, KM & Markov, S. Sammeln hochwertiger überlappender Etiketten zu geringen Kosten. Vorträge der 33. internationalen ACM SIGIR-Konferenz zu Forschung und Entwicklung im Bereich Information Retrieval (SIGIR 2010). 459–466 (2010).

Nettleton, DF & Muñiz, J. Verarbeitung und Darstellung von Metadaten für die Schlafapnoe-Diagnose mit einem Ansatz der künstlichen Intelligenz. Int. J. Med. Informieren. 63, 77–89 (2001).

Artikel CAS PubMed Google Scholar

Welinder, P., Branson, S., Perona, P. & Belongie, S. Die multidimensionale Weisheit der Massen. Proz. 23. Int. Konf. Neuronale Inf. Verfahren. Syst. 2, 2424–2432 (2010).

Google Scholar

Nettleton, DF & Hernández, L. In Proc. Workshop: Intelligente Datenanalyse in Medizin und Pharmakologie, IDAMAP. 91–102.

Ferruci, D. et al. Building Watson: Ein Überblick über das DeepQA-Projekt. AI-Magazin. 31, 59–79 (2010).

Craw, S., Sleeman, D. Automatisierung der Verfeinerung wissensbasierter Systeme. Proceedings of ECCAI-90, 167–172 (1990).

Sim, M. Die Entwicklung und Anwendung neuartiger intelligenter Bewertungssysteme bei kritischen Erkrankungen (University of Glasgow, 2015).

Vincent, JL Der SOFA-Score (Sepsis.lated Organ Failure Assessment) zur Beschreibung von Organdysfunktionen/-versagen. Im Namen der Arbeitsgruppe zu Sepsis-bezogenen Problemen der Europäischen Gesellschaft für Intensivmedizin. Intensivmedizin. 22, 707–710 (1996).

Artikel CAS PubMed Google Scholar

Collins, GS, Reitsma, JB, Altman, DG & Moons, KGM Transparente Berichterstattung über ein multivariables Vorhersagemodell für die individuelle Prognose oder Diagnose (TRIPOD): die TRIPOD-Anweisung. Br. J. Surg. 102, 148–158 (2015).

Artikel CAS PubMed Google Scholar

Steyerberg, EW & Vergouwe, Y. Auf dem Weg zu besseren klinischen Vorhersagemodellen: sieben Schritte zur Entwicklung und ein ABCD zur Validierung. EUR. Herz J. 35, 1925–1931 (2014).

Artikel PubMed PubMed Central Google Scholar

Rivera, SC, Liu, X., Chan, A., Denniston, AK & Calvert, MJ Richtlinien für klinische Studienprotokolle für Interventionen mit künstlicher Intelligenz: die SPIRIT-AI-Erweiterung. Nat. Med. 26, 1351–1363 (2020).

Artikel Google Scholar

Luo, W. et al. Richtlinien für die Entwicklung und Berichterstattung von Vorhersagemodellen für maschinelles Lernen in der biomedizinischen Forschung: Eine multidisziplinäre Sichtweise. J. Med. Internet Res. 18, 323 (2016).

Artikel Google Scholar

Steyerberg, EW & Harrell, FE Jr. Vorhersagemodelle benötigen eine entsprechende interne, interne-externe und externe Validierung. J. Clin. Epidemiol. 69, 245–247 (2016).

Artikel PubMed Google Scholar

Altman, DG & Royston, P. Was verstehen wir unter der Validierung eines Prognosemodells? Stat. Med. 19, 453–473 (2000).

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5">Artikel CAS PubMed Google Scholar

Bleeker, SE et al. Bei der Vorhersageforschung ist eine externe Validierung erforderlich: Ein klinisches Beispiel. J. Clin. Epidemiol. 56, 826–832 (2003).

Artikel CAS PubMed Google Scholar

Collins, GS et al. Externe Validierung multivariabler Vorhersagemodelle – eine systematische Überprüfung des methodischen Verhaltens und der Berichterstattung. BMC Med. Res. Methodol. 14 https://doi.org/10.1186/1471-2288-14-40. (2014).

Siontis, GC et al. Eine externe Validierung neuer Risikovorhersagemodelle erfolgt selten und zeigt eine schlechtere prognostische Diskriminierung. J. Clin. Epidemiol. 68, 25–34 (2015).

Artikel PubMed Google Scholar

Faltys, M. et al. HiRID, ein hochauflösender Intensivdatensatz (Version 1.1.1). Physio. Netz. https://doi.org/10.13026/nkwc-js72 (2021).

Goldberger, A. et al. PhysioBank, PhysioToolkit und PhysioNet: Komponenten einer neuen Forschungsressource für komplexe physiologische Signale. Auflage 101, 215–220 (2000).

Artikel Google Scholar

Johnson, AEW et al. MIMIC-III (v.1.4), eine frei zugängliche Datenbank für die Intensivpflege. Wissenschaftliche Daten. https://doi.org/10.1038/sdata.2016.35. (2016).

Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).

Google Scholar

Seabold, S., Perktold, J. Statsmodels: ökonometrische und statistische Modellierung mit Python. 9. Python in Science-Konferenz (2010).

Perry, T. SimpleDorff – Berechnen Sie Krippendorffs Alpha auf einem DataFrame, (2020).

Zapf, A., Castell, S., Morawietz, L., Karch, A. Messung der Interrater-Reliabilität für Nominaldaten – welche Koeffizienten und Konfidenzintervalle sind geeignet? BMC Med. Res. Methodol. 16 https://doi.org/10.1186/s12874-016-0200-9 (2016).

Referenzen herunterladen

Wir danken allen Beratern des QEUH, die die Fallbeispiele kommentiert haben, die einen wichtigen Teil der in diesem Dokument beschriebenen Analyse bildeten. Wir bedanken uns auch für hilfreiche Diskussionen mit Prof. Hugh Montgomery (Fakultät für Medizinische Wissenschaften, UCL). HW wird vom Medical Research Council (MR/S004149/1, MR/S004149/2) unterstützt; Nationales Institut für Gesundheitsforschung (NIHR202639); British Council (UCL-NMU-SEU Internationale Zusammenarbeit zur künstlichen Intelligenz in der Medizin: Bewältigung der Herausforderungen geringer Generalisierbarkeit und gesundheitlicher Ungleichheit); Welcome Trust ITPA (PIII0054/005); Das Alan Turing Institute, London, Großbritannien. HW ist der korrespondierende Autor dieses Papiers – ansässig an der UCL, Gower St, London, WC1E 6BT und erreichbar per E-Mail: [email protected].

Institut für Gesundheitsinformatik, University College London, London, Vereinigtes Königreich

Sylolypavan & Honghan Wu

School of Natural and Computing Sciences, University of Aberdeen, Aberdeen, Schottland, Großbritannien

Derek Sleeman

Alan Turing Institute, London, Vereinigtes Königreich

Honghan Wu

Fakultät für Medizin, Krankenpflege und Zahnmedizin, Universität Glasgow, Aberdeen, Schottland, Großbritannien

Malcolm Sim

Sie können diesen Autor auch in PubMed Google Scholar suchen

AS überprüfte die Literatur, führte die Datenvorverarbeitung durch, analysierte und verfasste das Manuskript. DS und HW konzipierten und gestalteten das Projekt, überwachten das Projekt und trugen zum Verfassen des Manuskripts bei. MS trug aus klinischer Sicht zum Studiendesign bei.

Korrespondenz mit Honghan Wu.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Die Methoden wurden in Übereinstimmung mit den relevanten Richtlinien und Vorschriften durchgeführt und vom Research Ethics Committee des University College London genehmigt. Die Datenverantwortlichen erteilten die Erlaubnis, die (vollständig anonymisierten) QEUH ICU-, MIMIC-III- und HiRID-Datensätze zu verwenden. In dieser Studie wurden keine personenbezogenen Daten verarbeitet. Die Berater, die die QEUH-Datensätze kommentierten, wurden anhand anonymer Codenamen identifiziert.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Sylolypavan, A., Sleeman, D., Wu, H. et al. Die Auswirkungen inkonsistenter menschlicher Anmerkungen auf die KI-gesteuerte klinische Entscheidungsfindung. npj Ziffer. Med. 6, 26 (2023). https://doi.org/10.1038/s41746-023-00773-3

Zitat herunterladen

Eingegangen: 07. August 2022

Angenommen: 07. Februar 2023

Veröffentlicht: 21. Februar 2023

DOI: https://doi.org/10.1038/s41746-023-00773-3

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt