Video

Nachricht

HeimHeim / Nachricht / Video

May 18, 2024

Video

Scientific Reports Band 13, Artikelnummer: 1038 (2023) Diesen Artikel zitieren 1306 Zugriffe 1 Details zu Altmetric Metrics Um zufriedenstellende klinische Ergebnisse zu gewährleisten, muss eine Bewertung der chirurgischen Fähigkeiten durchgeführt werden

Scientific Reports Band 13, Artikelnummer: 1038 (2023) Diesen Artikel zitieren

1306 Zugriffe

1 Altmetrisch

Details zu den Metriken

Um zufriedenstellende klinische Ergebnisse zu gewährleisten, muss die Beurteilung der chirurgischen Fähigkeiten objektiv, zeiteffizient und vorzugsweise automatisiert sein – was derzeit nicht erreichbar ist. Die videobasierte Beurteilung (VBA) wird in intraoperativen und Simulationsumgebungen eingesetzt, um die Umsetzung technischer Fähigkeiten zu bewerten. VBA ist jedoch manuell, zeitintensiv und anfällig für subjektive Interpretationen sowie eine geringe Zuverlässigkeit zwischen den Bewertern. Hier schlagen wir ein Deep-Learning-Modell (DL) vor, das automatisch und objektiv eine umfassende summative Bewertung der Ausführung chirurgischer Fertigkeiten auf der Grundlage von Video-Feeds und eine formative Beurteilung mit geringem Einsatz bereitstellen kann, um den Erwerb chirurgischer Fertigkeiten zu steuern. Die formative Beurteilung wird mithilfe von Heatmaps visueller Merkmale erstellt, die mit der chirurgischen Leistung korrelieren. Daher ebnet das DL-Modell den Weg für die quantitative und reproduzierbare Bewertung chirurgischer Aufgaben anhand von Videos mit dem Potenzial für eine weite Verbreitung in der chirurgischen Ausbildung, Zertifizierung und Zertifizierung.

Die Fähigkeiten des Chirurgen sind der wichtigste Faktor für den Erfolg eines chirurgischen Eingriffs1. Die Beurteilung chirurgischer Fähigkeiten kann formativ oder summativ sein. Bei der formativen Beurteilung steht wenig auf dem Spiel. Experten bieten es in der Regel als Orientierungshilfe während der Operation an. Andererseits wird die summative Beurteilung bei anspruchsvollen Zertifizierungen oder Zertifizierungen eingesetzt und ist in der Regel mit einer quantitativen Bewertung verbunden, die von den Prüfern berechnet wird. Obwohl die direkte Beobachtung von Chirurgen im Operationssaal oder an einem Simulator weiterhin der aktuelle Goldstandard für die Bewertung chirurgischer Fähigkeiten ist, erhält die videobasierte Beurteilung (VBA) zunehmende Aufmerksamkeit2,3,4. Das American Board of Surgery (ABS) prüft VBA als Bestandteil des kontinuierlichen Zertifizierungsprogramms für Allgemeinchirurgen und verwandte Fachgebiete5. Als Post-hoc-Verfahren ist VBA jedoch manuell und zeitintensiv, subjektiv und anfällig für eine schlechte Interrater-Zuverlässigkeit2,3. Darüber hinaus erfordern VBA-Methoden oft die Bearbeitung der Videos in Snippets, um den Arbeitsaufwand zu reduzieren3, was aufgrund der Voreingenommenheit des Redakteurs2,3 die Subjektivität fördert. Darüber hinaus haben zahlreiche Studien über eine schlechtere Validitätsbeweisleistung und überhöhte Ergebnisvorhersagen bei bearbeiteten Videos im Vergleich zu vollständigen Videos berichtet3. Eine weitere Einschränkung besteht darin, dass VBA fast ausschließlich formativ ist, d. Daher besteht die Notwendigkeit, einen objektiven, effizienten und automatisierten Ansatz für VBA zu entwickeln.

Für die automatisierte und objektive Kompetenzbewertung6 wurden mehrere Deep-Learning-Modelle (DL) entwickelt, von denen die meisten auf der Erfassung sensorbasierter Kinematikdaten von Chirurgen basieren. Dies ist zeit- und arbeitsintensiv und kann die chirurgische Arbeit beeinträchtigen. Im Gegensatz dazu werden im Rahmen der meisten chirurgischen Eingriffe2 routinemäßig Videos erfasst, sodass eine groß angelegte Datenerfassung möglich ist. Bestehende videobasierte DL-Modelle nutzen die Bearbeitung, um das Problem zu vereinfachen7,8. Darüber hinaus nutzen diese Modelle das Label-erhaltende Snippeting, bei dem jedes Snippet das Label des gesamten Videos teilt. Dies ist problematisch, da Labels für das gesamte Video möglicherweise nicht für einzelne Snippets gelten. Schließlich bieten aktuelle DL-Modelle keine Möglichkeit, die hervorstechenden Merkmale zu bewerten, die die Leistung charakterisieren. Erklärbare Techniken der künstlichen Intelligenz (XAI)9,10, wie etwa Class Activation Maps (CAMs)11, können dieses Problem lösen10,12. Dennoch konnte nicht nachgewiesen werden, dass sie zuverlässig eine formative Bewertung liefern.

Um diese Einschränkungen zu beseitigen, schlagen wir ein DL-Modell vor, das Video-Based Assessment Network (VBA-Net), das vollständige chirurgische Videosequenzen nutzen kann, um summative chirurgische Bewertungen bereitzustellen und formatives Feedback auf der Grundlage der chirurgischen Leistung zu generieren. Abbildung 1 zeigt den Überblick über die Studie. Zur Entwicklung des VBA-Net wurden zwei Datensätze zum Schneiden chirurgischer Muster (PC) verwendet (Abb. 1a). Um die Generalisierbarkeit unseres Modells zu verdeutlichen, haben wir es außerdem mit dem am häufigsten verwendeten öffentlichen Datensatz, JIGSAWS6,13, verglichen. Schließlich haben wir formatives Feedback über CAMs gegeben und ein modellunabhängiges statistisches Tool zur Validierung ihrer Bedeutung vorgestellt.

Überblick über die Studie. (a) Demografische Daten und beschreibende Daten des Probanden. (b) Die Pipeline des VBA-Net. Das Modell nutzt Mask R-CNN, um Werkzeugbewegungssequenzen aus Videobildern zu generieren. Anschließend bettet der Denoising Autoencoder (DAE) die Sequenzen für den Klassifikator ein, um die summative und formative Leistung vorherzusagen. Der primäre PC-Datensatz wird zur Entwicklung des Modells, dh zur Abstimmung seiner Hyperparameter, verwendet. Der zusätzliche PC-Datensatz hingegen dient der Validierung. Der JIGSAWS-Datensatz wird verwendet, um das Modell mit den leistungsstarken Modellen in der Literatur zu vergleichen.

In dieser Studie gibt es zwei PC-Datensätze, nämlich den primären und den zusätzlichen. PC ist eine der fünf Aufgaben des FLS-Zertifizierungsprogramms, eine Voraussetzung für die Board-Zertifizierung im Allgemeinen und in der Geburts-/Gynäkologie-Chirurgie14. PC erfordert eine laparoskopische Schere, um ein kreisförmiges Muster zu schneiden, das auf ein 10 cm × 10 cm großes Mullkissen gedruckt ist, während gleichzeitig mit dem Maryland Dissector (Greifer) Zug ausgeübt wird. Beide PC-Datensätze wurden an der University at Buffalo gesammelt und alle Versuche wurden in Übereinstimmung mit den relevanten Richtlinien und Vorschriften durchgeführt, die vom Institutional Review Board (IRB) der University at Buffalo und dem Rensselaer Polytechnic Institute genehmigt wurden. Darüber hinaus wurden die Probanden über das Versuchsprotokoll informiert und gaben eine schriftliche Einverständniserklärung für die Studie ab.

Der primäre PC-Datensatz umfasst 21 Medizinstudenten (6 Männer und 15 Frauen) im Alter zwischen 21 und 30 Jahren mit einem Durchschnittsalter von 23,95 Jahren, von denen keiner über vorherige Erfahrung in der Laparoskopie verfügt. In diesem Datensatz führten die Probanden die Aufgabe 12 Tage lang aus und generierten 2055 Versuche, nachdem diejenigen mit negativen Bewertungen entfernt wurden. Am ersten Tag führte jeder Proband die Aufgabe einmal durch. Zwischen dem 2. und 12. Tag führten die Probanden bis zu zehn PC-Versuche durch. Schließlich wurden am letzten Tag fünf Wiederholungen von jedem Probanden gemeldet. Bei den Leistungsbewertungen in FLS handelt es sich um hohe Einsätze, die auf Endpunktmetriken basieren, z. B. Zeit- und Präzisionsfehler15. Diese Ergebnisse kategorisieren die Probanden auf der Grundlage einer Cut-Off-Schwelle15 in Bestehens-/Nicht bestanden-Klassen (Tabelle S1). Dies führte insbesondere zu einem unausgeglichenen Datensatz, bei dem das Bestanden/Nicht bestanden-Verhältnis 8,9 beträgt. Der primäre PC-Datensatz wurde zur Entwicklung des Modells, dh zur Auswahl der Hyperparameter, verwendet.

Andererseits umfasst der zusätzliche PC-Datensatz 12 Probanden aus einer unabhängigen Kohorte, die jeweils bis zu 26 Mal an einem Tag durchgeführt wurden, was 307 Versuche ergab. Wir haben in diesem Datensatz kein Ungleichgewicht festgestellt. Diese Kohorte wurde verwendet, um die Generalisierbarkeit des Modells auf unbekannte Themen zu validieren. Bemerkenswert ist, dass die Videos für beide PC-Datensätze mit der Standard-FLS-Boxkamera mit einer Auflösung von 640 × 480 und 30 FPS erfasst wurden.

Der JIGSAWS-Datensatz13 hingegen enthält sensorbasierte Daten, die über das da Vinci Surgical System (Intuitive Surgical, Inc) für folgende Aufgaben gesammelt wurden: Nähen, Nadeldurchführung und Knotenbinden13. Der Datensatz verfügt über drei chirurgische Fertigkeitsklassen, nämlich Anfänger, Fortgeschrittene und Experten, basierend auf den im Operationssaal (OP) verbrachten Stunden. Darüber hinaus sind modifizierte OSATS-Bewertungen (Objective Structured Assessment of Technical Skills) verfügbar. OSATS ist eine formative Bewertungsrubrik3, die auf Basis informativer Kriterien mit geringem Einsatz berechnet wird13,16. Darüber hinaus stehen globale Ratingskalen (GRS) zur Verfügung, eine Summierung einzelner Items in der OSATS-Rubrik. Dieser Datensatz wurde verwendet, um die Wirksamkeit des VBA-Net bei verschiedenen chirurgischen Aufgaben zu messen.

Mehrere Studien haben die Wirksamkeit der videobasierten Instrumentenverfolgung bei der objektiven und automatisierten Bewertung von Fähigkeiten gezeigt17,18,19,20,21,22. Daher haben wir ein Instanzsegmentierungsnetzwerk verwendet, das Mask Region-based Convolutional Neural Network (Mask R-CNN) (Architektur siehe Abb. S3). Die Instanzsegmentierung unterscheidet sich von der Objekterkennung, da der Hintergrund ebenfalls eine Klasse im Training ist und das Modell lernt, die Instanz aus ihrem Hintergrund heraus zu segmentieren. Dies ist von Vorteil, wenn Sie an Datensätzen mit einer konstanten Kameraansicht arbeiten, z. B. den in dieser Studie verwendeten Datensätzen, insbesondere wenn Hintergrundelemente wie Clips den verwendeten chirurgischen Werkzeugen ähneln.

Mask R-CNN23 funktioniert, indem es zunächst mithilfe eines CNN-Backbones, d. h. ResNet50, räumliche Merkmale aus den Eingaberahmen extrahiert. Die räumlichen Merkmale werden dann im Region Proposal Network (RPN) verarbeitet, wodurch für jede Instanz Regions of Interest (RoI) generiert werden. Hier wird davon ausgegangen, dass der RoI für Erkennungskonfidenzen von 0,7 oder höher korrekt ist. Als nächstes wird RoIPool auf ein Drittel des RoI angewendet, um Karten mit herausragenden Merkmalen zu extrahieren, und der RoIAlign-Algorithmus wird angewendet, um die Merkmale vor und nach dem RPN auszurichten. Schließlich werden die generierten Merkmale in die Faltungsschichten eingespeist und geben die Klasse und die Binärmaske für jede Instanz sowie die jeweiligen Begrenzungsrahmenkoordinaten aus.

Nach dem Training wurde Mask R-CNN, \({f}_{m}\left(.\right)\), verwendet, um Begrenzungsrahmen für beide chirurgischen Werkzeuge in jedem Frame in einem bestimmten Versuch zu generieren, d. h. \( {{\varvec{K}}}_{i}=\left[{f}_{m}\left({x}_{i1}\right), \dots ,{f}_{m}\left ({x}_{ij}\right),\dots {,f}_{m}\left({x}_{iT}\right)\right]\in {\mathbb{R}}^{TxD }\). Dabei ist \({x}_{ij}\) der j-te Frame des i-ten Versuchs im Datensatz und \(T\) die zeitliche Länge, also die Anzahl der Frames. Andererseits ist \(D\) die Anzahl der Eingabemerkmale. \(D\) ist in dieser Studie 4 – kartesische Koordinaten von Grasper und Scissor. Schließlich ist \({\varvec{K}}= \left[{K}_{1}, \dots ,{K}_{i},\dots ,{K}_{N}\right]\in { \mathbb{R}}^{Nx(TXD)}\) ist der Datensatz der Werkzeugbewegungssequenzen mit N Versuchen. Hier beträgt N 2.055 und 307 für den primären und zusätzlichen PC-Datensatz. Insbesondere für Frames, in denen das Modell die Werkzeuge nicht erkennen konnte, d. h. \({f}_{m}\left({x}_{ij}\right)=\{\}\), die Koordinaten der nachfolgenden und vorhergehende Frames wurden gemittelt, wie in Gleichung zu sehen ist. (1).

Wir haben eingebettete Merkmale der Werkzeugbewegungssequenzen über einen Denoising-Autoencoder (DAE) (Architektur siehe Abb. S4) mit Gaußschem Rauschen (Alpha = 0,001) extrahiert. Der DAE ist ein unbeaufsichtigter CNN-basierter Autoencoder. Autoencoder wurden in mehreren Studien zur Bewertung chirurgischer Fähigkeiten eingesetzt17,22,24,25. DAE besteht aus einem Encoder zum Extrahieren der wichtigen Merkmale (\({{\varvec{K}}}_{{\varvec{e}}})\) aus der verrauschten Eingabe und einem Decoder zum Rekonstruieren der Eingabe basierend auf den Merkmalen vom Encoder bereitgestellt. Hier ist \({{\varvec{K}}}_{{\varvec{e}}}= \sigma \left(\left[{K}_{1}, \dots ,{K}_{i} ,\dots ,{K}_{N}\right]\right)\in {\mathbb{R}}^{Nx(TX{D}_{e})}\). \(\sigma\) ist die Ausgabe des Encoders und \({D}_{e}\) ist die Ausgabeanzahl der Features.

Nachdem die hervorstechenden Merkmale \({{\varvec{K}}}_{{\varvec{e}}}\) extrahiert wurden, verwendeten wir einen CNN-basierten Klassifikator (Abb. S4), bewerteten summative Fähigkeiten und gab formatives Feedback. Wir haben einen firmeninternen aufmerksamkeitsgesteuerten Restblock verwendet, um das Problem des verschwindenden Gradienten26 sowohl für den Encoder als auch für den Klassifikator zu verhindern. Konkret bestand unser Restblock aus zwei identischen Faltungsschichten und einer Identitätsschicht. Darüber hinaus wurden zwei Aufmerksamkeitsebenen mit räumlicher und Kanalquetschung und Kanalanregung (scSE)27 einbezogen, um die Eingabe-Feature-Maps durch Hervorheben der hervorstechendsten Features im Restblock neu zu kalibrieren. Das erste scSE wurde zwischen der ersten und zweiten Faltungsschicht platziert. Der zweite scSE erfolgte, nachdem die Restgewichte zur zweiten Faltungsschicht hinzugefügt wurden. Darüber hinaus wurden die Faltungsschichten innerhalb des Restblocks beim Training für den Klassifikator erweitert28.

Beim Training des Klassifikators folgte dem Restblock eine Global Average Pooling (GAP)29-Schicht, die die Feature-Maps aggregierte und sie der vollständig verbundenen Schicht zuführte, während gleichzeitig das Training des Modells mit Eingaben unterschiedlicher Größe ermöglicht wurde. Schließlich wurde eine vollständig verbundene Schicht, die aus einem Knoten und keiner Aktivierung beim Training für die Regression und zwei Knoten und Softmax-Aktivierung für die binäre Klassifizierung besteht, hinzugefügt, um die FLS-Scores bzw. Fähigkeitsklassen auszugeben.

Wir haben Mask R-CNN auf dem COCO-Datensatz30 vorab trainiert und den Klassifikator auf Frames aus beiden PC-Datensätzen abgestimmt. Darüber hinaus wurde die Ausgabeebene so konfiguriert, dass sie jede Klasse, also Schere, Greifer und Hintergrund, unterstützt. Aus allen 2362 Videos, in denen sowohl eine Schere als auch ein Greifer verfügbar sind, wurden 702 Bilder zufällig für das Training ausgewählt. Dadurch soll die Abdeckung widersprüchlicher Szenarien während des Trainings optimiert werden. 562 (80 %) Frames werden zum Trainieren und Validieren von Mask R-CNN und 140 (20 %) zum Testen verwendet. Von diesen 562 Frames wurden 450 (80 %) bzw. 112 (20 %) für das Training und die Validierung verwendet. Darüber hinaus wurde die Größe aller Frames von 640 × 480 auf 512 × 512 geändert. Schließlich wurde der VGG Image Annotator (VIA)31 verwendet, um Scheren- und Greifer-Tooltips in jedem Frame mithilfe der Polygonannotation, der Standardeingabe für Mask R-CNN23, zu kommentieren.

Wir haben 40 Epochen lang nur die Köpfe von (Mask R-CNN) trainiert, während die restlichen Schichten eingefroren blieben. Wir haben die Frames erweitert, indem wir Gaußsche Unschärfe (Sigma = 0–5) und horizontales Spiegeln in 50 % der Zeit pro Epoche implementiert haben.

Vor dem Training des Denoising Autoencoder (DAE) und des Klassifikators über die extrahierten Bewegungssequenzen \({\varvec{K}}\) wurde jede Sequenz auf 1 FPS heruntergesampelt, um die Trainingszeit zu reduzieren20. Darüber hinaus wurden die Sequenzen mithilfe der Min-Max-Normalisierung normalisiert. Zuletzt wurden die Leistungswerte mittels Z-Normalisierung vorverarbeitet und eine Hot-Kodierung für die Klassenbezeichnungen verwendet. Für die Kinematik des JIGSAWS-Datensatzes wurde dieselbe Vorverarbeitungspipeline wie für die PC-Datensätze verwendet.

Die Stapelgröße betrug während des Trainings eins, da jede Eingabe eine andere sequentielle Länge hat. Das Training wurde durch frühzeitiges Stoppen basierend auf Validierungsverlust mit einer Geduld von 4 bzw. 20 Epochen für das DAE- bzw. Klassifikatortraining für die PC-Datensätze reguliert. Diese Werte waren 40 und 200 für den JIGSAWS-Datensatz13. Schließlich haben wir Klassengewichte in das Training integriert, um Ungleichgewichte auszugleichen. (Informationen zur Hyperparameterauswahl finden Sie unter Ergänzende Informationen / Hyperparameterauswahl).

Insbesondere haben wir bei der Entwicklung des VBA-Net auf den PC-Datensätzen das Training zehn Sitzungen lang wiederholt, um eine robuste Auswahl der Hyperparameter sicherzustellen. Das Training wurde auf einer Workstation mit AMD Ryzen 7 2700X und NVIDIA GeForce RTX 2070 durchgeführt.

In diesem Lebenslauf werden die Daten nach dem Zufallsprinzip in Zug-, Validierungs- und Testfalten unterteilt. Die Trainings- und Validierungsfalten werden zur Entwicklung des Modells verwendet, d. h. die Trainingsaufteilung wird zur Berechnung des Trainingsverlusts verwendet, während die Validierungsaufteilung zur Berechnung des Validierungsverlusts dient. Anschließend wird die Testfalte verwendet, um die Wirksamkeit des trainierten Modells zu testen. Dieser Lebenslauf wurde zum Trainieren und Validieren des Mask R-CNN verwendet.

Die Daten werden zufällig in zehn Falten aufgeteilt, wobei das Klassenungleichgewichtsverhältnis erhalten bleibt. Dann wird eine Falte zum Testen verwendet, während die restlichen neun das Modell trainieren. Dies wird wiederholt, bis jede Falte zum Testen verwendet wird. Dieses Lebenslaufschema ist nützlich, um alle verfügbaren Daten zu nutzen. In dieser Studie haben wir diesen Lebenslauf zum Trainieren und Validieren des VBA-Net für die Haupt- und zusätzlichen PC-Datensätze verwendet.

Um die Benchmark-Modelle zu bewerten, verwendeten wir die Standard-CV-Schemata für JIGSAWS, d. h. Leave-One-Supertrial-Out (LOSO) und Leave-One-User-Out (LOUO).

Das LOSO-CV-Schema ist eine spezielle Version des k-fachen CV, der in den meisten Artikeln im JIGSAWS-Datensatz verwendet wird. In LOSO wird der i-te Versuch jedes Teilnehmers zum Testen verwendet, während die verbleibenden Versuche zum Training des Netzwerks verwendet werden. Daher ist LOSO bei der Beurteilung der Modellleistung anhand unsichtbarer Daten von Vorteil. Es wurde jedoch speziell für den JIGSAWS-Datensatz entwickelt und hat in der Literatur nur begrenzten Nutzen. Darüber hinaus ist LOSO für die Fälle, in denen das Modell neue Chirurgen bewertet, nicht aussagekräftig. LOUO überwindet diese Einschränkung.

Bei LOUO werden die Versuche eines einzelnen Probanden aus dem Trainingsprozess entfernt und zum Testen des Modells verwendet. Dies wird für jedes Thema wiederholt. Daher steht das Netzwerk vor der Herausforderung, auf ein unbekanntes Thema aus einer anderen Kohorte oder Verteilung zu verallgemeinern. Darüber hinaus kann LOUO mit jedem Datensatz verwendet werden, an dem mehr als ein Subjekt beteiligt ist. Der Nachteil von LOUO besteht darin, dass es die Leistung des Modells bei nicht sichtbaren Daten desselben Subjekts nicht erkennt, was ein entscheidendes Element für das Training ist.

In geschichteten Zehnfach-, LOSO- und LOUO-CVs wurde die Leistung auf der Grundlage der Gesamtkonfusionsmatrix berechnet, die durch die Kombination aller Vorhersagen aus jeder Falte erstellt wurde.

Bei der Generierung von Werkzeugbewegungen wurde Mask R-CNN anhand der durchschnittlichen Präzision bewertet, wobei die Schnittmenge über der Vereinigung (IoU) 0,5 betrug, um den vorhergesagten Begrenzungsrahmen als wahr zu betrachten23,30,32,33. IoU ist das Überlappungsverhältnis zwischen der Grundwahrheit und den vorhergesagten Begrenzungsrahmen.

Wir verwendeten den Spearman-Korrelationskoeffizienten (ρ), um die Leistung der Score-Vorhersage zu bewerten, während Genauigkeit, Sensitivität, Spezifität und Fläche unter der Kurve (AUC) der Receiver Operating Characteristics (ROC)-Kurve zur Bewertung der Ergebnisse der binären Klassifizierung herangezogen wurden. Andererseits haben wir beim Benchmarking des VBA-Net anhand des JIGSAWS-Datensatzes mit mehreren Klassen Genauigkeit verwendet, um die Klassifizierungsergebnisse auszuwerten. Im Gegensatz dazu wurde ρ für OSATS- (ρOSATS) und GRS- (ρGRS) Score-Vorhersagen verwendet, wobei ρOSATS der Mittelwert von ρs für jeweils sechs OSATS-Subscores war9,13,34.

Neben den häufig verwendeten Metriken haben wir die kürzlich vorgeschlagenen Vertrauenswürdigkeitsmetriken35,36, d. h. Frage-Antwort-Vertrauen, Vertrauensdichte, bedingte Vertrauensdichte, Vertrauensspektrum und NetTrustScore (NTS), verwendet, um die Zuverlässigkeit des VBA-Net im Internet zu bewerten Klassifizierungsergebnisse. In diesem Konzept ist die Softmax-Wahrscheinlichkeit mit der Konfidenz C(y|x) verbunden, und ein Modell M ist vertrauenswürdig, wenn eine wahre Vorhersage mit einem stärkeren Softmax einhergeht und umgekehrt. Gleichung (2) stellt das Frage-Antwort-Vertrauen dar.

In Gl. (2),\({R}_{y=z}\) ist der Raum aller Stichproben (x), für die die vorhergesagte (\(y)\) und die tatsächliche (\(z)\) Klasse übereinstimmen . Andererseits ist \({R}_{y\ne z}\) der Raum, in dem dies nicht der Fall ist. Als nächstes belohnt \(\alpha\) das Vertrauen für wahre Vorhersagen und \(\beta\) bestraft übermäßiges Vertrauen, wenn die Vorhersage falsch ist. In dieser Studie werden beide auf 1 gesetzt. Schließlich bezeichnet \({Q}_{z}\left(x,y\right)\) das Frage-Antwort-Vertrauen für eine gegebene Klasse (z).

Als nächstes ist die Vertrauensdichte die Wahrscheinlichkeitsdichteverteilung von \({Q}_{z}\left(x,y\right)\), abgebildet über die nichtparametrische Dichteschätzung mit einem Gaußschen Kernel 36. Darüber hinaus gilt die bedingte Vertrauensdichte Vertrauensdichte einen Schritt weiter, indem die Verteilungen separat für \({R}_{y=z}\) und \({R}_{y\ne z}\) berechnet werden. Es hilft, übermäßiges Selbstvertrauen und übermäßige Vorsicht für eine bestimmte Klasse (z) zu erkennen. Als Anmerkung: In der binären Klassifizierung stellt \({R}_{y=z}\) das Wahre Positive (TP) oder Wahre Negative (TN) dar, während \({R}_{y\ne z}\) darstellt das Falsch-Negativ (FN) oder das Falsch-Positiv (FP).

Das Vertrauensspektrum \({T}_{M}\left(z\right)\) stellt das gesamte Vertrauensverhalten basierend auf jeder Klasse dar und NTS (\({T}_{M}\)) ist das Gesamtverhalten Vertrauenswürdigkeitsbewertung, die durch Integration des Vertrauensspektrums generiert wird, siehe Gl. (3).

Hier ist \(N\) die Stichprobengröße für eine bestimmte Klasse.

CAM ist ein Visualisierungstool, das die Regionen hervorhebt, die am meisten zur Klassifizierungsvorhersage beitragen. Es basiert auf dem Hadamard-Produkt der Gewichte vor Softmax und den Aktivierungen der letzten Faltung11. Wenn \({f}_{k}(i)\) die Aktivierungen auf der Faltungsschicht vor dem globalen Durchschnittspooling (GAP) für die Einheit k und den Zeitstempel i darstellt und \({{w}_{k}}^{ c}\) ist die Pre-Softmax-Gewichtung zwischen der GAP-Schicht und dem vollständig verbundenen Klassifikator für dieselbe Einheit und Klasse c; CAM ist wie folgt definiert:

Wir nutzten CAMs, um für jeden Versuch formatives Feedback zu geben.

Zuerst haben wir jede Eingabe maskiert, indem wir sie elementweise mit ihren jeweiligen CAMs multipliziert haben. Anschließend haben wir das VBA-Net mithilfe der gewichteten Eingaben erneut von Grund auf trainiert und über den geschichteten Zehnfach-CV ausgewertet. Als Ergebnis kamen wir zu zwei Verteilungen für die gegebenen Metriken, z. B. Genauigkeit: vor der Maskierung und nach der Maskierung, wobei beide über zehn Stichproben verfügen, die das ausgewählte CV-Schema widerspiegeln. Als nächstes verwendeten wir einen einseitigen Wilcoxon-Vorzeichentest, um zu überprüfen, ob der Mittelwert der Verteilung für das Szenario nach der Maskierung signifikant unterschiedlich war. Hier ging unsere Nullhypothese H0 von keinem signifikanten Unterschied aus, wohingegen die Alternativhypothese H1 davon ausging, dass der Mittelwert der Verteilung für die Nachmaskierung deutlich größer ist. Die Signifikanz für diese Analyse betrug 0,05.

Mask R-CNN extrahierte erfolgreich Begrenzungsrahmenschwerpunkte (X, Y) aus den umgebenden Artefakten, z. B. mechanischen Clips, unter schwierigen Bedingungen wie überlappenden Werkzeugen und unscharfen Bildern (Abb. S1). Es wurde eine durchschnittliche Genauigkeit von 0,97 gemeldet, wenn der Schnittpunkt über der Vereinigung (IoU) 0,5 beträgt. Bemerkenswert ist, dass die falschen Vorhersagen, d. h. IoU < 0,5, nicht auf die ungenaue Positionierung der Werkzeuge zurückzuführen waren, was sich negativ auf die Werkzeugsequenzdaten auswirken könnte. Stattdessen waren sie darauf zurückzuführen, dass sich die Werkzeuge teilweise außerhalb des Sichtfelds der Kamera befanden oder durch die Gaze verdeckt waren.

Unter Verwendung der hervorstechenden Merkmale des Autoencoders hat der Klassifikator die FLS-Scores (Abb. 2a) mit einem durchschnittlichen ρ von 0,915 ± 0,002 nach zehn Sitzungen mit jeweils p < 0,05 zuverlässig vorhergesagt. Darüber hinaus erreicht VBA-Net eine Genauigkeit von 0,955 ± 0,002 und meldet 0,958 ± 0,003 bzw. 0,922 ± 0,010 für Sensitivität und Spezifität. Darüber hinaus weist das Modell eine Fläche unter der Kurve (AUC) von 0,989 ± 0,001 für die ROC-Kurve (Receiver Operating Characteristics) auf (Abb. 2b).

Ergebnisse für die primären PC-Datensätze. (a) Tatsächliche vs. vorhergesagte FLS-Ergebnisse für alle zehn Trainingseinheiten zusammen. Hier zeigen die Histogramme die Häufigkeit der Stichproben für eine bestimmte Punktzahl. Wie zu sehen ist, weist das Netzwerk einen leicht überhöhten Score-Vorhersagetrend auf, was dazu führt, dass einige Versuche in der Nähe des Cut-Off-Verhältnisses liegen und diesen überschreiten – rot dargestellt. Da die Klassifizierungsanalyse separat durchgeführt wurde, hat diese überhöhte Vorhersage keinen Einfluss auf die Genauigkeit der Pass/Fail-Vorhersage. (b) Die ROC-Kurven. Die blaue Linie stellt den Durchschnitt von 10 Laufeinheiten dar, jeweils grau dargestellt. Die gelbe Linie stellt die Zufallschancen dar. (c) Frage-Antwort-Vertrauensdiagramme für jede Klasse. Das VBA-Net verfügt über eine hohe Vertrauenswürdigkeit für echte Vorhersagen. Das heißt, die Softmax-Wahrscheinlichkeiten liegen für die meisten Stichproben nahe bei 1,0, wie in Grün dargestellt. Andererseits ist das Netzwerk bei falschen Vorhersagen vorsichtig, d. h. die Softmax-Wahrscheinlichkeiten liegen nahe am Schwellenwert von 0,5 und akkumulieren nicht am äußersten Ende von 0,0 – dargestellt in Rot.

Die Vertrauenswürdigkeit des Modells wird in einer einzigen Trainingssitzung anhand von Vertrauenswürdigkeitsmetriken analysiert35,37. Abbildung 2c zeigt das Vertrauensspektrum begleitet vom NetTrustScore (NTS). Das VBA-Net verfügt über eine robuste Vertrauenswürdigkeit mit NTS-Werten von 0,926 und 0,868 für die bestandenen und nicht bestandenen Klassen. Darüber hinaus liegt der bedingte NTS für beide Klassen über 0,9, wenn die Vorhersage wahr ist, und etwa 0,3, wenn die Vorhersage falsch ist, was bedeutet, dass das VBA-Net starkes Vertrauen in wahre Vorhersagen mit geringer Unsicherheit hat, während es von zusätzlichen Daten profitieren kann beide Klassen35.

Für diese Analyse haben wir das VBA-Net ohne erneutes Training mit dem zusätzlichen PC-Datensatz nach jeder Faltung getestet. Auf diese Weise konnten wir die Leistung des trainierten Modells an den unsichtbaren Probanden, also einer anderen Kohorte, testen. Infolgedessen übertraf das VBA-Net seine Leistung auf dem primären PC-Datensatz, auf dem es trainiert wurde, und sagte die FLS-Scores (Abb. 3a) mit ρ von 0,937 (mit p < 0,05 für jede Falte) erfolgreich voraus. Darüber hinaus meldete VBA-Net für die Klassifizierungsanalyse eine Genauigkeit von 0,876 ± 0,002 mit einer Sensitivität und Spezifität von 0,871 ± 0,005 bzw. 0,887 ± 0,11. Schließlich blieb die Trennbarkeit des VBA-Net mit einer AUC von 0,955 ± 0,002 robust, wie in Abb. 3b dargestellt.

Ergebnisse für die zusätzlichen PC-Datensätze. (a) Tatsächliche vs. vorhergesagte FLS-Ergebnisse für alle zehn Läufe. Hier haben wir keine überhöhte Score-Vorhersage beobachtet, wie in Abb. 2 dargestellt. Dies kann auf eine ausgewogenere Darstellung der Stichproben zurückzuführen sein. (b) Die ROC-Kurven. (c) Frage-Antwort-Vertrauensdiagramme für jede Klasse. Wir haben in diesem Diagramm im Vergleich zu Abb. 2c den gleichen Trend zu sicheren wahren Vorhersagen und vorsichtigen falschen Vorhersagen beobachtet.

Abbildung 3c zeigt das Vertrauensspektrum, begleitet von den NTS- und den bedingten NTS-Scores. VBA-Net verwaltet niedrige Unsicherheiten und hohe Vertrauenswürdigkeit und meldet NTS-Werte von 0,844 und 0,831 für die Klassen „Bestanden“ und „Nicht bestanden“. Wenn wir Abb. 3c mit Abb. 2c vergleichen, sehen wir, dass das VBA-Net sein Vorhersagevertrauen für wahre Vorhersagen beibehält, während es für bestandene Fälle niedrigere NTS für falsche Vorhersagen meldet, was darauf hinweist, dass für die zusätzlichen Fälle zusätzliche Daten zu bestandenen Fällen erforderlich sind PC-Datensatz. Dies wird erwartet, da der zusätzliche PC-Datensatz 202 bestandene Stichproben aufweist, verglichen mit 1842 für den primären PC-Datensatz (Tabelle S1).

Die Generalisierbarkeit des VBA-Net auf eine separate Aufgabe wird anhand der CV-Schemata Leave-One-Super-Trial-Out (LOSO) und Leave-One-User-Out (LOUO) demonstriert.

Basierend auf dem LOUO CV-Schema übertraf das VBA-Net die aktuellen Ergebnisse nach dem neuesten Stand der Technik bei allen drei chirurgischen Aufgaben und erreichte die höchste durchschnittliche Gesamtklassifizierungsleistung (Genauigkeit = 0,946; Tabelle 1). Bemerkenswert ist, dass VBA-Net für Experten bei allen Aufgaben im JIGSAWS-Datensatz eine perfekte Genauigkeit erzielte, während nur zwei Anfängerversuche falsch klassifiziert wurden: einer zum Nähen und einer zum Knotenbinden (Abb. S2a).

Darüber hinaus meldete VBA-Net die höchsten Spearman-Korrelationskoeffizienten sowohl für die OSATS- als auch für die GRS-Vorhersage für alle Aufgaben (Tabelle 2), wodurch eine robuste Korrelation für das Nadeldurchführen und Knotenbinden und eine moderate Korrelation für das Nähen erreicht wurde. (Zur Aufschlüsselung von ρ siehe Tabelle S2).

Tabelle 3 zeigt die LOSO-CV-Ergebnisse und entsprechende Benchmark-Modelle mit einer mittleren Genauigkeit von mindestens 0,97. (Siehe Tabelle S3 für Ergebnisse < 0,97). VBA-Net erreichte eine perfekte Genauigkeit von 1,0 für Näh- und Nadeldurchführungsaufgaben und lieferte eine Genauigkeit von 0,926 für die Knotenbindeaufgabe, mit einer durchschnittlichen Genauigkeit von 0,975, was alle DL-Modelle übertrifft (Abb. S2b). Hier9 und 10 wurden nicht in die Analyse einbezogen, da sie in ihrem LOSO-Schema den Trainingssatz weiter in Training und Validierung unterteilten, ohne das Aufteilungsverhältnis anzugeben. Dies unterscheidet sich vom Standard-LOSO-Protokoll13. Ebenso38 wurde ausgeschlossen, da sie einen vierfachen (Genauigkeit = 0,942) bzw. einen zehnfachen CV (Genauigkeit = 0,973) verwendeten. Bemerkenswert ist, dass ein Modell für maschinelles Lernen (ML)34 eine bessere mittlere Genauigkeit liefert als das VBA-Net. Ihr Ansatz ist jedoch manuell aufwändig und nicht auf andere Aufgaben übertragbar.

Darüber hinaus lagen die mittleren ρOSATS und ρGRS für den LOSO CV bei 0,63 und 0,77 und übertrafen damit die Leistung nach dem neuesten Stand der Technik (Tabelle 2). Das VBA-Net übertraf die vorhandenen Modelle bei der OSATS-Score-Vorhersage bei allen drei Aufgaben. Bei der GRS-Vorhersage hingegen erzielte das VBA-Net für jede Aufgabe die höchste Leistung. (Zur Aufschlüsselung von ρ siehe Tabelle S4).

In diesem Abschnitt wird analysiert, wie VBA-Net formatives Feedback über ein Post-hoc-Erklärbarkeitstool, also CAM, bereitstellt. Abbildung 4 zeigt die auf die Werkzeugbahn projizierten 2D-CAMs unter Verwendung einer 1D-farbcodierten Kontur für einen TP-Fall (bestanden) (Abb. 4a) und einen TN-Fall (nicht bestanden) (Abb. 4b).

CAM-Ergebnisse. CAM-Diagramme für (a) eine TN-Probe (FLS-Score: 16,8) und (b) eine TP-Probe (FLS-Score: 170,7). Die Diagramme werden in der ursprünglichen Bildgröße von 640 × 480 dargestellt. Jeder Punkt stellt die Werkzeugposition für einen mit 1 FPS generierten Zeitstempel dar. Dies ergab 256 Punkte für den TN-Fall, da der Vorgang 256 s und 105 für den TP-Fall dauerte. Die roten Pfeile zeigen Werkzeugbewegungen an, die zu einer schlechten Leistung führen können, während die grünen Pfeile ein gleichmäßiges Verhalten anzeigen. Die farbcodierten Heatmaps veranschaulichen die Intensitäten desselben CAM, die für die gegebenen Proben erzeugt wurden. Allerdings werden für die Scheren- und Greiferpositionen unterschiedliche Farbkarten verwendet. (c) Gesamtvergleich der VBA-Net-Leistung vor und nach der Maskierung. Hier ist p der p-Wert der statistischen Analyse und die Zahlen in den Klammern in der zweiten und dritten Zeile stellen die Standardabweichung basierend auf dem Zehnfachen des Trainings dar.

In Abb. 4a stellen wir ein Beispiel für einen TN-Fall (fehlgeschlagen) dar und kommentieren (rot) die Stellen, die einer schlechten Leistung entsprechen, basierend auf den Operationsvideos. Die Versuchsperson begann reibungslos und erreichte erfolgreich das kreisförmige Muster von der Ecke der Gaze ohne unnötige Bewegung. Nach mehreren Versuchen gelang es ihnen jedoch nicht, die erste Hälfte des Kreises zu durchbrechen, und sie gingen schließlich zur zweiten Hälfte über, ohne die erste Hälfte zu beenden. Die durch „Pfeil 1“ angezeigte hohe Aktivierung erfasst dieses Verhalten. Gleichzeitig wurde der Greifer von der unteren linken Ecke der Gaze in die mittlere linke Ecke verschoben, eine Bewegung, die in den vorbeikommenden Fällen nicht beobachtet wurde. Die Versuchsperson kämpfte sich durch die zweite Hälfte und schaffte es nicht, den Kreis zu durchtrennen, während sie die Gaze mit dem Greifer festhielt. Die hohe Aktivierung bei „Pfeil 2“ verdeutlicht dies.

Wir haben auch einen TP-Fall (bestanden) in Abb. 4b analysiert. Hier haben wir die gewünschte Leistung (grün) anhand des entsprechenden Videos kommentiert. Als Ergebnis konnten wir beobachten, dass der Proband den Greifer effektiv nutzt und unnötige Greifversuche vermeidet (Pfeil 3). Darüber hinaus verwendet die Testperson sanfte Bewegungen und schneidet die Gaze schnell durch, wenn sie die zweite Hälfte des kreisförmigen Musters schneidet. Das Netzwerk erfasst dieses gewünschte Verhalten, wie durch „Pfeil 4“ angezeigt. Insgesamt haben wir festgestellt, dass die Aktivierungen unabhängig von der Dauer und für jeden Versuch spezifisch sind.

Um die Wirksamkeit einer solchen formativen Bewertung ohne fachkundige Anleitung festzustellen, haben wir CAMs mit einem modellunabhängigen statistischen Tool analysiert. Wir stellten die Hypothese auf, dass das Modell besser zwischen Fähigkeitsklassen unterscheiden sollte, wenn CAMs die hervorstechenden Teile hervorheben, wenn die Eingabesequenzen mit CAM maskiert werden. Folglich sollten sich die Ergebnisse verbessern. Wir haben unseren Ansatz am primären PC-Datensatz in einer einzigen Schulungssitzung mit einem geschichteten zehnfachen Lebenslauf implementiert. Als Ergebnis des Trainings erhielten wir eine Verteilung der Metriken für jede Falte vor und nach der Maskierung. Beim Vergleich des Verteilungsmittelwerts für jede Metrik (Abb. 4c) erzielte der Fall nach der Maskierung eine deutlich höhere Leistung als der Fall vor der Maskierung.

VBA hat nach der Umstellung auf eine kompetenzbasierte medizinische Ausbildung und Patientensicherheit große Aufmerksamkeit für die Bewertung chirurgischer Fähigkeiten auf sich gezogen. Es verspricht, die formative Beurteilung des Lernprozesses zu verbessern, indem es den Auszubildenden zeitnahes Feedback bietet und gleichzeitig erfahrenen Chirurgen die Möglichkeit gibt, über ihre Operationstechniken nachzudenken. Allerdings müssen VBA-Methoden skalierbar und verallgemeinerbar sein und ein hohes Maß an Korrelation mit aktuellen summativen Methoden in diesem Bereich aufweisen. Hier haben wir gezeigt, dass VBA-Net bei verschiedenen chirurgischen Eingriffen hervorragende und vertrauenswürdige Leistungen bietet. Die im vorherigen Abschnitt vorgestellten Leistungsmetriken unterstreichen die Wirksamkeit des VBA-Net bei der objektiven und automatisierten summativen Score-Vorhersage.

VBA-Net kann gut auf unsichtbare Daten verallgemeinern. Somit kann es einzelne Auszubildende bei der Vorbereitung auf anspruchsvolle Zertifizierungsprüfungen wie FLS unterstützen, indem es reproduzierbare Ergebnisse in Echtzeit liefert. Darüber hinaus lässt sich VBA-Net gut auf unbekannte Themen verallgemeinern. Daher kann es Aufsichtspersonen beim Zertifizierungsprozess unterstützen, da jeder Proband einmal eine Leistung erbringt und ein Endergebnis erhält. Darüber hinaus liefert das Modell eine solide binäre Klassifizierungsleistung, insbesondere im Hinblick auf die Spezifität, d. h. das Modell war robust bei der Erkennung falscher Zertifizierungen sowohl für unsichtbare Daten als auch für Probanden. Diese Feststellung ist wichtig, da menschliches Versagen eine der häufigsten Todesursachen im OP ist; Daher können schlechte klinische Ergebnisse39 und die Verhinderung falscher Zertifizierungen dies erheblich reduzieren. Zusammenfassend lässt sich sagen, dass diese Attribute erheblich zu einer robusteren Validitätsbeweisleistung beitragen können, d. h. zu einer Verbesserung der Patientenergebnisse.

Wir haben die Generalisierbarkeit des VBA-Net validiert, indem wir es mit den modernsten Modellen im JIGSAWS-Datensatz verglichen haben. Basierend auf dem LOUO CV verbesserte das VBA-Net die durchschnittlichen OSATS- und GRS-Score-Vorhersagen um 35,3 % bzw. 40,8 %. Darüber hinaus übertraf VBA-Net das nächstgelegene ML-Modell34 mit einer Marge von 12,9 % und das nächstgelegene DL-Modell7 beim Knotenbinden mit einer Marge von 47 % bei der Klassifizierung der Chirurgen. Dies zeigt, dass das VBA-Net auf andere Aufgaben als den PC verallgemeinern und OSATS-Ergebnisse neuer Probanden vorhersagen kann.

Darüber hinaus erreichte VBA-Net bei nicht sichtbaren Versuchen, die über LOSO gemessen wurden, den höchsten Spearman-Korrelationskoeffizienten bei der Vorhersage der OSATS- und GRS-Werte, was darauf hindeutet, dass VBA-net die Leistung bei nicht sichtbaren Versuchen besser vorhersagen kann, was die Überwachung der Auszubildenden unterstützt. Hier meldete das Modell eine vergleichsweise geringere Genauigkeit beim Knotenbinden für die Klassifizierungsanalyse. Wir können dies auf die Komplexität der Knotenknüpfaufgabe zurückführen, wie in der Literatur angegeben7,12. Außerdem beobachteten wir beim Vergleich von LOUO mit LOSO einen Rückgang der Klassifizierungs- und Regressionsleistungen, was darauf hindeutet, dass die Probanden ein klassenspezifisches bimanuelles motorisches Verhalten zeigten. Schließlich stellten wir fest, dass mehrere Studien7,9,10,12,34, darunter auch unsere, über perfekte Genauigkeit bei Naht- und Nadelführungsaufgaben mittels LOSO berichteten. Daher glauben wir, dass das Fachgebiet von neuen öffentlich verfügbaren chirurgischen Datensätzen profitieren kann.

Nun besprechen wir das formative Feedback. VBA-Net hat erfolgreich die Teile der Prozeduren hervorgehoben, die die Leistung in den Klassen „Bestanden“ und „Nicht bestanden“ trennten, wie in Abb. 4a, b dargestellt. Darüber hinaus zeigte die statistische Analyse eine signifikante Verbesserung der Leistung von VBA-Net, wenn CAM-Plots zur Maskierung der Eingabesequenzen verwendet wurden (Abb. 4c). Diese Ergebnisse zeigen, dass die CAMs gültig sind und heben die wesentlichen Teile der Sequenz in Bezug auf die Fähigkeitsklasse hervor. Daher können sie für informatives Feedback mit geringem Einsatz verwendet werden. Darüber hinaus können solche visuellen Karten die Aufmerksamkeit des Prüfers auf die einzelnen Teile der Videos lenken und so die Zeiteffektivität der Bewertung verbessern, dh sie können die Arbeitsbelastung und das Burnout verringern, eine wichtige Einschränkung von VBA. Darüber hinaus können diese validierten Karten zu einer objektiven und automatisierten Bearbeitung führen, um zeiteffiziente und verallgemeinerbare Rubriken mit geringem Einsatz für die chirurgische Ausbildung zu erstellen.

Dennoch weist unsere Studie mehrere Einschränkungen auf. Erstens sind Werkzeugbahnen die einzigen extrahierten Merkmale aus den Videos; Daher ist die Literatur zum Thema Tool-Tracking zwar gut etabliert, es bleibt jedoch unklar, ob es sich um den optimalen Funktionsumfang handelt. Zweitens ist unser Modell nicht durchgängig. Dies hat seine Stärke darin, entweder Videos oder Kinematiken als Eingaben zu verwenden, erhöht jedoch die Komplexität des Frameworks, die durch die Verwendung eines End-to-End-Modells reduziert werden könnte. Schließlich wollen wir diese Einschränkungen überwinden, indem wir durchgängige videobasierte DL-Pipelines für die Beurteilung chirurgischer Fähigkeiten entwickeln.

Wir haben eine hochmoderne DL-Pipeline – VBA-Net – entwickelt, die vertrauenswürdig ist und summative FLS-Scores und Fähigkeitsklassen anhand vollständiger chirurgischer Videos vorhersagen kann, während sie gleichzeitig statistisch verifiziertes formatives visuelles Feedback liefert. Wir glauben, dass das VBA-Net das Potenzial für eine objektive und Echtzeit-VBA chirurgischer Fertigkeiten in der chirurgischen Ausbildung, Zertifizierung und Zertifizierung hat.

Der in dieser Studie verwendete PC-Datensatz ist nicht öffentlich verfügbar. Die für diesen Datensatz verwendete FLS-Bewertung wird dem Center for Modeling, Simulation, & Imaging in Medicine (CeMSIM) nur im Rahmen einer Geheimhaltungsvereinbarung mit dem FLS-Komitee offengelegt. Der Benchmark-Datensatz JIGSAWS ist öffentlich verfügbar unter: https://cirl.lcsr.jhu.edu/research/hmm/datasets/jigsaws_release/.

Birkmeyer, JD et al. Zusammenfassung zu chirurgischen Fähigkeiten und Komplikationsraten nach bariatrischer Chirurgie. N. engl. J. Med. 369, 1434–1476 (2013).

Artikel CAS Google Scholar

McQueen, S., McKinnon, V., VanderBeek, L., McCarthy, C. & Sonnadara, R. Videobasierte Beurteilung in der chirurgischen Ausbildung: Eine Scoping-Überprüfung. J. Surg. Educ. 76, 1645–1654 (2019).

Artikel Google Scholar

Pugh, CM, Hashimoto, DA & Korndorffer, JR Das Was? Wie? Und wer? Videobasierte Beurteilung. Bin. J. Surg. 221, 13–18 (2021).

Artikel Google Scholar

Feldman, LS et al. Videobasiertes Beurteilungsprogramm (VBA) von SAGES: Eine Vision für lebenslanges Lernen für Chirurgen. Surg. Endosz. 34, 3285–3288 (2020).

Artikel Google Scholar

ABS erkundet videobasierte Beurteilung im Rahmen eines Pilotprogramms, das im Juni 2021 startet | Amerikanisches Gremium für Chirurgie. https://www.absurgery.org/default.jsp?news_vba04.21. Zugriff am 18. Februar 2022 (2022).

Yanik, E. et al. Tiefe neuronale Netze zur Beurteilung chirurgischer Fähigkeiten: Eine systematische Überprüfung. J. Def. Modell. Simul. https://doi.org/10.1177/15485129211034586 (2021).

Artikel Google Scholar

Funke, I., Mees, ST, Weitz, J. & Speidel, S. Videobasierte Bewertung chirurgischer Fähigkeiten mithilfe 3D-Faltungs-Neuronaler Netze. Int. J. Comput. Helfen. Radiol. Surg. 14, 1217–1225 (2019).

Artikel Google Scholar

Doughty, H., Damen, D. & Mayol-Cuevas, W. Wer ist besser, wer ist der Beste: Fähigkeitsbestimmung in Videos mithilfe von Deep Ranking. CoRR abs/1703.0. 6057–6066 (2017).

Ismail Fawaz, H., Forestier, G., Weber, J., Idoumghar, L. & Muller, PA Genaue und interpretierbare Bewertung chirurgischer Fähigkeiten anhand kinematischer Daten unter Verwendung vollständig faltender neuronaler Netze. Int. J. Comput. Helfen. Radiol. Surg. 14, 1611–1617 (2019).

Artikel Google Scholar

Castro, D., Pereira, D., Zanchettin, C., MacEdo, D. & Bezerra, BLD Auf dem Weg zur Optimierung neuronaler Faltungsnetze für die Bewertung der Fähigkeiten in der Roboterchirurgie. Proz. Int. Jt. Konf. Neuronales Netz. 2019, 1–8 (2019).

Google Scholar

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. & Torralba, A. Erlernen tiefer Merkmale für die diskriminierende Lokalisierung. Proz. IEEE Comput. Soc. Konf. Berechnen. Vis. Mustererkennung. 2016, 2921–2929 (2016).

Fawaz, HI, Forestier, G., Weber, J., Idoumghar, L. & Muller, P.-A. Bewertung chirurgischer Fähigkeiten anhand kinematischer Daten mithilfe von Faltungs-Neuronalen Netzen. MICCAI 2018. Vorlesungsunterlagen in Informatik. Bd. 1. (Springer, 2018).

Gao, Y. et al. JHU-ISI-Arbeitssatz zur Gesten- und Fähigkeitsbewertung (JIGSAWS): Ein chirurgischer Aktivitätsdatensatz für die Modellierung menschlicher Bewegungen. Modell. Überwachen. Berechnen. Helfen. Interv. MICCAI-Arbeit. 3, 1–10 (2014).

Fried, GM FLS-Kompetenzbewertung anhand simulierter laparoskopischer Aufgaben. J. Gastrointest. Surg. 12, 210–212 (2008).

Artikel Google Scholar

Fraser, SA et al. Bewertung der laparoskopischen Fähigkeiten, Festlegung der Pass/Fail-Bewertung für das MISTELS-System. Surg. Endosz. Anderes Interv. Technik. 17, 964–967 (2003).

Artikel CAS Google Scholar

Martin, JA et al. Objektive strukturierte Beurteilung der technischen Fähigkeiten (OSATS) für Assistenzärzte in der Chirurgie. Br. J. Surg. 84, 273–278 (1997).

CAS Google Scholar

Wang, Y. et al. Evaluierung von Schulungsvideos zur robotergestützten Chirurgie mit Faltungs-Neuronalen Multitask-Netzwerken. J. Roboter. Surg. https://doi.org/10.1007/s11701-021-01316-2 (2021).

Artikel Google Scholar

Lin, H. & Hager, G. Benutzerunabhängige Manipulationsmodelle mithilfe von Video. im M2CAI-Workshop (2009).

Lee, D. et al. Bewertung der chirurgischen Fähigkeiten während der Roboterchirurgie durch Deep-Learning-basierte Verfolgung mehrerer chirurgischer Instrumente in der Ausbildung und bei tatsächlichen Operationen. J. Clin. Med. 9, 1–15 (2020).

Google Scholar

Jin, A. et al. Werkzeugerkennung und Bewertung der operativen Fähigkeiten in chirurgischen Videos mithilfe regionalbasierter Faltungs-Neuronaler Netze. in Proceedings of the 2018 IEEE Winter Conference Applications Computer Vision, WACV 2018. 691–699 (2018).

Goldbraikh, A., D'Angelo, AL, Pugh, CM & Laufer, S. Videobasierte, vollautomatische Beurteilung der Nahtfähigkeiten bei offenen Operationen. Int. J. Comput. Helfen. Radiol. Surg. 17, 437–448 (2022).

Artikel Google Scholar

Lajko, G., Elek, RN & Haidegger, T. Endoskopische bildbasierte Fähigkeitsbewertung in der robotergestützten minimalinvasiven Chirurgie. Fuß-Knöchel-Spez. 14, 153–157 (2021).

Google Scholar

He, K., Gkioxari, G., Dollar, P. & Girshick, R. Mask R-CNN. In Proceedings of the IEEEInternational Conference on Computer Vision (ICCV) 2980–2988. https://doi.org/10.1109/ICCV.2017.322 (IEEE, 2017).

Anh, NX, Nataraja, RM & Chauhan, S. Auf dem Weg zur nahezu Echtzeitbewertung chirurgischer Fähigkeiten: Ein Vergleich von Techniken zur Merkmalsextraktion. Berechnen. Methodenprogramme Biomed. 187, 105234 (2020).

Artikel Google Scholar

Khalid, S., Goldenberg, M., Grantcharov, T., Taati, B. & Rudzicz, F. Evaluierung von Deep-Learning-Modellen zur Identifizierung chirurgischer Maßnahmen und Messung der Leistung. JAMA Netw. offen 3, e201664 (2020).

Artikel Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung Kaiming. Indian J. Chem.-Sect. B Org. Med. Chem. 45, 1951–1954 (2006).

Roy, AG, Navab, N. & Wachinger, C. Gleichzeitiger räumlicher und Kanal-„Squeeze & Excitation“ in vollständig Faltungsnetzwerken. in Vorlesungsunterlagen in Informatik (einschließlich der Unterreihen Vorlesungsunterlagen in Künstlicher Intelligenz und Vorlesungsunterlagen in Bioinformatik). Bd. 11070 LNCS (Springer, 2018).

Yu, F. & Koltun, V. Mehrskalige Kontextaggregation durch erweiterte Faltungen. in 4. International Conference on Learning Representation ICLR 2016 – Conference Track Proceedings (2016).

Lin, M., Chen, Q. & Yan, S. Netzwerk im Netzwerk. in 2nd International Conference on Learning Representation ICLR 2014 – Conference Track Proceedings. 1–10 (2014).

Lin, T.-Y. et al. Microsoft COCO: Gemeinsame Objekte im Kontext. Eccv. 740–755 (2014).

Dutta, A. & Zisserman, A. Die VIA-Annotationssoftware für Bilder, Audio und Video. in MM 2019 – Tagungsband der 27. ACM International Conference Multimedia. 2276–2279. https://doi.org/10.1145/3343031.3350535 (2019).

Ren, S., He, K. & Girshick, R. Schnelleres R-CNN: Auf dem Weg zur Echtzeit-Objekterkennung mit Regionsvorschlagsnetzwerken. 1–9 (2015).

Girshick, R. Fast R-CNN. in der IEEE International Conference on Computer Vision (ICCV 2015). 1440–1448. https://doi.org/10.1109/iccv.2015.169 (2015).

Zia, A. & Essa, I. Automatisierte Bewertung chirurgischer Fähigkeiten in der RMIS-Schulung. Int. J. Comput. Helfen. Radiol. Surg. 13, 731–739 (2018).

Artikel Google Scholar

Hryniowski, A., Wong, A. & Wang, XY Wo bricht Vertrauen zusammen? Eine quantitative Vertrauensanalyse tiefer neuronaler Netze mittels Vertrauensmatrix und bedingter Vertrauensdichten. J. Comput. Vis. Bildgebungssystem. 6, 1–5 (2021).

Artikel Google Scholar

Wong, A., Wang, XY & Hryniowski, A. Wie sehr können wir Ihnen wirklich vertrauen? Auf dem Weg zu einfachen, interpretierbaren Vertrauensquantifizierungsmetriken für tiefe neuronale Netze. 1–13 (2020).

Wong, A., Wang, XY & Hryniowski, A. Wie sehr können wir Ihnen wirklich vertrauen? Auf dem Weg zu einfachen, interpretierbaren Vertrauensquantifizierungsmetriken für tiefe neuronale Netze. arXiv 1-13 (2020).

Soleymani, A. et al. Bewertung der chirurgischen Fähigkeiten anhand von Aufzeichnungen robotergestützter Operationen. im Jahr 2021 Internationales Symposium Medizin Robotik ISMR 2021. 1–6. https://doi.org/10.1109/ISMR48346.2021.9661527 (2021).

James, JT Eine neue, evidenzbasierte Schätzung der Patientenschäden im Zusammenhang mit der Krankenhausversorgung. J. Patientensicherheit. 9, 122–128 (2013).

Artikel Google Scholar

Fard, MJ et al. Ansatz des maschinellen Lernens zur Kompetenzbewertung in der robotergestützten Chirurgie. Bd. I. (2016).

Nguyen, Berechnen. Methodenprogramme Biomed. 177, 1–8 (2019).

Artikel Google Scholar

Referenzen herunterladen

Die Autoren bedanken sich für die Unterstützung dieser Arbeit durch den Medical Technology Enterprise Consortium (MTEC) Award #W81XWH2090019 (2020-628) und die kooperative Forschungsvereinbarung #W911NF-17-2 des US Army Futures Command, Combat Capabilities Development Command Soldier Center STTC. 0022.

Abteilung für Maschinenbau, Luft- und Raumfahrttechnik und Nukleartechnik, Zentrum für Modellierung, Simulation und Bildgebung für die Medizin (CeMSIM), Rensselaer Polytechnic Institute, Troy, 12180, USA

Erim Yanik, Rahul Rahul und Suvranu De

Abteilung für Biomedizintechnik, Zentrum für Modellierung, Simulation und Bildgebung für die Medizin (CeMSIM), Rensselaer Polytechnic Institute, Troy, 12180, USA

Uwe Kruger & Xavier Intes

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

EY, XI und SD hatten die Idee. EY sammelte die Daten, kommentierte die Videos, entwickelte die Modellpipeline, führte die Statistik- und Datenanalyse durch und verfasste das Manuskript. Großbritannien war an den statistischen Analysen beteiligt. RR empfahl die Verwendung eines rauschunterdrückenden Autoencoders. UK, XI und SD waren für die Überwachung und Überarbeitung des intellektuellen Inhalts des Manuskripts verantwortlich. SD war für die Finanzierungseinwerbung verantwortlich.

Korrespondenz mit Suvranu De.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Yanik, E., Kruger, U., Intes, X. et al. Videobasierte formative und summative Beurteilung chirurgischer Aufgaben mittels Deep Learning. Sci Rep 13, 1038 (2023). https://doi.org/10.1038/s41598-022-26367-9

Zitat herunterladen

Eingegangen: 11. Mai 2022

Angenommen: 13. Dezember 2022

Veröffentlicht: 19. Januar 2023

DOI: https://doi.org/10.1038/s41598-022-26367-9

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.