Abstract:
Das Paradigma des End-to-End Lernens hat in den letzten Jahren die Bilderkennung revolutioniert, aber die klinische Anwendung hinkt hinterher. Bildbasierte computergestützte Diagnosesysteme basieren immer noch weitgehend auf hochtechnischen und domänen-spezifischen Pipelines, die aus unabhängigen regelbasierten Modellen bestehen, welche die Teilaufgaben der Bildklassifikation wiederspiegeln: Lokalisation von auffälligen Regionen, Merkmalsextraktion und Entscheidungsfindung. Das Versprechen einer überlegenen Entscheidungsfindung beim End-to-End Lernen ergibt sich daraus, dass domänenspezifische Zwangsbedingungen von begrenzter Komplexität entfernt werden und stattdessen alle Systemkomponenten gleichzeitig, direkt anhand der Rohdaten, und im Hinblick auf die letztendliche Aufgabe optimiert werden. ... mehrDie Gründe dafür, dass diese Vorteile noch nicht den Weg in die Klinik gefunden haben, d.h. die Herausforderungen, die sich bei der Entwicklung Deep Learning-basierter Diagnosesysteme stellen, sind vielfältig: Die Tatsache, dass die Generalisierungsfähigkeit von Lernalgorithmen davon abhängt, wie gut die verfügbaren Trainingsdaten die tatsächliche zugrundeliegende Datenverteilung abbilden, erweist sich in medizinische Anwendungen als tiefgreifendes Problem. Annotierte Datensätze in diesem Bereich sind notorisch klein, da für die Annotation eine kostspielige Beurteilung durch Experten erforderlich ist und die Zusammenlegung kleinerer Datensätze oft durch Datenschutzauflagen und Patientenrechte erschwert wird. Darüber hinaus weisen medizinische Datensätze drastisch unterschiedliche Eigenschaften im Bezug auf Bildmodalitäten, Bildgebungsprotokolle oder Anisotropien auf, und die oft mehrdeutige Evidenz in medizinischen Bildern kann sich auf inkonsistente oder fehlerhafte Trainingsannotationen übertragen. Während die Verschiebung von Datenverteilungen zwischen Forschungsumgebung und Realität zu einer verminderten Modellrobustheit führt und deshalb gegenwärtig als das Haupthindernis für die klinische Anwendung von Lernalgorithmen angesehen wird, wird dieser Graben oft noch durch Störfaktoren wie Hardwarelimitationen oder Granularität von gegebenen Annotation erweitert, die zu Diskrepanzen zwischen der modellierten Aufgabe und der zugrunde liegenden klinischen Fragestellung führen.
Diese Arbeit untersucht das Potenzial des End-to-End-Lernens in klinischen Diagnosesystemen und präsentiert Beiträge zu einigen der wichtigsten Herausforderungen, die derzeit eine breite klinische Anwendung verhindern.
Zunächst wird der letzten Teil der Klassifikations-Pipeline untersucht, die Kategorisierung in klinische Pathologien. Wir demonstrieren, wie das Ersetzen des gegenwärtigen klinischen Standards regelbasierter Entscheidungen durch eine groß angelegte Merkmalsextraktion gefolgt von lernbasierten Klassifikatoren die Brustkrebsklassifikation im MRT signifikant verbessert und eine Leistung auf menschlichem Level erzielt. Dieser Ansatz wird weiter anhand von kardiologischer Diagnose gezeigt. Zweitens ersetzen wir, dem Paradigma des End-to-End Lernens folgend, das biophysikalische Modell, das für die Bildnormalisierung in der MRT angewandt wird, sowie die Extraktion handgefertigter Merkmale, durch eine designierte CNN-Architektur und liefern eine eingehende Analyse, die das verborgene Potenzial der gelernten Bildnormalisierung und einen Komplementärwert der gelernten Merkmale gegenüber den handgefertigten Merkmalen aufdeckt. Während dieser Ansatz auf markierten Regionen arbeitet und daher auf manuelle Annotation angewiesen ist, beziehen wir im dritten Teil die Aufgabe der Lokalisierung dieser Regionen in den Lernprozess ein, um eine echte End-to-End-Diagnose baserend auf den Rohbildern zu ermöglichen. Dabei identifizieren wir eine weitgehend vernachlässigte Zwangslage zwischen dem Streben nach der Auswertung von Modellen auf klinisch relevanten Skalen auf der einen Seite, und der Optimierung für effizientes Training unter Datenknappheit auf der anderen Seite. Wir präsentieren ein Deep Learning Modell, das zur Auflösung dieses Kompromisses beiträgt, liefern umfangreiche Experimente auf drei medizinischen Datensätzen sowie eine Serie von Toy-Experimenten, die das Verhalten bei begrenzten Trainingsdaten im Detail untersuchen, und publiziren ein umfassendes Framework, das unter anderem die ersten 3D-Implementierungen gängiger Objekterkennungsmodelle umfasst.
Wir identifizieren weitere Hebelpunkte in bestehenden End-to-End-Lernsystemen, bei denen Domänenwissen als Zwangsbedingung dienen kann, um die Robustheit von Modellen in der medizinischen Bildanalyse zu erhöhen, die letztendlich dazu beitragen sollen, den Weg für die Anwendung in der klinischen Praxis zu ebnen. Zu diesem Zweck gehen wir die Herausforderung fehlerhafter Trainingsannotationen an, indem wir die Klassifizierungskompnente in der End-to-End-Objekterkennung durch Regression ersetzen, was es ermöglicht, Modelle direkt auf der kontinuierlichen Skala der zugrunde liegenden pathologischen Prozesse zu trainieren und so die Robustheit der Modelle gegenüber fehlerhaften Trainingsannotationen zu erhöhen. Weiter adressieren wir die Herausforderung der Input-Heterogenitäten, mit denen trainierte Modelle konfrontiert sind, wenn sie an verschiedenen klinischen Orten eingesetzt werden, indem wir eine modellbasierte Domänenanpassung vorschlagen, die es ermöglicht, die ursprüngliche Trainingsdomäne aus veränderten Inputs wiederherzustellen und damit eine robuste Generalisierung zu gewährleisten. Schließlich befassen wir uns mit dem höchst unsystematischen, aufwendigen und subjektiven Trial-and-Error-Prozess zum Finden von robusten Hyperparametern für einen gegebene Aufgabe, indem wir Domänenwissen in ein Set systematischer Regeln überführen, die eine automatisierte und robuste Konfiguration von Deep Learning Modellen auf einer Vielzahl von medizinischen Datensetzen ermöglichen.
Zusammenfassend zeigt die hier vorgestellte Arbeit das enorme Potenzial von End-to-End Lernalgorithmen im Vergleich zum klinischen Standard mehrteiliger und hochtechnisierter Diagnose-Pipelines auf, und präsentiert Lösungsansätze zu einigen der wichtigsten Herausforderungen für eine breite Anwendung unter realen Bedienungen wie Datenknappheit, Diskrepanz zwischen der vom Modell behandelten Aufgabe und der zugrunde liegenden klinischen Fragestellung, Mehrdeutigkeiten in Trainingsannotationen, oder Verschiebung von Datendomänen zwischen klinischen Standorten. Diese Beiträge können als Teil des übergreifende Zieles der Automatisierung von medizinischer Bildklassifikation gesehen werden - ein integraler Bestandteil des Wandels, der erforderlich ist, um die Zukunft des Gesundheitswesens zu gestalten.
Abstract (englisch):
The paradigm of end-to-end learning has revolutionized computer vision in recent years, but clinical application is lagging behind. Image-based computer aided diagnosis systems are still largely based on highly engineered and domain specific pipelines, which consist of independent rule-based models reflecting the subtasks of image classification: Localization of discriminative regions, feature extraction, and decision making. The promise of superior decision making in end-to-end learning derives from removing domain specific prior constraints of limited complexity and instead optimizing all system components simultaneously, directly based on the raw data and with respect to the ultimate task at hand. ... mehrThe reasons for why these advantages have not found their way into clinics yet, i.e. the challenges faced when developing deep learning based diagnosis systems, are manifold: The fact that the generalization ability of learning algorithms scales with how well available training data represents the true underlying data distribution does not play well for medical applications. Annotated datasets in this domain are notoriously small, since labeling involves costly delineation by experts and concatenation of datasets is often hampered by privacy issues and patient rights. Moreover, medical datasets exhibit drastically varying properties with respect to image modalities, acquisition protocols, or anisotropies and the often ambiguous evidence in medical images may propagate to inconsistent or erroneous training annotations. While the data shift between research environment and real life results in diminished model robustness and is thus considered the key obstacle towards clinical translation, this gap is often amplified by nuisance factors such as hardware constraints or granularity of available annotations, which might lead to discrepancies between the modeled task and the underlying clinical question.
This thesis studies the potential of end-to-end learning in clinical diagnosis systems and presents contributions towards some of the key challenges that currently prevent widespread clinical application.
First we attend to the last part of the classification pipeline, the categorization into clinical pathologies. We demonstrate how replacing the current clinical standard of rule-based decision making by large scale feature extraction followed by machine learning-based classification significantly improves breast cancer classification on MRI and accomplishes human-level performance. This approach is further showcased on cardiac diagnosis achieving the second rank in an international competition. Second, following the paradigm of end-to-end learning, we substitute the biophysical model applied for image normalization in MRI as well as the extraction of handcrafted features with a dedicated CNN architecture and provide an in-depth analysis revealing hidden potential in learned image normalization and a complementary value of learned representations over handcrafted features. While this approach operates on regions of interest and hence relies on manual annotation, in the third part, we include the task of localizing those regions into the learning process to enable true end-to-end diagnosis starting at the raw images. We identify a largely neglected predicament between the strive for evaluating models at clinically relevant scales on one side, and optimizing for efficient training under the burden of data scarcity on the other side. We propose a deep learning model that helps to resolve this trade-off, provide extensive experiments on three medical datasets as well as a series of toy experiments that examines the behavior under limited training data in detail, and open source a comprehensive framework including the first 3D implementations of prevalent object detection models. We identify further leverage points in existing end-to-end learning systems, where domain knowledge can serve as an inductive bias to increase the robustness of deep learning models in medical image classification aiming to pave the way for application in clinical practice. To this end, we address the challenge of erroneous training annotations by substituting the classification component of end-to-end object detection for regression, which enables to train models directly on the continuous scale of underlying pathological processes, thus elevating the models' robustness against rater confusions. Further, we address the challenge of input heterogeneities faced by trained models when deployed across clinical sites by proposing model-based domain adaptation, which enables to recapture the original training domain given altered inputs and thus restores robust generalization. Finally, we address the highly unsystematic, elaborate and subjective trial-and-error process of finding a robust set of hyperparameters for a given task by condensing domain knowledge into a set of key design choices and systematic rules enabling automated and robust deep learning pipeline configuration on a large variety of medical datasets.
To conclude, the work presented here demonstrates the vast potential of end-to-end learning algorithms compared to the clinical standard of compound engineered diagnosis pipelines and presents solutions towards some of the key challenges preventing real life application such as data scarcity, discrepancy between addressed task and underlying clinical question, ambiguity in training annotations, or domain shifts across clinical sites. These contributions tie in to the overarching goal of automating medical image classification - an integral factor of the transformation required to shape the future of health care.