Abstract:
Medizinische Bilder können schwer zu interpretieren sein. Nicht nur weil das Erkennen von Strukturen und möglichen Veränderungen Erfahrung und jahrelanges Training bedarf, sondern auch weil die dargestellten Messungen oft im Kern mehrdeutig sind. Fundamental ist dies eine Konsequenz dessen, dass medizinische Bild-Modalitäten, wie bespielsweise MRT oder CT, nur indirekte Messungen der zu Grunde liegenden molekularen Identitäten bereithalten. Die semantische Bedeutung eines Bildes kann deshalb im Allgemeinen nur gegeben einem größeren Bild-Kontext erfasst werden, welcher es oft allerdings nur unzureichend erlaubt eine eindeutige Interpretation in Form einer einzelnen Hypothese vorzunehmen.
... mehr
Ähnliche Szenarien existieren in natürlichen Bildern, in welchen die Kontextinformation, die es braucht um Mehrdeutigkeiten aufzulösen, limitiert sein kann, beispielsweise aufgrund von Verdeckungen oder Rauschen in der Aufnahme. Zusätzlich können überlappende oder vage Klassen-Definitionen zu schlecht gestellten oder diversen Lösungsräumen führen. Die Präsenz solcher Mehrdeutigkeiten kann auch das Training und die Leistung von maschinellen Lernverfahren beeinträchtigen. Darüber hinaus sind aktuelle Modelle ueberwiegend unfähig komplex strukturierte und diverse Vorhersagen bereitzustellen und stattdessen dazu gezwungen sich auf sub-optimale, einzelne Lösungen oder ununterscheidbare Mixturen zu beschränken.
Dies kann besonders problematisch sein wenn Klassifikationsverfahren zu pixel-weisen Vorhersagen wie in der semantischen Segmentierung skaliert werden. Die semantische Segmentierung befasst sich damit jedem Pixel in einem Bild eine Klassen-Kategorie zuzuweisen. Diese Art des detailierten Bild-Verständnisses spielt auch eine wichtige Rolle in der Diagnose und der Behandlung von Krankheiten wie Krebs: Tumore werden häufig in MRT oder CT Bildern entdeckt und deren präzise Lokalisierung und Segmentierung ist von grosser Bedeutung in deren Bewertung, der Vorbereitung möglicher Biopsien oder der Planung von Fokal-Therapien. Diese klinischen Bildverarbeitungen, aber auch die optische Wahrnehmung unserer Umgebung im Rahmen von täglichen Aufgaben wie dem Autofahren, werden momentan von Menschen durchgeführt. Als Teil des zunehmenden Einbindens von maschinellen Lernverfahren in unsere Entscheidungsfindungsprozesse, ist es wichtig diese Aufgaben adequat zu modellieren. Dies schliesst Unsicherheitsabschätzungen der Modellvorhersagen mit ein, mitunter solche Unsicherheiten die den Bild-Mehrdeutigkeiten zugeschrieben werden können.
Die vorliegende Thesis schlägt mehrere Art und Weisen vor mit denen mit einer mehrdeutigen Bild-Evidenz umgegangen werden kann. Zunächst untersuchen wir den momentanen klinischen Standard der im Falle von Prostata Läsionen darin besteht, die MRT-sichtbaren Läsionen subjektiv auf ihre Aggressivität hin zu bewerten, was mit einer hohen Variabilität zwischen Bewertern einhergeht. Unseren Studien zufolge können bereits einfache machinelle Lernverfahren und sogar simple quantitative MRT-basierte Parameter besser abschneiden als ein individueller, subjektiver Experte, was ein vielversprechendes Potential der Quantifizerung des Prozesses nahelegt.
Desweiteren stellen wir die derzeit erfolgreichste Segmentierungsarchitektur auf einem stark mehrdeutigen Datensatz zur Probe der während klinischer Routine erhoben und annotiert wurde. Unsere Experimente zeigen, dass die standard Segmentierungsverlustfuntion in Szenarien mit starkem Annotationsrauschen sub-optimal sein kann. Als eine Alternative erproben wir die Möglichkeit ein Modell der Verlustunktion zu lernen mit dem Ziel die Koexistenz von plausiblen Lösungen während des Trainings zuzulassen. Wir beobachten gesteigerte Performanz unter Verwendung dieser Trainingsmethode für ansonsten unveränderte neuronale Netzarchitekturen und finden weiter gesteigerte relative Verbesserungen im Limit weniger Daten. Mangel an Daten und Annotationen, hohe Maße an Bild- und Annotationsrauschen sowie mehrdeutige Bild-Evidenz finden sich besonders häufig in Datensätzen medizinischer Bilder wieder. Dieser Teil der Thesis exponiert daher einige der Schwächen die standard Techniken des maschinellen Lernens im Lichte dieser Besonderheiten aufweisen können.
Derzeitige Segmentierungsmodelle, wie die zuvor Herangezogenen, sind dahingehend eingeschränkt, dass sie nur eine einzige Vorhersage abgeben können. Dies kontrastiert die Beobachtung dass eine Gruppe von Annotierern, gegeben mehrdeutiger Bilddaten, typischer Weise eine Menge an diverser aber plausibler Annotationen produziert. Um die vorgenannte Modell-Einschränkung zu beheben und die angemessen probabilistische Behandlung der Aufgabe zu ermöglichen, entwickeln wir zwei Modelle, die eine Verteilung über plausible Annotationen vorhersagen statt nur einer einzigen, deterministischen Annotation. Das erste der beiden Modelle kombiniert ein `encoder-decoder' Modell mit dem Verfahren der `variational inference' und verwendet einen globalen `latent vector', der den Raum der möglichen Annotationen für ein gegebenes Bild kodiert. Wir zeigen, dass dieses Modell deutlich besser als die Referenzmethoden abschneidet und gut kalibrierte Unsicherheiten aufweist. Das zweite Modell verbessert diesen Ansatz indem es eine flexiblere und hierarchische Formulierung verwendet, die es erlaubt die Variabilität der Segmentierungen auf verschiedenden Skalen zu erfassen. Dies erhöht die Granularität der Segmentierungsdetails die das Modell produzieren kann und erlaubt es unabhängig variierende Bildregionen und Skalen zu modellieren. Beide dieser neuartigen generativen Segmentierungs-Modelle ermöglichen es, falls angebracht, diverse und kohärente Bild Segmentierungen zu erstellen, was im Kontrast zu früheren Arbeiten steht, welche entweder deterministisch sind, die Modellunsicherheiten auf der Pixelebene modellieren oder darunter leiden eine unangemessen geringe Diversität abzubilden.
Im Ergebnis befasst sich die vorliegende Thesis mit der Anwendung von maschinellem Lernen für die Interpretation medizinischer Bilder: Wir zeigen die Möglichkeit auf den klinischen Standard mit Hilfe einer quantitativen Verwendung von Bildparametern, die momentan nur subjektiv in Diagnosen einfliessen, zu verbessern, wir zeigen den möglichen Nutzen eines neuen Trainingsverfahrens um die scheinbare Verletzlichkeit der standard Segmentierungsverlustfunktion gegenüber starkem Annotationsrauschen abzumildern und wir schlagen zwei neue probabilistische Segmentierungsmodelle vor, die die Verteilung über angemessene Annotationen akkurat erlernen können. Diese Beiträge können als Schritte hin zu einer quantitativeren, verstärkt Prinzipien-gestützten und unsicherheitsbewussten Analyse von medizinischen Bildern gesehen werden -ein wichtiges Ziel mit Blick auf die fortschreitende Integration von lernbasierten Systemen in klinischen Arbeitsabläufen.
Abstract (englisch):
Medical images can be difficult to interpret. Not only because spotting structures and potential changes therein requires experience and years of training, but also because the presented measurements are often ambiguous at heart. This is fundamentally a consequence of the fact that medical image modalities such as MRI or CT only provide indirect measurements of the underlying molecular identities. The semantics of an image therefore generally have to be inferred from the provided larger context, which is often insufficient to pin down the interpretation to a singular, unique hypothesis.
... mehr
Similar scenarios exist in natural images, where the contextual information required to resolve potential ambiguities can be limited, for example due to occlusions or measurement noise. Additionally, overlapping and vague class definitions may contribute to an ill-defined or diverse solution space. The presence of such image ambiguity can hamper the training and the performance of machine learning models. Moreover, current models are mostly unable to capture complex-structured diverse outputs and instead are forced to retreat to sub-optimal singular solutions or indiscernible mixtures.
This can be particularly problematic when scaling classifiers to dense prediction tasks such as semantic segmentation. Semantic segmentation is concerned with predicting a class label for every pixel in an image. This type of detailed image interpretation also plays an important role in diagnosing and treating diseases such as cancer: Tumors are often detected from MRI or CT scans and their precise location and delineation are crucial steps in grading them, preparing potential biopsies or planning focal therapy. This clinical interpretation of images, but also the perception of our surroundings in everyday tasks such as driving, are currently performed by humans. As we move towards incorporating learning based systems in our decision making processes, it is of course vital to adequately model the tasks at hand. This involves capturing the uncertainties that exist in the models' predictions, including such that can be attributed to image ambiguities.
This thesis proposes various ways in which to deal with ambiguous image evidence. First we examine the current clinical standard of subjectively grading prostate lesions visible on MRI, that is associated with high inter-rater variability due to the ambivalent MRI appearance of lesions. We find simple machine learning models and even just quantifying certain MRI parameters to perform better than an individual subjective expert, suggesting a promising potential to improve grading by quantifying the process.
Second, we probe the currently most successful segmentation architecture on a strongly ambiguous dataset that was collected and annotated during clinical routine. Our experiments show that the standard segmentation loss function may be sub-optimal when applied in scenarios with heavy label noise. As an alternative we learn a model of the loss with the aim of allowing for the co-existence of plausible segmentation predictions during training. We observe performance improvements when employing this training scheme to the otherwise identical deep neural network and find even more pronounced relative gains in the small data limit. Lack of data and labels, high levels of imaging and label noise and ambiguous image evidence are particularly common on medical image datasets. This part of the thesis thus exposes some of the vulnerabilities that standard machine learning techniques may face in the light of these particularities.
Current segmentation models such as the ones considered above are constrained to produce a singular prediction. This contrasts the observation that a group of graders typically produces a set of diverse but plausible annotations when given ambiguous image data. In order to lift this model constraint and allow for the appropriate probabilistic treatment of the task, we go on to develop two models that predict a distribution over plausible annotations rather than predicting just a singular deterministic one. The first of the two models combines an encoder-decoder model with the framework of variational inference and employs a global latent vector that encodes the space of possible annotations for a given image. We show that this model improves upon the performance of the considered baselines and yields well calibrated uncertainties. The second model refines the formulation of the first in that it introduces a more flexible and hierarchical latent space decomposition that allows to capture segmentation variability at different image scales. This increases the granularity of segmentation detail that the model can produce and allows to model independently varying locations and scales, which we show on the task of segmenting individual object instances. Both of these novel generative segmentation models allow to sample diverse and coherent image segmentations if admissible, which contrasts with prior work that is either deterministic, models uncertainty at the pixel level or suffers from an under-complex modelling of the appropriate diversity.
In conclusion, this thesis is concerned with machine learning applications for the interpretation of medical images: We expose the possibility to increase the standard of care in clinical practice by a quantitative use of image markers which are currently subjectively factored into diagnoses, we show the potential utility of a new training scheme to remedy the apparent susceptibility of the standard segmentation loss formulation to strong label noise and we propose two novel probabilistic segmentation models that are able to accurately capture the distribution over admissible labels given an image. These contributions can be seen as steps towards a more quantitative, principled and uncertainty-aware analysis of medical images -an important quest as learning based systems will find increasing integration into clinical workflows.