Abstract:
Automatisierte medizinische Berichterstellung auf der Grundlage von Deep Learning hat das Potenzial, die Arbeitsbedingungen in der Radiologie weltweit erheblich zu verbessern. Ein wesentliches Hindernis für die Entwicklung solcher Systeme ist jedoch die Notwendigkeit einer ausreichenden Anzahl von Trainingsdaten für die explizite Modellierung sichtbarer pathologischer und anatomischer Strukturen, die eine sinnvolle Verarbeitung in nachfolgenden klinischen Schritten ermöglicht.
Da das Sammeln solcher feinen Annotationen schwierig und zeitaufwändig ist, unter Anderem durch den Mangel an medizinische Experten, entwickeln wir Methoden, die in Szenarien mit geringer Überwachung agieren können, um die genaue Lokalisierung der menschlichen Anatomie und Pathologie in Thoraxröntgenbildern, dem weltweit am häufigsten verwendeten bildgebenden Verfahren, zu ermöglichen. ... mehrKonkret untersuchen wir drei Szenarien mit wenigen Daten, um eine Basis von Werkzeugen für den Einsatz von medizinischen Berichterstattungsmethoden zu schaffen.
Zunächst betrachten wir die verfügbaren Daten, Bilder und zugehörigen medizinischen Berichte. Da es sich bei medizinischen Berichten um unstrukturierte Daten handelt, werden diese typischerweise in wenig dimensionale binäre Vektoren zerlegt, die das Vorhandensein von bestimmten Pathologien beschreiben. Diese werden genutzt um Modelle zur Krankheitserkennung zu trainieren.
Da jedoch eine ordnungsgemäße Berichterstattung nicht nur das Erkennen einer Anomalie, sondern deren Position erfordert, entwickeln wir Methoden, die aus medizinischen Berichten in einer geparsten oder Freitextform lernen können, um Pathologien nicht nur genau zu erkennen, sondern auch zu lokalisieren. Indem wir uns von den geparsten Berichten lösen, können wir außerdem Rauschen bei der Labelextraktion vermeiden und es Ärzten ermöglichen, beliebig nach Befunden von Interesse suchen zu lassen, was zu einer erleichterten Integration von Deep Learning Modellen in strukturierte Befundungsmethoden führen kann.
Die Identifizierung von visuell anomalen Mustern ist für medizinische Berichte zwar unerlässlich, aber erst die Kombination mit anatomischen Strukturen ermöglicht es dem Arzt, alles in die richtige Perspektive zu rücken und Strategien für die Behandlung eines Patienten zu entwickeln. Da alle anatomischen Strukturen in der Regel immer bei einem Patienten vorkommen, lassen sie sich kaum durch Strategien erlernen, die beim schwach überwachten Lernen üblich sind. Daher müssen wir auf eine Form der manuellen Annotation zurückgreifen. Um die Last der Annotation zu verringern, untersuchen wir im nächsten Schritt Szenarien, in denen wir einige wenige manuell gelabelte Bilder haben, aber wesentlich mehr Daten unannotiert lassen, nämlich das semi-überwachte Lernen. Wir stellen fest, dass in Szenarien mit sich überschneidenden Beschriftungsstrukturen gängige semi-überwachte Ansätze scheitern, insbesondere dann, wenn fast keine annotierten Daten vorhanden sind. Aus diesem Grund haben wir ein referenzgeleitetes Pseudo-Labeling-Schema entwickelt, das es uns ermöglicht, das gemeinsame Auftreten bestehender Klassen in nicht beschrifteten Daten zu nutzen. Dadurch ereichen wir es die Schwachstellen anderer semi-überwachte Methoden für die Segmentierung von anatomischen Strukturen in Thoraxröntgenbildern zu umgehen.
Obwohl unser Ansatz ein immenses Potenzial aufweist, benötigen wir immer noch manuelle Annotationen in einem Umfang, der für den Menschen nicht sammelbar ist. Um diese Hürde zu überwinden, schauen wir uns andere medizinische Bereiche an. Aufgrund ihrer gemeinsamen Strahlungsart sehen sowohl Computertomografien als auch Röntgenbilder ähnlich aus, wenn sie auf eine zweidimensionale Ebene projiziert werden. Diesem Gedankengang folgend, fassen wir alle verfügbaren anatomischen Annotationen für Computertomografiebilder zusammen und
entwickeln den PAX-Ray(++)-Datensatz, indem wir die Volumina mit ihren Beschriftungen auf eine 2D-Ebene zurückprojizieren. Dieser Datensatz ermöglicht die allererste feingranulare Segmentierung der menschlichen Anatomie in Röntgenbildern des Brustkorbs, die wir durch menschliche Annotation und Downstreamtasks validieren.
Diese Arbeit hat eine wichtige Grundlage für die automatisierte Erstellung medizinischer Berichte geschaffen, da wir Methoden für die offene Erkennung pathologischer und anatomischer Strukturen bereitgestellt und die medizinische Bildanalyse durch die Identifizierung neuer Aufgaben und die Entwicklung von Algorithmen und Datensätzen vorangetrieben haben. Die Ergebnisse unserer Experimente sind sehr vielversprechend für die Anwendung solcher Algorithmen in der Praxis.
Abstract (englisch):
Automated medical report generation with the basis of deep learning has the potential to be a technology that can severely improve working conditions in radiology departments all over the world. However, a significant hindrance to the development of such systems is the requirement of enough training data for the explicit modeling of visible pathological and anatomical structures that allows for meaningful processing in subsequent clinical steps. As gathering such densely structured data is difficult and time-consuming primarily due to the need for medical experts during annotation, we develop methods that can leverage low supervision scenarios to enable the accurate localization of human anatomy and pathology in chest radiographs, the most common imaging procedure worldwide. ... mehrSpecifically, we investigate three low-data scenarios in order to provide a basis of tools for the use of medical reporting methods.
First, we look at the plain available data, images, and associated medical reports. As medical reports are typically unstructured data, these tend to be parsed to essential few-dimensional binary vectors indicating the presence and absence of a pathology. These are utilized to train models for the recognition of diseases. However, as proper reporting requires not just recognizing an anomaly but its position, we develop methods that can learn from medical reports in a parsed or free-text manner to not only accurately recognize but also localize pathologies. Furthermore, by breaking free from the parsed report, we can avoid label noise and enable practitioners to query at will for findings of interest, leading towards simplified integration of deep learning models into personalized structured reporting.
While identifying visually anomalous patterns is essential for medical reports, only the combination with anatomical structures lets a doctor put everything into perspective to develop strategies to treat a patient. Because all anatomical structures tend to always occur in a patient, they are hardly learnable through strategies commonly employed in weakly supervised learning. As such, we have to rely on some form of manual annotation. To lessen the burden of annotation, we, in the next step, investigate scenarios in which we have a few manually annotated images while leaving significantly more data unlabeled, namely semi-supervised learning. We notice that in scenarios with overlapping label structures, commonly used semi-supervised approaches tend to fail, especially when moving towards having nearly no annotated data. As such, we developed a reference-guided pseudo-labeling scheme that allows us to utilize the co-occurrence of existing classes in unlabeled data. As a result, we manage to surpass existing semi-supervised methods for anatomy segmentation of chest radiographs. While our approach shows immense potential, it still requires manual annotations at a scale that is not humanly possible to perform usable anatomical segmentation. To overcome this hurdle, we look at other medical domains. Due to their shared radiation type, both computer tomographies and X-ray images look similar when projected onto a two-dimensional plane. Following this train of thought, we aggregate any available anatomical annotation for computer tomography images and, by projecting the volumes with their annotations back to 2D, develop the PAX-Ray(++) dataset. This dataset enables the first-ever fine-grained segmentation of human anatomy in chest radiographs, which we validate via human annotation and downstream tasks. This thesis has built a vital basis for automated medical report generation as we provided methods for the open recognition of pathological and anatomical structures and has advanced
medical image analysis by identifying novel tasks and developing algorithms and datasets. Our experiment results show great promise for real-life applications of such algorithms.