Abstract:
Neuronale Netze haben in den letzten Jahren erstaunliche Ergebnisse bei der Erkennung von Ereignissen im Bereich der medizinischen Bild- und Videoanalyse erzielt. Dabei stellte sich jedoch immer wieder heraus, dass ein genereller Mangel an Daten besteht. Dieser Mangel bezieht sich nicht nur auf die Anzahl an verfügbaren Datensätzen, sondern auch auf die Anzahl an individuellen Stichproben, das heißt an unabhängigen Bildern und Videos, in bestehenden Datensätzen. Das führt wiederum zu einer schlechteren Erkennungsgenauigkeit von Ereignissen durch das neuronale Netz. Gerade im medizinischen Bereich ist es nicht einfach möglich die Datensätze zu erweitern oder neue Datensätze zu erfassen. ... mehrDie Gründe hierfür sind vielfältig. Einerseits können rechtliche Belange die Datenveröffentlichung verhindern. Andererseits kann es sein, dass eine Krankheit nur sehr selten Auftritt und sich so keine Gelegenheit bietet die Daten zu erfassen. Ein zusätzliches Problem ist, dass es sich bei den Daten meist um eine sehr spezifische Domäne handelt, wodurch die Daten meist nur von Experten annotiert werden können. Die Annotation ist aber zeitaufwendig und somit teuer. Existierende Datenaugmentierungsmethoden können oft nur sinnvoll auf Bilddaten angewendet werden und erzeugen z.B. bei Videos nicht ausreichend zeitlich unabhängige Daten. Deswegen ist es notwendig, dass neue Methoden entwickelt werden, mit denen im Nachhinein auch Videodatensätze erweitert oder auch synthetische Daten generiert werden können.
Im Rahmen dieser Dissertation werden zwei neu entwickelte Methoden vorgestellt und beispielhaft auf drei medizinische Beispiele aus dem Bereich der Chirurgie angewendet. Die erste Methode ist die sogenannte Workflow-Augmentierungsmethode, mit deren Hilfe semantischen Information, z.B. Ereignissen eines chirurgischen Arbeitsablaufs, in einem Video augmentiert werden können. Die Methode ermöglicht zusätzlich auch eine Balancierung zum Beispiel von chirurgischen Phasen oder chirurgischen Instrumenten, die im Videodatensatz vorkommen. Bei der Anwendung der Methode auf die zwei verschiedenen Datensätzen, von Kataraktoperationen und laparoskopischen Cholezystektomieoperationen, konnte die Leistungsfähigkeit der Methode gezeigt werden. Dabei wurde Genauigkeit der Instrumentenerkennung bei der Kataraktoperation durch ein Neuronales Netz während Kataraktoperation um 2,8% auf 93,5% im Vergleich zu etablierten Methoden gesteigert. Bei der chirurgischen Phasenerkennung im Fall bei der Cholezystektomie konnte sogar eine Steigerung der Genauigkeit um 8,7% auf 96,96% im Verglich zu einer früheren Studie erreicht werden. Beide Studien zeigen eindrucksvoll das Potential der Workflow-Augmentierungsmethode.
Die zweite vorgestellte Methode basiert auf einem erzeugenden gegnerischen Netzwerk (engl. generative adversarial network (GAN)). Dieser Ansatz ist sehr vielversprechend, wenn nur sehr wenige Daten oder Datensätze vorhanden sind. Dabei werden mit Hilfe eines neuronalen Netzes neue fotorealistische Bilder generiert. Im Rahmen dieser Dissertation wird ein sogenanntes zyklisches erzeugendes gegnerisches Netzwerk (engl. cycle generative adversarial network (CycleGAN)) verwendet. CycleGANs führen meiste eine Bild zu Bild Transformation durch. Zusätzlich ist es möglich weitere Bedingungen an die Transformation zu knüpfen. Das CycleGAN wurde im dritten Beispiel dazu verwendet, ein Passbild von einem Patienten nach einem Kranio-Maxillofazialen chirurgischen Korrektur, mit Hilfe eines präoperativen Porträtfotos und der operativen 3D Planungsmaske, zu schätzen. Dabei konnten realistisch, lebendig aussehende Bilder generiert werden, ohne dass für das Training des GANs medizinische Daten verwendeten wurden. Stattdessen wurden für das Training synthetisch erzeugte Daten verwendet.
Abschließend lässt sich sagen, dass die in dieser Arbeit entwickelten Methoden in der Lage sind, den Mangel an Stichproben und Datensätzen teilweise zu überwinden und dadurch eine bessere Erkennungsleistung von neuronalen Netzen erreicht werden konnte.
Die entwickelten Methoden können in Zukunft dazu verwendet werden, bessere medizinische Unterstützungssysteme basierende auf künstlicher Intelligenz zu entwerfen, die den Arzt in der klinischen Routine weiter unterstützen, z.B. bei der Diagnose, der Therapie oder bei bildgesteuerten Eingriffen, was zu einer Verringerung der klinischen Arbeitsbelastung und damit zu einer Verbesserung der Patientensicherheit führt.
Abstract (englisch):
In recent years, neural networks (NNs) have achieved remarkable results in event recognition in medical image and video analysis. One of the main limitations of machine learning approaches is the lack of available annotated training data. This lack refers to the number of available datasets and the number of image and video variations in existing datasets. Especially in the medical field, it is hard to extend the number of datasets. The reasons for this are various. For example, legal issues may prevent the publication of the data, or the occurrence of a disease is very rare, making it hard to record it. ... mehrMoreover, experts must annotate medical data in a time-consuming process and therefore it is expensive. Existing image data augmentation methods are often applied to the video domain. However, these methods are not created sufficiently independent video samples from a dataset. Therefore, it is necessary to develop methods to extend the video dataset retrospectively or generate new synthetic data.
In this thesis, two novel methods are introduced, explained and evaluated by applying them to three medical applications in the field of surgery. First, the workflow augmentation method is introduced, which uses semantic information, e.g., events of a surgical workflow, to augment video data in the temporal domain. The workflow augmentation allows the creation of independent videos from an existing dataset. The proposed method is highly flexible and allows, furthermore, to balance the surgical phases or surgical instruments in a dataset. By applying the method on exemplary medical datasets in cataract surgery, and in laparoscopic cholecystectomy surgery, the method’s performance is verified. For instrument recognition, in the example of the cataract surgery, an increase in accuracy (ACC) of 2.8% to 93.5% could be achieved compared to established methods. For phase recognition, in the cholecystectomy surgery example, an increase in ACC of 8.7% to 96.96% could be achieved compared to a previous study from literature. Both studies impressively demonstrate the potential of the workflow augmentation method.
The second method is based on a generative adversarial network (GAN) approach. It allows the creation of synthetic images. This approach is auspicious when only a few data are available, and new data must be created. In the context of this thesis, cycle generative adversarial networks (CycleGANs) are used to perform an image-to-image translation. Additionally, it is possible to apply conditions to the transformation. The CycleGAN was used in the third study to estimate a facial image of the patient after cranio-maxillofacial surgery using a preoperative portrait photo and the 3D surgical planning model. Thereby,it was possible to estimate realistic, vivid-looking images without having any medical training data. Instead, synthetically generated data were used to train the NN.
In conclusion, the developed methods in this thesis can overcome the lack of samples and datasets.
In the future, the introduced methods can be used to design even better artificial intelligence-based medical support systems that can further assist physicians in clinical routines, diagnosis, therapy, or image-guided interventions, which can reduce clinical workload and thus improve patient safety.