Abstract:
Unter Zuhilfenahme von Deep Learning haben semantische Segmentierungssysteme beeindruckende Ergebnisse erzielt, allerdings auf der Grundlage von überwachtem Lernen, das durch die Verfügbarkeit kostspieliger, pixelweise annotierter Bilder limitiert ist.
Bei der Untersuchung der Performance dieser Segmentierungssysteme in Kontexten, in denen kaum Annotationen vorhanden sind, bleiben sie hinter den hohen Erwartungen, die durch die Performance in annotationsreichen Szenarien geschürt werden, zurück.
Dieses Dilemma wiegt besonders schwer, wenn die Annotationen von lange geschultem Personal, z.B. ... mehrMedizinern, Prozessexperten oder Wissenschaftlern, erstellt werden müssen.
Um gut funktionierende Segmentierungsmodelle in diese annotationsarmen, Experten-angetriebenen Domänen zu bringen, sind neue Lösungen nötig.
Zu diesem Zweck untersuchen wir zunächst, wie schlecht aktuelle Segmentierungsmodelle mit extrem annotationsarmen Szenarien in Experten-angetriebenen Bildgebungsdomänen zurechtkommen.
Daran schließt sich direkt die Frage an, ob die kostspielige pixelweise Annotation, mit der Segmentierungsmodelle in der Regel trainiert werden, gänzlich umgangen werden kann, oder ob sie umgekehrt ein Kosten-effektiver Anstoß sein kann, um die Segmentierung in Gang zu bringen, wenn sie sparsam eingestetzt wird.
Danach gehen wir auf die Frage ein, ob verschiedene Arten von Annotationen, schwache- und pixelweise Annotationen mit unterschiedlich hohen Kosten, gemeinsam genutzt werden können, um den Annotationsprozess flexibler zu gestalten.
Experten-angetriebene Domänen haben oft nicht nur einen Annotationsmangel, sondern auch völlig andere Bildeigenschaften, beispielsweise volumetrische Bild-Daten.
Der Übergang von der 2D- zur 3D-semantischen Segmentierung führt zu voxelweisen Annotationsprozessen, was den nötigen Zeitaufwand für die Annotierung mit der zusätzlichen Dimension multipliziert.
Um zu einer handlicheren Annotation zu gelangen, untersuchen wir Trainingsstrategien für Segmentierungsmodelle, die nur preiswertere, partielle Annotationen oder rohe, nicht annotierte Volumina benötigen.
Dieser Wechsel in der Art der Überwachung im Training macht die Anwendung der Volumensegmentierung in Experten-angetriebenen Domänen realistischer, da die Annotationskosten drastisch gesenkt werden und die Annotatoren von Volumina-Annotationen befreit werden, welche naturgemäß auch eine Menge visuell redundanter Regionen enthalten würden.
Schließlich stellen wir die Frage, ob es möglich ist, die Annotations-Experten von der strikten Anforderung zu befreien, einen einzigen, spezifischen Annotationstyp liefern zu müssen, und eine Trainingsstrategie zu entwickeln, die mit einer breiten Vielfalt semantischer Information funktioniert.
Eine solche Methode wurde hierzu entwickelt und in unserer umfangreichen experimentellen Evaluierung kommen interessante Eigenschaften verschiedener Annotationstypen-Mixe in Bezug auf deren Segmentierungsperformance ans Licht.
Unsere Untersuchungen führten zu neuen Forschungsrichtungen in der semi-weakly überwachten Segmentierung, zu neuartigen, annotationseffizienteren Methoden und Trainingsstrategien sowie zu experimentellen Erkenntnissen, zur Verbesserung von Annotationsprozessen, indem diese annotationseffizient, expertenzentriert und flexibel gestaltet werden.
Abstract (englisch):
Through deep learning, semantic segmentation systems have been utilized to yield impressive results, yet this was achieved on the basis of supervised learning which is limited by the availability of costly, pixel-wise annotated images.
When investigating the performance of these segmentation systems in contexts where annotations are scarce they fall short of the high expectations induced by their performance in annotation rich scenarios.
This predicament weights especially heavy, when the annotations have to be provided by heavily trained personnel, e.g. medical doctors, process experts or scientists.
... mehr
To bring well-performing segmentation models into these annotation deprived expert-driven domains, new solutions are needed.
To this intent, we first investigate how badly current segmentation models really cope with extreme annotation scarce settings in expert-driven imagery domains.
This is directly linked to the question whether costly pixel-wise annotations that high performing segmentation models are trained with can be circumvented, or if they are, conversely, a cost-effective kick-start to bring the segmentation off the ground when used sparingly.
We further briefly dive into the question whether different kinds of annotations, weak- and full pixel-wise annotations with varying costs, can be used jointly in training segmentation systems in order to make the annotation process more flexible.
Expert-driven domains do not only come with annotation scarcity but with entirely different imaging properties, including a volumetric shape.
Moving from 2D- to 3D semantic segmentation and training models in a supervised fashion entails voxel-wise annotation processes, which multiplies the time-expenditure for annotation with the added dimension.
To circumvent this costly process and end up at manageable ways of annotation, we investigate segmentation model training strategies which only require either more economical sparse annotations or unlabeled volumes.
This shift in supervision type can bring annotation costs down for volumetric segmentation tasks and enable applications to be built in expert-driven domains.
As side-effect annotators are freed from the laborious task of densely annotating entire volumes which reduces redundant work to be done due to visually redundant regions as present in volume data.
Finally, we ask the question, whether it is possible to free up expert annotators from the strict requirement of having to supply a single, specific annotation type and design a training strategy which can work with a broad diversity of semantic cues.
We design a training strategy for this scenario and, in our extensive experimental evaluation, bring to light interesting properties of different annotation type mixes in relation to their resulting segmentation performance.
Our investigations led to new research directions in semi-weakly supervised segmentation, novel, annotation-efficient methods and training strategies as well as experimental insights which are valuable for practitioners and can improve annotation processes by making them annotation-efficient, expert-centric and flexible.