Abstract:
Die medizinische Bildsegmentierung hat sich in den letzten Jahren rasant weiterentwickelt, und viele Modelle erreichen inzwischen eine dem Menschen vergleichbare Leistungsfähigkeit auf zahlreichen Benchmarks. Dennoch bleibt die Expertise von Fachpersonen unverzichtbar, da unvollständige oder fehlerhafte Vorhersagen unmittelbaren Einfluss auf Diagnose und Therapie haben können. Interaktive Segmentierung begegnet dieser Herausforderung, indem sie menschliches Feedback in Modelle integriert und es Nutzerinnen ermöglicht, Vorhersagen iterativ über menschliche Interaktionen wie Klicks zu verfeinern. ... mehrSo können Expertinnen Modelle gezielt zu präzisen Ergebnissen leiten und komplexe Daten – etwa 3D-Volumina – mit wenigen Interaktionen statt durch aufwendige voxelweise Annotationen effizient annotieren. Trotz dieses Potenzials ist das Forschungsfeld fragmentiert: Es fehlen klare Definitionen, standardisierte Evaluationsverfahren, realistische Interaktionssimulationen und einheitliche Benchmarks. Diese Dissertation widmet sich diesen zentralen Herausforderungen und liefert sowohl praktische Lösungen als auch theoretische Grundlagen, die bisher weitgehend gefehlt haben.
Im ersten Teil der Dissertation untersuchen wir drei zentrale Komponenten interaktiver Modelle und formulieren Best Practices, die für jedes Modell anwendbar sind: (1) die Repräsentation menschlicher Interaktionen; (2) die realistische Simulation der Interaktionen medizinischer Annotator*innen; (3) sowie die Effizienz interaktiver Modelle. Wir geben formale Definitionen für die Interaktionsrepräsentation („guidance signal“) und die Interaktionssimulation („robot user“) und entwickeln einen theoretischen Rahmen, um interaktive Modelle systematisch mit unserer Terminologie zu beschreiben.
Aufbauend auf diesen theoretischen Grundlagen führen wir im zweiten Teil der Dissertation eine systematische Analyse von 121 existierenden Methoden der interaktiven Segmentierung durch und entwickeln eine Taxonomie, die die Methoden in klar abgegrenzte Kategorien einordnet. Mithilfe dieser Taxonomie geben wir praktische Empfehlungen zur Modellauswahl für spezifische Anwendungen und formulieren Best Practices für jede Kategorie. Unsere Analyse zeigt außerdem wesentliche Lücken im Forschungsfeld auf, darunter das Fehlen standardisierter Evaluationen, Datensätze, Baselines und Protokolle zur Interaktionssimulation. Diese Defizite haben dazu geführt, dass viele frühere Modelle isoliert evaluiert wurden – ohne Vergleich zu bestehender Arbeit.
Um das Fehlen gemeinsamer Standards zu adressieren, etablieren wir eine globale Community für interaktive Segmentierung, indem wir vier internationale Wettbewerbe an mehreren Standorten mitorganisieren, die über 200 Einreichungen anziehen. Diese Initiativen ermöglichen eine gemeinschaftsweite Diskussion zentraler Forschungslücken und schaffen die Grundlage für faire und standardisierte Vergleiche interaktiver Ansätze. Zudem erstellen wir ein groß angelegtes, multimodales Datenset aus 166 offenen Datensätzen über neun Bildgebungsmodalitäten, ergänzt durch standardisierte Protokolle für Interaktionssimulation und Evaluation, sodass transparente und reproduzierbare Benchmarks in jedem Bereich der medizinischen Bildgebung möglich werden.
Diese Dissertation definiert die Grundlagen der interaktiven medizinischen Bildsegmentierung neu – basierend auf drei Säulen: theoretischen Beiträgen, praktischen Empfehlungen und Community-getriebenen Benchmarks. Diese Grundlagen schaffen die notwendige Struktur für Fortschritt und zeigen, dass Weiterentwicklung von Zusammenarbeit, der Etablierung von Best Practices und der Identifikation zentraler Forschungslücken abhängt, um das Feld in Richtung klinisch verlässlicher und annotierungseffizienter interaktiver Modelle voranzubringen.
Abstract (englisch):
Medical image segmentation has advanced rapidly, with models achieving human-level performance on many benchmarks. Yet, expert oversight remains essential, as imperfect predictions can directly influence diagnosis and treatment. Interactive segmentation addresses this challenge by integrating human feedback into models, enabling users to iteratively refine predictions through clicks, scribbles, or bounding boxes. This allows experts to steer models toward accurate results and efficiently annotate complex data, such as 3D volumes, with a few interactions, rather than laborious voxel-wise annotations. ... mehrDespite its promise, the field remains fragmented - lacking clear definitions, standardized evaluation, realistic interaction simulation, and unified benchmarks. This thesis tackles these core challenges, providing both practical solutions and theoretical foundations that have been largely absent in prior research.
In the first part of this thesis, we examine three core components of interactive models and establish best practices applicable to any model regarding: (1) the representation of human interactions; (2) the realistic simulation of medical annotators' interactions; and (3) the efficiency of interactive models. We provide formal definitions for interaction representation (“guidance signal”) and interaction simulation (“robot user”), and introduce a theoretical framework to systematically describe interactive models using our terminology.
Building on these theoretical foundations, in the second part of this thesis, we conduct a systematic review of 121 existing interactive segmentation methods and construct a taxonomy that classifies methods into distinct categories. Using our taxonomy, we provide practical recommendations on model selection for specific applications and outline best practices for each taxonomy category. Our review also reveals major gaps in the field, including the lack of standardized evaluation, datasets, baselines, and interaction simulation protocols, which have caused many prior models to be evaluated in isolation without comparison to existing work.
To address the lack of common standards, we establish a global interactive segmentation community by co-organizing four international competitions across multiple centers, attracting over 200 submissions. These efforts allow a community-wide discussion of key research gaps and provide a foundation for fair and standardized comparison of interactive approaches. We also compile a large-scale multimodal dataset of 166 open datasets across nine imaging modalities, with standardized protocols for interaction simulation and evaluation, enabling transparent and reproducible benchmarking in any medical imaging domain.
This thesis redefines the foundations of interactive medical image segmentation through three pillars: theoretical contributions, practical recommendations, and community-driven benchmarks. These foundations provide the structure needed for progress, showing that advancement depends on collaboration, establishing best practices, and identifying research gaps to move the field forward toward clinically reliable, annotation-efficient interactive models.