Abstract:
Neuronale Netze haben sich durch bemerkenswerte Fortschritte im autonomen Fahren, der medizinischen Bildgebung und der industriellen Inspektion als Grundpfeiler der maschinellen Bildverarbeitung etabliert. Dies gelingt durch die Extraktion hierarchischer Repräsentationen aus zunehmend größeren Datensätzen. Ihr Erfolg wird jedoch durch erhebliche Einschränkungen wie Selbstüberschätzung, mangelnde Interpretierbarkeit und Anfälligkeit für Domänenverschiebungen und adversariale Angriffe getrübt. Diese Mängel, die an den Dunning-Kruger-Effekt in menschlichen Entscheidungen erinnern, stellen in sicherheitskritischen Anwendungen, in denen fehlerhafte Vorhersagen schwerwiegende Folgen haben können, ernsthafte Risiken dar. ... mehrDie Quantifizierung von Unsicherheiten gilt als vielversprechende Strategie, um diese Probleme anzugehen, indem sie die Vertrauenswürdigkeit erhöht, Einblicke in die Zuverlässigkeit von Vorhersagen bietet und risikobewusstes Entscheiden ermöglicht, etwa durch das Aufdecken von Fehleinschätzungen oder das Auslösen von zusätzlichen Verifikationsschritten. Bestehende Ansätze scheitern jedoch häufig an ihren hohen Rechenanforderungen, komplexen Designanforderungen und möglichen Genauigkeitseinbußen, was sie für Echtzeit- oder ressourcenbeschränkte Anwendungen unpraktisch macht.
Diese Arbeit schließt diese Lücke, indem sie praktische, effiziente Lösungen entwickelt, die Unsicherheitsqualität und rechentechnische Umsetzbarkeit bei semantischer Segmentierung, monokularer Tiefenschätzung und deren gemeinsamer Anwendung ausbalancieren. Sie bewertet systematisch die Qualität bestehender Unsicherheitsquantifizierungsmethoden und entwickelt Strategien zur effizienten Unsicherheitsschätzung sowie zur Ausnutzung von Unsicherheiten während des Trainings, um die Modellleistung zu steigern.
Genauer gesagt werden die folgenden neuen Beiträge präsentiert: Bei der semantischen Segmentierung verwendet DUDES ($\textbf{D}$eep $\textbf{U}$ncertainty $\textbf{D}$istillation using $\textbf{E}$nsembles for $\textbf{S}$egmentation) Wissensdestillation, um ein effizientes Modell zu trainieren, das die Unsicherheitsschätzungen eines rechenintensiven Deep Ensembles nachahmt, wodurch die Inferenzzeit erheblich reduziert wird, während Qualität und Robustheit -- selbst bei Domänenverschiebungen -- erhalten bleiben. U-CE ($\textbf{U}$ncertainty-aware $\textbf{C}$ross-$\textbf{E}$ntropy) verbessert diese Aufgabe weiter, indem es die gängige Cross-Entropy Verlustfunktion dynamisch mit Unsicherheitsschätzungen gewichtet, um die Optimierung auf schwierige Bereiche zu lenken und so die Genauigkeit zu steigern. Bei der monokularen Tiefenschätzung zeigt die Synthese einer Reihe bestehender Methoden zur Quantifizierung von Unsicherheiten mit dem DepthAnythingV2 Foundation Modell, dass ein Fine-Tuning basierend auf Gaussian Negative Log-Likelihood zuverlässige Unsicherheitsschätzungen ohne Einbußen bei der Effizienz oder Vorhersageleistung ermöglicht. Im gemeinsamen Aufgabenkontext baut EMUFormer ($\textbf{E}$fficient $\textbf{M}$ulti-task $\textbf{U}$ncertainty Vision Trans$\textbf{former}$) auf den vorherigen Erkenntnissen auf und kombiniert Unsicherheitsdestillation und Fine-Tuning mithilfe von Gaussian Negative Log-Likelihood, um auf den weithin anerkannten Datensätzen Cityscapes und NYUv2 einen neuen Stand der Technik zu erzielen. Zudem liefert dieser Ansatz zuverlässige Unsicherheiten für beide Aufgaben, die einem Deep Ensemble mindestens gleichkommen und deren Quantifizierung eine Größenordnung effizienter ist.
Diese Ergebnisse zeigen, dass Unsicherheitsquantifizierung sowohl effizient implementierbar als auch ein Treiber für verbesserte Modellleistung sein kann und die unsicherheitsbewusste Bildverarbeitung voranbringen. Diese Arbeit ebnet den Weg für zukünftige Forschung, die Unsicherheit nicht nur als Nebenprodukt, sondern als zentralen Bestandteil von Bildverarbeitungssystemen betrachtet.
Abstract (englisch):
Deep neural networks have emerged as the cornerstone of machine vision tasks, powering remarkable advancements in domains like autonomous driving, medical imaging, and industrial inspection by leveraging their ability to extract hierarchical representations from vast datasets. These unparalleled capabilities have widened the gap between traditional methods and deep learning, cementing their widespread adoption. However, their success is tempered by significant limitations like overconfidence, poor interpretability, and susceptibility to domain shifts and adversarial attacks. ... mehrThese shortcomings, reminiscent of the Dunning-Kruger effect in human decision-making, pose severe risks in safety-critical applications where erroneous predictions can have dire consequences. Uncertainty quantification has been recognized as a promising strategy to address these issues, enhancing trustworthiness by providing insights into prediction reliability and enabling risk-aware decision-making, such as anticipating failure cases or triggering verification steps. Yet, existing approaches often falter, burdened by high computational costs, intricate design requirements, and potential accuracy trade-offs, rendering them impractical for real-time or resource-constrained settings.
This thesis bridges this gap by developing practical, efficient solutions that balance uncertainty quality and computational feasibility across semantic segmentation, monocular depth estimation, and their joint application in multi-task learning. It systematically evaluates the quality of existing uncertainty quantification methods and develops strategies for efficient uncertainty estimation as well as the exploitation of uncertainties during training to enhance model performance.
More specifically, the following novel contributions are presented: In semantic segmentation, DUDES ($\textbf{D}$eep $\textbf{U}$ncertainty $\textbf{D}$istillation using $\textbf{E}$nsembles for $\textbf{S}$egmentation) employs knowledge distillation, training a lightweight student model to mimic a Deep Ensemble’s uncertainty estimates, significantly lowering inference time while preserving quality and robustness -- even under domain shifts. U-CE ($\textbf{U}$ncertainty-aware $\textbf{C}$ross-$\textbf{E}$ntropy) further advances this task by weighting the common Cross-Entropy loss with dynamic uncertainty estimates, guiding optimization toward challenging regions and boosting accuracy. For monocular depth estimation, combining several existing uncertainty quantification methods with the DepthAnythingV2 foundation model reveals that fine-tuning based on Gaussian Negative Log-Likelihood achieves reliable uncertainty estimates without sacrificing efficiency or predictive performance. In the joint task setting, EMUFormer ($\textbf{E}$fficient $\textbf{M}$ulti-task $\textbf{U}$ncertainty Vision Trans$\textbf{former}$) builds on the previous findings and combines uncertainty distillation and fine-tuning based on Gaussian Negative Log-Likelihood to achieve state-of-the-art results on the widely recognized Cityscapes and NYUv2 datasets, two critical benchmarks for evaluating semantic segmentation and depth estimation in urban driving and indoor scene understanding, respectively. Additionally, this approach delivers reliable uncertainties for both tasks that are comparable or superior to a Deep Ensemble, despite being an order of magnitude more efficient.
Ultimately, these findings demonstrate that uncertainty quantification can be both computationally viable and a driver of enhanced model performance, advancing uncertainty-aware machine vision. This work paves the way for future research that views uncertainty not as a mere auxiliary output but as a core component of machine vision systems.