KIT | KIT-Bibliothek | Impressum | Datenschutz

Semantic segmentation and uncertainty quantification with vision transformers for industrial applications

Wursthorn, Kira 1; Gao, Lili; Landgraf, Steven ORCID iD icon 1; Ulrich, Markus ORCID iD icon 1
1 Institut für Photogrammetrie und Fernerkundung (IPF), Karlsruher Institut für Technologie (KIT)

Abstract:

Vision Transformers (ViTs) have recently achieved state-of-the-art performance in semantic segmentation tasks. However, their deployment in critical applications necessitates reliable uncertainty quantification to assess model confidence. To tackle this challenge, we combine a state-of-the-art ViT with the popular uncertainty quantification method Monte Carlo Dropout (MCD) to predict both segmentation and uncertainty maps. We focus on an industrial machine vision setting and carry out the experiments on the T-LESS dataset. The evaluation is carried out with regard to both the segmentation accuracy and the predicted uncertainties using appropriate metrics.

Zugehörige Institution(en) am KIT Institut für Photogrammetrie und Fernerkundung (IPF)
Publikationstyp Proceedingsbeitrag
Publikationsdatum 21.11.2024
Sprache Englisch
Identifikator ISBN: 978-3-7315-1386-5
ISSN: 2510-7224
KITopen-ID: 1000179073
Erschienen in Forum Bildverarbeitung 2024. Hrsg.: T. Längle, M. Heizmann
Veranstaltung Forum Bildverarbeitung (2024), Karlsruhe, Deutschland, 21.11.2024 – 22.11.2024
Verlag KIT Scientific Publishing
Seiten 135 – 146
Nachgewiesen in OpenAlex
Dimensions
Scopus

Verlagsausgabe §
DOI: 10.5445/IR/1000179073
Veröffentlicht am 18.02.2025
Seitenaufrufe: 31
seit 18.02.2025
Downloads: 18
seit 19.02.2025
Cover der Publikation
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
KITopen Landing Page