Schneider, Nick 1 1 Institut für Mess- und Regelungstechnik (MRT), Karlsruher Institut für Technologie (KIT)
Abstract:
Ein robustes und genaues Umgebungsmodell ermöglicht es autonomen Fahrzeugen sicher in der Welt zu navigieren. Ein vielversprechender Ansatz um ein solches Modell zu erzielen, ist die Fusion von multimodalen Sensoren wie Kamera und LIDAR. Speziell durch den Einsatz von neuronalen Netzen konnten hier in den letzten Jahren vielversprechende Ergebnisse erzielt werden.
Es bestehen jedoch weiterhin Herausforderungen in der Fusion multimodaler Daten. Zunächst wird eine genaue Kalibrierung benötigt, um die Daten in einem gemeinsamen Koordinatensystem zu beschreiben. Des Weiteren muss eine geeignete Repräsentation der Daten gefunden werden, die es ermöglicht, diese zu fusionieren. ... mehrDies ist herausfordernd, da LIDAR-Daten meist deutlich weniger dicht als die hochaufgelösten Kamerabilder sind. Zuletzt werden große Mengen an Daten benötigt, speziell beim Einsatz neuronaler Netze.
In dieser Dissertation werden drei Methoden und dazugehörige Experimente vorgestellt, die diese Herausforderungen adressieren. Das erste ist ein Verfahren zur Kalibrierung von LIDAR und Kamera, welches CNNs nutzt um alle gängigen Kalibrierschritte zu ersetzen. Experimente zeigen, dass CNNs tatsächlich in der Lage sind, eine Transformation zwischen LIDAR und Kamera effizient und ohne menschliche Interaktion zu schätzen.
Zusätzlich werden zwei Methoden zur Vervollständigung von Tiefendaten vorgestellt. Diese erlauben, LIDAR und Kamera Daten in einer gemeinsamen Repräsentation zu fusionieren. Die erste Methode basiert auf einer modellbasierten Energieminimierung und ist auch ohne Trainingsdaten generisch einsetzbar. Die zweite Methode hingegen nutzt neuronale Netze zur Vervollständigung wodurch hohe Genauigkeiten erzielt werden.
Abschließend wird ein Tiefen-Datensatz basierend auf KITTI vorgestellt. Der Datensatz besteht aus 93.000 RGB Bildern und dazugehörigen Tiefenkarten
und dient zu Training und Evaluation von Algorithmen zur Tiefenschätzung.
Abstract (englisch):
Generating a robust and accurate environment model enables autonomous vehicles
to move safely in the world. A promising approach to achieve such a model
is to fuse multimodal sensors such as camera and laser scanner. Thanks to the
advance of neural networks, in the last few years promising results were achieved.
However, there remain major challenges in fusing multi-modal data. First, a
convenient yet accurate calibration is required to describe the measurements in
a common coordinate system. Second, a well-suited
representation to fuse the data needs to be found, which is especially ... mehr
challenging as LIDAR data is typically significantly sparser than high
resolution camera images. Finally, a large amount of training and evaluation
data is required, especially if LIDAR and camera data are processed with deep
neural networks.
In this dissertation, those challenges are addressed by proposing three different
methods, each accompanied by associated experiments.
First, a method for
LIDAR-to-camera calibration is presented which is the first to use a deep neural
network to replace all common calibration steps. The conducted experiments show
that CNNs are indeed able to efficiently estimate a transformation between two
sensors without any human interaction.
Furthermore, two different depth completion approaches are
presented, which allow processing depth measurements in the same space as the
RGB image. Both methods perform well on various domains. The first method is
based on a model-based energy minimization and can be applied generically without
the need of training data. The second approach is leveraging neural networks for
the completion and is slightly more accurate.
Finally, a large-scale depth dataset is introduced which consists of
93k RGB and depth images and can be used to train and evaluate camera and LIDAR-based
algorithms. This dataset is targeted, but not restricted, to the use of deep
neural networks and is based on the well-known KITTI dataset.