Abstract:
Automatisierte Fahrzeuge müssen ihre Umgebung präzise modellieren, um diese erfassen und mit ihr interagieren zu können.
Essentiell hierfür ist die Schätzung der Fahrzeugbewegung mittels propriozeptiver Sensorik, um Messungen aus einzelnen Zeitpunkten im Umgebungsmodell zu vereinen.
Eine Ausprägung davon ist die sogenannte Odometrie, welche somit einen Grundstein für das autonome Fahren darstellt.
Kameras werden vielfältig auf aktuellen automatisierten Fahrzeugen eingesetzt, da sie der menschlichen Wahrnehmung sehr ähneln und somit leicht für Fahrerassistenzsysteme eingesetzt werden können.
... mehr
Darüber hinaus sind sie leicht, klein und kostengünstig, was auch die Bewegungsschätzung mithilfe von Kameras sehr attraktiv macht.
Die Zielsetzung dieser Arbeit besteht darin, die Grenzen aktueller Odometrieschätzung mithilfe monokularer Kamerasysteme zu identifizieren und zu erweitern, sodass die Fahrzeug-Eigenbewegung über lange Strecken hinweg akkurat geschätzt werden kann.
Die in dieser Arbeit vorgestellten Weiterentwicklungen basieren auf einer etablierten Methode, in welcher Punkte in zeitlichen Bildsequenzen verfolgt werden und mit ihrer Hilfe die Umgebungsstruktur rekonstruiert sowie die Bewegung der Kamera gleichzeitig geschätzt werden.
Aufgrund der hohen Dichte an Information im Bild können viele Punktmessungen extrahiert werden, wodurch die Genauigkeit dieser Bewegungsschätzung sehr hoch ausfällt.
Um diese jedoch zur Laufzeit auf dem Fahrzeug durchzuführen, muss der dadurch entstehende Rechenaufwand gesenkt werden.
Diese Arbeit widmet sich daher vertieft der Frage, wie Messungen ausgewählt werden können, um den Rechenaufwand zu verringern, ohne die Genauigkeit der Bewegungsschätzung zu reduzieren.
Außerdem ist für die schnelle und akkurate Lösung des Optimierungsproblems, welches der Bewegungsschätzung zugrunde liegt, ein guter Startwert von großer Wichtigkeit.
Hierfür wird eine Methode vorgestellt, welche diesen Startwert effizient und robust schätzt.
Zudem wird die Methodik auf Multikamerasysteme erweitert und differenziert evaluiert.
Das zentrale Problem der kamerabasierten Bewegungsschätzung folgt aus deren Messprinzip: Durch die Projektion auf die Bildebene geht die Tiefeninformation der Umgebung verloren.
Die Rotation kann zwar somit bestimmt werden, jedoch kann die Translation nur bis auf einen Skalierungsfaktor bestimmt werden --- die sogenannte Skale.
Ein besonderer Fokus dieser Arbeit liegt daher auf der Frage, wie die Skale effizient und genau bestimmt werden kann.
Hierzu wird unter anderem Wissen über die Geometrie der Umgebung genutzt.
Insbesondere die Einbauhöhe der Kameras über Grund wird genutzt, um die Skale zu extrahieren.
Um die Bodenoberfläche zu schätzen, werden drei Varianten untersucht:
- Fluchtpunktstabilisierte Schätzung aus zwei aufeinanderfolgenden Zeitpunkten.
- Schätzung mithilfe der Umgebungsrekonstruktion aus der unskalierten Bewegungsschätzung.
- Gleichzeitige Schätzung der Umgebungsrekonstruktion, der Bewegung und der Skale.
Zusätzlich wird in dieser Arbeit untersucht, wie die Skalenschätzung mithilfe eines Light-Detection-And-Ranging-Sensors (LIDAR) umgesetzt werden kann, welcher auf den meisten aktuellen autonomen Plattformen vorhanden ist.
Die Nutzung von LIDAR- und Kamera-Messungen setzt allerdings das Wissen über die Transformation zwischen LIDAR- und Kamerakoordinatensystem voraus.
Darum wird zudem eine Methode vorgestellt, um diese Transformation zu erhalten.
Diese zeichnet sich durch die Fähigkeit aus, auch LIDAR-Sensoren verwenden zu können, welche nur über eine sehr geringe Auflösung verfügen.
Die Algorithmen werden auf dem KITTI-Datensatz evaluiert und verglichen.
Eine sehr hohe Genauigkeit der Methoden konnte hierbei gezeigt werden.
Des Weiteren wird die Multikamera-Variante der Startwertschätzung auf einem Versuchsträger des Instituts für Mess- und Regelungstechnik des KIT evaluiert.
Um die Anwendbarkeit dieser Algorithmen in einem realen System zu demonstrieren, wird abschließend ein Advanced-Driver-Assistance-System vorgestellt, welches zur Kollisionsvermeidung zwischen Lastkraftwägen und Fahrradfahrern konzipiert, umgesetzt sowie in einer Probandenstudie getestet wurde.
Abstract (englisch):
Automated Vehicles need to establish a model of their surroundings in order to understand and interact with their environment.
For that purpose, the motion of the vehicle has to be obtained in order to incorporate observations from different time instances into one single model.
The estimation of this so called odometry is therefore the base of any autonomous platform.
Cameras are standard sensors for state of the art automated vehicles --- and since their measurements resemble the human perception, they can be easily applied for advanced driver assistance systems.
... mehr
Moreover, their low weight, size and cost make them a very attractive sensor for odometry estimation.
Therefore, this work aims at identifying and pushing the limits of state of the art monocular visual odometry in order to estimate the ego-motion of the vehicle over long distances robustly and accurately.
The contributions presented are based on a well established methodology, which tracks points in a temporal image sequence and estimates the structure of the surroundings and the motion of the camera simultaneously.
Due to the high density of information in an image, a huge amount of image points can be extracted.
This results in high accuracy but also high computation time.
For online odometry estimation the computational cost has to be reduced.
In this work a measurement selection strategy is proposed in order to choose appropriate measurements without lowering the accuracy of the estimation.
For a fast and accurate solution of the optimization problem which lies beneath visual odometry, a novel prior estimation method is developed, which is not only applicable to monocular setups but also to multi-camera-platforms.
The main problem of monocular visual odometry is a consequence of the camera's measurement principle --- by projecting the three dimensional world on a two dimensional imager, the depth-information is lost.
While rotation and the direction of the translation can be obtained by a monocular system, the distance traveled, the so called scale, remains unobserved.
Estimating the scale precisely and efficiently is therefore the focus of this work.
For that task, two sources of information are utilized:
First, the knowledge about the surrounding's geometry is used to determine the scale.
Three different approaches are presented:
- Estimation from two images, stabilized by vanishing points.
- Estimation using the unscaled reconstruction of the scene.
- Simultaneous estimation of the reconstruction of the scene, the motion and the scale.
The second source of scale information investigated is an additional Light-Detection-And-Ranging sensor (LIDAR).
For using the information from the LIDAR, the transformation between LIDAR and camera has to be known.
To this end, a novel method is presented to estimate this transformation, which enables the usage of LIDARs with very low resolution.
The proposed methods are evaluated on the KITTI dataset demonstrating their high accuracy.
Additionally, the multi-camera variant of the prior estimation is assessed on the test vehicle of the Institute of Measurement and Control Systems (MRT) at KIT.
Finally, to show the applicability of these algorithms on a real system, a driver assistance system that aims to avoid collisions between trucks and cyclists is designed, built and tested.