Abstract:
Semantische hochauflösende (HD) Karten ermöglichen sicheres und komfortables automatisiertes Fahren, da sie Informationen bereitstellen, die weit über das Sichtfeld der Bordsensorik und weit über die Verarbeitungsmöglichkeiten an Bord hinausgehen. Verlässt sich ein automatisiertes Fahrzeug aber auf veraltete Karteninformationen kann das tödliche Konsequenzen haben.
Diese Arbeit stellt daher ein Verfahren vor, das die zuverlässige Verifikation von Karteninformation vorab ermöglicht und hierfür nur bordeigene Sensorik und echtzeitfähige Verarbeitungsschritte nutzt. Um rechtzeitig auf Änderungen reagieren zu können, aber auch um von verifizierten Karten zu profitieren, muss eine kontinuierliche Verifikation weit über den komfortablen Bremsweg hinaus, aber dennoch mit höchster Zuverlässigkeit erfolgen. ... mehrDies erfordert drei wesentliche Weiterentwicklungen des Stands der Technik.
Der erste Beitrag ist eine Methode, die Kartenelemente in bis zu 180 m Entfernung mit einer Genauigkeit wahrnimmt, die menschlichen Annotationen nahe kommt. Hierfür werden semantische Instanzen mit einem tiefen neuronalen Netz aus Kamerabildern extrahiert und mit hochauflösenden Lidar-Daten fusioniert um parametrische Repräsentationen zu schätzen. Die maßgeschneiderte Anpassung der Modelle an die jeweilige semantische Klasse erlaubt eine robuste Schätzung selbst in großen Entfernungen. Gleichzeitig enthalten die Repräsentationen ausreichend Details sie in Kamera- oder Lidarbilder zu projizieren, was notwendig ist, um aktiv Änderungen der Karte erkennen zu können. Darüber hinaus ermöglichen sie eine erscheinungsinvariante Assoziation im Parameterraum, die trivial für eine vollautomatisierte Kartierung genutzt werden kann.
Das Herz dieser Arbeit ist ein neuartiges Verfahren zur Datenassoziation und Lokalisierung, Probabilistic Correspondence Graph (PCG) genannt, das bislang beispiellose Garantien bietet. Mit nur einer sehr groben initialen Position und nur mit den Sensordaten eines einzigen Zeitschritts ermöglicht es eine global probabilistisch optimale Assoziation in Echtzeit. Gleichzeitig kann es mit Ausreißern, bspw. Fehldetektionen oder veralteten Kartenelementen, umgehen und bietet eine Selbstschätzung, die Mehrdeutigkeiten erkennen kann.
Für die allgemeine Datenassoziation und Registrierung von Punktwolken auf kleineren und mittelgroßen Problemen wie dem KITTI-Benchmark übertrifft es den bisherigen Stand der Technik. Wenn das Verfahren genutzt wird um sich mittels hochgenauer parametrischer Detektionen in einer semantischen HD-Karte zu lokalisieren erreicht es eine Genauigkeit von ca. 2 cm bzw. 0.02°. Solche Werte waren bislang nur mit um Größenordnungen speicheraufwändigeren sensorspezifischen Lokalisierungskarten möglich. Wenn drei Jahre alte und damit teils veraltete Karten zur Lokalisierung verwendet werden, nimmt die Verfügbarkeit der Lokalisierung ab, aber der Lokalisierungsfehler bleibt quasi unbeeinträchtigt.
Die Multi-Hypothesen-Datenassoziation ist auch die Grundlage des dritten Beitrages, einer ternären evidenzbasierten kontinuierlichen Kartenverifikation. Zuordnungen von Detektionen zu einem Kartenelement werden als Evidenz für die Aktualität interpretiert. Evidenz für Änderungen kann über ein sehr schnelles Ray Casting in Lidarbildern gewonnen werden. Ein ternäres Evidenzsystem ermöglicht eine Aggregation über die Zeit, die Kombination von potentiell widersprüchlichen Evidenzen und eine elegante Berücksichtigung von Verdeckungen als Komplement von Verifikation und Änderung.
Das Gesamtsystem ermöglicht eine höchst zuverlässige Verifikation eines großen Teils von Ampeln und Schildern in weit mehr als 50 m Entfernung, was als komfortabler Bremsweg im urbanen Raum angenommen werden kann. Auf dieser Basis wird ein Verfahren entworfen, das die Weitergabe von Verifikationsergebnissen von physischen auf abstrakte Elemente, wie Verkehrsregeln, ermöglicht, ohne die dafür normal nötige Inferenz durchzuführen.
Über die reine Lokalisierung und Verifikation von Karten hinaus werden in dieser Arbeit mehrere Metriken vorgestellt, um Detektions- und Kartenqualität sowie Lokalisierungsergebnisse auch ohne eine Ground Truth zu evaluieren. Schließlich ermöglicht die selbstüberwachte Lokalisierung und Verifikation von Kartenelementen die sichere Verwendung von HD-Karten als Pseudo-Ground Truth für das maschinelle Lernen. Hierfür können nur die verifizierten Teile einer Karte als Pseudo-Ground Truth bereitgestellt werden, und zwar nur dort, wo eine Lokalisierung genau und eindeutig genug möglich ist.
Abstract (englisch):
Semantic high definition (HD) maps enable safe and comfortable automated driving by providing information that extends far beyond the sensing range and surpasses on-board processing capabilities. However, if an autonomous vehicle falsely relies on outdated map information, this can have fatal consequences.
This thesis proposes a system which enables the continuous verification of map information ahead of the vehicle using only on-board sensors and real-time processing. To be able to react promptly to outdated maps, but also to safely exploit the information provided by verified maps, the verification needs to achieve exceptional certainty at distances greater than a comfortable breaking distance. ... mehrThis requires three major advancements over the previous state of the art.
The first is a method that detects map elements with human-like accuracy at distances of up to 180 m. Semantic instances are extracted from camera images using a deep neural network (DNN) and fused with high-resolution lidar data to estimate parametric representations. By tailoring the representations to each semantic class of map elements, they can be estimated robustly even at large distances. At the same time, they contain sufficient details to render meaningful reprojections into camera or range images, which is necessary to actively detect changes in the map. Moreover, they enable appearance-invariant association in parameter space, which can be trivially used for fully automated mapping.
At the core of this thesis lies the second major advancement, a novel method for data association and localization, called probabilistic correspondence graph (PCG). It offers previously unprecedented guarantees: With merely a coarse initial position and solely using sensor data of a single time step, it provides globally probabilistically optimal association results in real time. At the same time, it can deal with outliers, i.e. clutter or outdated map elements, and offers a self-assessment capable of recognizing ambiguities.
When using PCG for data association and point cloud registration on smaller and medium-sized problems like the KITTI benchmark, it outperforms the state-of-the-art. Combining PCG with the proposed highly accurate parametric detections to localize within a semantic HD map achieves an accuracy of about 2 cm and 0.02°, respectively. Such accuracy was previously only achievable with orders of magnitude more storage-intensive sensor-specific localization layers. When localizing in three years old and partially outdated maps, availability decreases but the error is almost unimpaired.
PCG as multi-hypothesis data association approach also enables the third major contribution, a continuous ternary map verification that tracks changes and verification independently. Detections assigned to a map element are interpreted as evidence for the element’s up-to-dateness. Evidence for changes can be obtained through very fast ray casting in range images. Evidence theory enables aggregation over time, the combination of potentially contradictory evidence and an elegant incorporation of occlusions as complement to changes and verification.
The overall system enables highly reliable verification of significant shares of traffic lights and signs at ranges of more than 50 m, the comfortable breaking distance in urban environments. As an outlook, a concept is drafted which allows the propagation of verification results from physical to abstract map elements, such as traffic rules, without the need to infer the abstract layer online.
Beyond mere localization and map verification, this work proposes several novel metrics to evaluate detections, map, and localization results without ground truth. The self-assessed localization and map verification makes it possible to safely use HD maps as pseudo ground truth. For this purpose, only the verified up-to-date parts of a map can be used, restricted to places where localization is accurate and unambiguous enough.