Abstract:
Simultaneous Localization and Mapping (SLAM) ist eines der grundlegenden Probleme in der mobilen Robotik, bei dem die Pose eines mobilen Roboters geschätzt und gleichzeitig die unbekannte Umgebung kartiert wird. Für visuelles SLAM bauen viele Methoden eine Punktkarte auf. Dies ist effizient für die Echtzeitverfolgung und die Kartenaktualisierung, aber nicht ausreichend für die Navigation oder andere interaktive Aufgaben. Die Objekterkennung und die semantische Kartierung hingegen liefern reichhaltige Informationen über die Umgebung, können die Intelligenz des Roboters verbessern und sicheres Verhalten garantieren. ... mehr
In dieser Dissertation, semantische Objekte werde in visuelle Lokalisie-rungs- und Kartierungssysteme eingeführt. Die folgenden Bereiche werden von uns in den Fokus genommen: Objekterkennung, objektbasierte Lokalisierung und objektbasierte Kartierung.
Für die Objekterkennung schlagen wir drei verschiedene Methoden vor, um 3D-Objekte aus einem einzigen RGB-D-Bild zu erkennen. Bei der Sample-Score-Methode werden Hunderte von 3D-Quaderkandidaten generiert und der beste Kandidat unter physikalischen- und Bildeinschränkungen ausgewählt. Bei der Geometrie-Methode werden die Tiefeninformationen in 3D-Punkte umgewandelt und die Objektpunkte zu 3D-Quadern geclustert. Die Deep-Learning-Methode verwendet ein tiefes neuronales Netzwerk, um Wissen aus Trainingsdaten zu lernen und Objekte in unbekannten Szenen vorherzusagen. Um die Leistung der vorgeschlagenen Methoden zu vergleichen, Experimente werden durchgeführt, um ihre Erkennungsgenauigkeit und Laufzeiteffizienz zu messen. Die Sample-Score-Methode übertrifft die beiden anderen Methoden in Bezug auf die Geschwindigkeit, aber die Deep-Learning-Methode erreicht die höchste Genauigkeit. Die Geometriemethode bietet einen Kompromiss zwischen Geschwindigkeit und Genauigkeit. Die Auswahl der Methode hängt vom Anwendungsfälle ab.
Für die objektbasierte Lokalisierung, ein Punkt-Ebene-Objekt-SLAM-System wird vorgeschlagen. Basierend auf dem state-of-the-art Punkt-SLAM-System, strukturelle Ebenen und semantische Objekte werden in jedem Bild erkannt, die Datenassoziation wird zwischen diesen Landmarken untersucht, und ein Graph wird formuliert, um Kamerapositionen und andere Komponenten zu optimieren. Darüber hinaus wird ein objektbasiertes Modul zur Loop-Erkennung entwickelt, um eine globale Lokalisierung unter großen Blickwinkeln zu erreichen. Das vorgeschlagene System ermöglicht eine Schätzung der Kameraposition und ist in der Lage, eine semantische Karte in einer unbekannten Umgebung zu erstellen. Im Vergleich zu anderen visuellen SLAM-Systemen, die dem Stand der Technik entsprechen, kann die Einführung von Objekten das Verständnis der Szene und die Lokalisierung der Kamera verbessern.
Im Zusammenhang mit dem Kartierung auf Objektebene wird eine effiziente semantische Pipeline vorgeschlagen, um die Umgebung zu rekonstruieren. Nachdem Nachdem die Objekterkennung und die Schätzung der Kamerapose gelöst wurden, werden die Objekte in ein Voxel-basiertes Kartierung-Framework integriert, um schrittweise eine globale Karte mit einzelnen Objekten zu erstellen. Anstatt rechenintensive Komponenten wie die pixelweise Segmentierung zu verwenden, nutzt die Methode 2D Bounding Boxes, um die Karte zu erstellen. Dabei weist die semantische Karte eine vergleichbare Leistung auf und vermeidet gleichzeitig hohe Rechenkosten.
Alle vorgeschlagenen Methoden werden von uns anhand von Open-Source Datensätzen für Innenräume sowie von Logistikszenarien evaluiert. Die Ergebnisse zeigen, dass die Einbeziehung von Objekten das Verständnis der Szene, die Lokalisierung und die Kartierung verbessern kann. Darüber hinaus werden Feldversuche auf einer realen Roboterplattform durchgeführt, um die Effektivität und Anwendung in der realen Welt zu demonstrieren.
Abstract (englisch):
Simultaneous localization and mapping (SLAM) is one of the fundamental problems in mobile robotics, which estimates the location of a mobile robot and simultaneously maps the previously unknown environment. For visual SLAM, many methods build a feature point map, it is efficient for real-time tracking and map updating but not enough for navigation or other interactive tasks. Object detection and dense semantic mapping, on the other hand, provide rich information about environmental entities, improving a robot's intelligence and ensuring safe operation in the environment.
... mehr
In this thesis, semantic objects are introduced to visual localization and mapping systems and the following fields are addressed: object detection, object-based localization, and object-level mapping.
Regarding object detection, three different methods are implemented to detect 3D objects from a single RGB-D frame. The sample-score method samples hundreds of 3D cuboid candidates and selects the best candidate based on image and physical constraints to represent the object. The geometry method involves converting depth information into 3D points and clustering object points into 3D cuboids. The deep learning method employs a deep neural network to learn knowledge from training data and is able to predict objects in unknown scenes. To compare the performances of the proposed methods, Experiments are designed to measure their detection accuracy and runtime efficiency. The sample-score method outperforms the other two methods in speed, but the deep learning method achieves the highest accuracy. The geometry method provides a compromise between speed and accuracy. Considering different use-case, different methods can be utilized.
For object-based localization, a point-plane-object SLAM system is proposed. Based on the state-of-the-art point-SLAM system, structural planes and semantic objects are detected in every key-frame, data association among these landmarks is explored, and a graph is formulated to optimize camera poses and other components. In addition, an object-based loop detection module is designed to achieve global localization under large viewpoints. The proposed system achieves camera pose estimation and is able to build a sparse semantic map in an unknown environment. Compared to other state-of-the-art visual SLAM systems, introducing objects can benefit scene understanding and improve camera localization.
In the context of object-level mapping, an efficient semantic mapping pipeline is proposed to reconstruct the environment. After solving object detection and camera pose estimation, objects are integrated into a voxel-based mapping framework to incrementally build a global map with individual objects. Rather than relying on high computational components like pixel-wise segmentation, the method capitalizes on 2D bounding boxes to build the map, which has a comparative performance on semantic mapping while avoiding high computational costs.
To demonstrate the capabilities, all proposed methods are evaluated on open-source indoor datasets, as well as logistics scenarios. The results show that the incorporation of objects can benefit scene understanding, localization, and mapping. Furthermore, field experiments are performed on a real robotic platform to demonstrate the effectiveness and application in the real world.