Abstract:
Diese Arbeit befasst sich mit dem Einsatz von handelsüblichen, drehflügel-basierten UAVs zur Unterstützung von zivilen Einsatzkräften bei der Lageerfassung und Übersichtsgewinnung an Einsatzorten. Besonders Ersthelfern kann ihre Arbeit durch eine rasche Bewertung der Lage am Einsatzort mit Hilfe von Luftbildern, die von handelsüblichen UAV erfasst werden, erleichtert werden. Dazu stellt diese Arbeit ein zweiteiliges Rahmenwerk vor. Mit dem ersten Teil des Rahmenwerkes soll (i) die Autonomie und Sicherheit des UAVs, durch einen Ansatz zur automatischen Hinderniserkennung und Kollisionsvermeidung anhand von Bilddaten einer Stereokamera, erhöht werden. ... mehrHierfür wird im Rahmen dieser Arbeit ein Verfahren zur Disparitätsschätzung anhand von Stereo-Bildpaaren vorgestellt, welches in Echtzeit auf einem eingebetteten System an Bord des UAVs ausgeführt werden kann. Dies nutzt die Bilddaten der im UAV eingebauten Stereokamera, um Disparitätskarten zu berechnen, die das Umfeld in Flugrichtung des UAVs abbilden und welche als Eingabe für ein nachgelagerten Algorithmus zur Hinderniserkennung und reaktiven Kollisionsvermeidung dienen. Der zweite Teil des vorgestellten Rahmenwerkes befasst sich mit der (ii) schnellen und echtzeitnahen 3D-Kartierung des Einsatzgebietes, sowie mit einer schnellen 3D-Änderungsdetektion, auf Basis der Bilddaten, welche von der Hauptkamera des UAVs erfasst werden. Hierfür wird zum einen ein Verfahren zur schnellen und dichten Tiefenschätzung aus mehreren Luftbildern, welche von einer sich um die Szene bewegenden Kamera erfasst werden, vorgestellt. Des Weiteren wird ein Verfahren für die Tiefenschätzung aus einem einzelnen Luftbild vorgestellt. Während Ersteres auf konventionelle Methoden des Bildmatchings beruht, verfolgt das zweite Ver- fahren einen datengetriebenen und lernbasierten Ansatz. Die Schätzung von Tiefendaten aus nur einem Bild erlaubt die Berücksichtigung von Szenen, die dynamische Objekte, wie bspw. fahrende Autos, enthält. Eine wichtige Annahme im zweiten Teil des Rahmenwerkes ist, dass die Bilddaten der Hauptkamera während des Fluges an eine Bodenkontrollstation, die mit mehr Hardwareressourcen ausgestattet ist, übermittelt werden. Details zur Datenverbindung sind aber nicht Gegenstand dieser Arbeit.
Für die Disparitätsschätzung aus Stereobildpaaren wird ein, in der Literatur bekanntes und bewährtes Verfahren für die Echtzeitverarbeitung auf einem eingebetteten System, welches mit einer CPU und einer GPU ausgestattet ist, optimiert. Eingebettete Systeme mit einer eingebauten GPU werden zunehmend auf handelsüblichen Drohnen verbaut, da sie gegenüber FPGA-basierten Systemen vielseitiger einsetzbar und für die Ausführung von KI-Verfahren besser geeignet sind. Für die schnelle 3D-Kartierung wird ein Verfahren vorgestellt, welches anhand einer hierarchisch aufgebauten Verarbeitungskette Tiefenkarten aus drei oder mehreren Bildern berechnet. Der hierarchische Ansatz, sowie eine verbesserte Regularisierung, welche auch Oberflächenstrukturen berücksichtig, erlaubt eine effiziente und genaue Rekonstruktion von geneigten Oberflächen, welche besonders in Luftbildern mit Schrägsicht dominant sind. Das dritte, in dieser Arbeit vorgestellte Verfahren, nutzt einen lernbasierten Ansatz zur Schätzung einer Tiefenkarte aus einem einzelnen Luftbild. Dabei wird es selbst-überwacht trainiert, was keine speziellen Trainingsdaten erfordert und damit die Flexibilität in der Anwendung des Verfahrens erhöht.
Die drei, in dieser Arbeit vorgestellten methodischen Verfahren zur Tiefenschätzung im Hinblick auf den Zwei-, Mehr- und Einzelbildfall, werden detailliert beschrieben und auf Basis umfangreicher Untersuchungen hin- sichtlich ihrer Stärken und Schwächen beleuchtet. Dabei werden insbesondere ihre Leistungsfähigkeiten im Zusammenhang der betrachteten Anwendungsfälle demonstriert und herausgearbeitet. Darin zeigt sich, (i) dass das vorgestellt Verfahren für die Echtzeit-Disparitätsschätzung aus Stereobildpaaren auf eingebetteten Systemen state-of-the-art Ergebnisse erzielt und gleichzeitig sehr gut für eine Hinderniserkennung und reaktive Kollisionsvermeidung an Bord des UAVs in Echtzeit geeignet ist. (ii) Des Weiteren wird gezeigt, dass die methodischen Erweiterungen innerhalb des Verfahrens für die Mehrbild-Tiefenschätzung sowohl eine schnelle als auch genau Erfassung der Geometrie erlauben. (iii) Die Untersuchungen zur Tiefenschätzung aus einem einzelnen Luftbild mittels eines lernbasierten Verfahrens zeigen, dass ein solches Verfahren zwar noch nicht für den alleinigen Betrieb geeignet ist, sich aber gut für den komplementären Gebrauch, zusätzlich zu den Methoden, die auf konventionelles Bildmatching beruhen, eignet. Da hierbei die Stärken beider Modalitäten kombiniert werden können. (iv) Abschließend zeigt sich, dass sich sowohl die Disparitätskarten, die anhand des Stereobildpaares berechnet werden, sowie die Tiefenkarten des Verfahrens für die Mehrbild-Tiefenschätzung, gut für die betrachteten Anwendungsfälle, nämlich Hinderniserkennung und Kollisionsvermeidung bzw. 3D- Kartierung und 3D-Änderungsdetektion, eignen.
Abstract (englisch):
This work addresses the use of commercial off-the-shelf (COTS) rotor-based unmanned aerial vehicles (UAVs) to facilitate emergency forces in the rapid structural assessment of a disaster site, by means of aerial image-based reconnaissance. It proposes a framework that consists of two parts and relies on the integrated stereo vision sensor and the visual payload camera of the UAV to execute three high-level applications that aim at facilitating first responders in disaster relief missions. The first part aims at (i) increasing the autonomous and safe use of the UAV, by relying on the image data from the integrated stereo vision sensor to perform real-time obstacle detection and collision avoidance. ... mehrFor this purpose, this work presents an approach for real-time and low-latency disparity estimation, which is optimized for the execution on an on-board embedded device and computes disparity maps that depict the environment in the flight-path of the UAV. These disparity maps, in turn, serve as input to a subsequent algorithm for real-time obstacle detection and reactive collision avoidance. The second part of the presented framework addresses (ii) fast 3D mapping and 3D change detection of the disaster site, based on image data captured by the visual payload camera of the UAV. In this, an approach for fast and dense multi-view stereo depth estimation from multiple aerial images captured by a single moving camera is presented. In addition, this work also presents an approach for single-view depth estimation from a single aerial image. While the former approach is based on conventional methods for dense image matching, the latter one is a data-driven approach relying on deep learning. The estimation of depth data from a single input image allows to also consider scenes that contain dynamic objects, such as moving cars. An important assumption in the second part of the framework is that during the flight of the UAV the image data from the main camera is transmitted to a ground control station, which is equipped with more hardware resources. However, details of the data-link are not covered by this work.
For the two-view disparity estimation from image data of the stereo vision sensor, a well-known and proven approach from literature is optimized for real-time processing on an embedded system equipped with a CPU and a GPU. Embedded systems with a built-in GPU are increasingly deployed on COTS UAVs, since they are more versatile than FPGA-based systems and better suited for running artificial intelligence (AI) applications. For the task of fast 3D mapping, an approach is presented that uses a hierarchical processing pipeline to compute dense depth maps from three or more images. The hierarchical processing scheme, as well as the improved method for surface-aware regularization, allows to efficiently and accurately reconstruct slanted surfaces structures which are particularly prominent in oblique aerial imagery. The third approach presented in this work uses a deep-learning-based approach to estimate a depth map from a single aerial image. In doing so, it is trained in a self-supervised manner, which does not require any special training data and thereby increases its flexibility with respect to its practical use.
In this work, the three methodological approaches for two-view, multi-view and single-view depth estimation are presented in detail and thoroughly evaluated. Their performance with respect to the considered use-cases is extensively discussed and demonstrated. This work shows (i) that the presented approach for real-time two-view disparity estimation on embedded devices achieves state-of-the-art results and is, at the same time, well-suited for real-time and low-latency obstacle detection and reactive collision avoidance on board the UAV. (ii) Furthermore, it is shown that the methodological extensions within the approach for multi-view depth estimation allow for both fast and accurate reconstruction of the depicted scene. (iii) The experiments and investigations conducted with respect to the approach for single-view depth estimation by means of deep learning show, that even though it is not yet suited for a stand-alone use, it is well-suited for a complementary use in addition to approaches that perform depth estimation by means of conventional dense image matching.
(iv) In conclusion, both the disparity maps computed from the stereo image pair, as well as the multi-view depth maps are well-suited for the considered use-cases, namely real-time obstacle detection and collision avoidance as well as 3D mapping and 3D change detection, respectively.