Abstract:
Das Multi-Personen-Tracking ist eine grundlegende Aufgabe der Computer Vision mit verschiedenen Anwendungen wie etwa Überwachung, autonomes Fahren und Sportanalyse. Das Ziel ist es, alle Personen in jedem Bild einer Videosequenz zu lokalisieren und zu identifizieren. Dies ermöglicht es, Personen in sicherheitskritischen Bereichen zu verfolgen, die Bewegung von Fußgängern im Straßenverkehr vorherzusagen oder Laufstatistiken bei Fußballspielen zu berechnen. Die meisten Methoden folgen dem Tracking-by-Detection-Paradigma, bei dem das Trackingproblem in die beiden Teilaufgaben Detektion und Assoziation aufgeteilt wird. ... mehrFür die generierten Detektionen werden typischerweise Bewegungs- und Erscheinungsmerkmale extrahiert, um die Assoziationsaufgabe zu lösen, die darin besteht, Detektionen von gleichen Objekten zu Tracks zusammenzufügen. Diese Arbeit zeigt, dass bestehende Trackingansätze aus der Literatur diese verfügbaren Informationen auf unzureichende Art und Weise ausnutzen. Daher wird ein neuartiges Trackingframework eingeführt, das sowohl die Nutzung der verfügbaren Detektionen als auch den Fusionsmechanismus von Bewegungs- und Erscheinungsinformationen bei der Assoziation verbessert.
Die meisten Trackingfehler treten in Menschenmengen auf, wo fehlende Detektionen aufgrund von Verdeckungen die Assoziationsaufgabe erschweren. Um die Performanz in solchen Situationen zu verbessern, wird eine angepasste Non-Maximum Suppression vorgeschlagen, die es ermöglicht, stark verdeckte Detektionen in den Assoziationsprozess einzubeziehen, die von bisherigen Trackingansätzen verworfen wurden. Zwei verschiedene Techniken werden eingeführt, um die zusätzliche Menge an stark verdeckten Detektionen zu nutzen. Die erste Methode integriert diese in einer zweiten Assoziationsstufe, in der sie mit den verbleibenden, ungematchten Tracks aus der ersten Stufe verglichen werden. Der zweite Ansatz verwendet die verfügbaren Trackinformationen, um Trackcluster mit fehlenden Detektionen zu identifizieren und die stark verdeckten Detektionen in diesen Bereichen lokal einzubeziehen. Beide Techniken erhöhen nicht nur die Detektionssensitivität bei starker Verdeckung, sondern vereinfachen auch die Assoziationsaufgabe indem sie die Anzahl der fehlenden Detektionen verringern und so Mehrdeutigkeiten bei der Zuordnung von Detektionen zu Tracks beseitigen.
Neben der Verwendung von Detektionen spielt die Art und Weise, wie die verfügbaren Informationen über Erscheinung und Bewegung von Personen genutzt werden, eine Schlüsselrolle für die Assoziationsgenauigkeit. In dieser Arbeit werden existierende Fusionsmechanismen für Bewegungs- und Erscheinungsformationen innerhalb eines gemeinsamen Basisverfahrens evaluiert, was einen umfassenden und fairen Vergleich erstmalig ermöglicht, und Schwächen der vorherrschenden Ansätze werden herausgearbeitet. Darauf aufbauend werden neuartige kombinierte Distanzmaße zur besseren Ausnutzung von Bewegungs- und Erscheinungsinformationen in der Assoziation vorgestellt, die bisherige Varianten deutlich übertreffen.
Um die Entstehung von Geistertracks durch Mehrfachdetektionen in Bereichen hoher Personendichte zu verhindern, wird eine verdeckungsbewusste Initialisierungsstrategie vorgeschlagen. Sie leitet Wissen über die Nachbarschaft von ungematchten Detektionen aus den verfügbaren Trackinformationen ab, um Mehrfachdetektionen zu identifizieren und zu verwerfen. Darüber hinaus wird ein leichtgewichtiges Modell zur Kompensation möglicher Kamerabewegungen vorgestellt, das für Anwendungen mit nicht statischen Kameras von großer Bedeutung ist. Die eingeführten Module werden zu einem neuartigen System kombiniert, das den Stand der Technik in etablierten Benchmarks des Multi-Personen-Trackings übertrifft. Diese Leistung ist vor allem auf eine bessere Nutzung der verfügbaren Informationen im Trackingprozess zurückzuführen, da die gleichen Modelle für die Detektion sowie die Extraktion von Erscheinungs- und Bewegungsinformationen wie in den konkurrierenden Trackern verwendet werden.
Außerdem werden mehrere Optimierungen vorgenommen, um das rechenintensive Framework für das Multi-Personen-Tracking zu beschleunigen. Dazu gehören die Anwendung eines effizienten Modells für die Extraktion von Erscheinungsinformationen, die Verwendung einer leistungsstarken Bibliothek für die Inferenz neuronaler Netze und Parallelisierung. Das resultierende System läuft ohne nennenswerte Leistungseinbußen in Echtzeit und kann hunderte von Personen gleichzeitig tracken. Und das, obwohl es alle wichtigen Komponenten wie Erscheinungsmodell oder Kamerabewegungskompensation enthält, die von vielen Methoden aus der Literatur nicht verwendet werden, um eine geringe Laufzeit zu erreichen.
Abstract (englisch):
Multi-person tracking is a fundamental task in computer vision with various applications such as surveillance, autonomous driving, and sports analysis. The goal is to localize and identify all persons in each frame of a video sequence. This allows to track persons in safety-critical areas, predict the movement of pedestrians in road traffic, or calculate running statistics at soccer games. The majority of methods follows the tracking-by-detection paradigm dividing the tracking problem into the two subtasks detection and association. For the generated detections, motion and appearance cues are typically extracted to solve the association task of joining detections from the same targets to tracks.
... mehr
This thesis shows that existing tracking approaches from the literature exploit this available information in an insufficient way. Consequently, a novel tracking framework is introduced that improves both the utilization of available detections as well as the fusion mechanism of motion and appearance information in the association.
Most tracking errors occur in crowds, where missed detections due to occlusion complicate the association task. To improve the performance in such situations, an adapted non-maximum suppression is proposed, which allows to include detections under severe occlusion in the association process that were discarded by previous tracking approaches. Two different techniques are suggested to leverage the additional set of heavily-occluded detections. The first one integrates these in a second association stage, where they are matched to the remaining unassigned tracks from the first stage. The second approach utilizes the available track information to identify track clusters with missing detections and incorporates the heavily-occluded detections in these areas locally. Both techniques not only enhance detection recall under strong occlusion but also simplify the association task by reducing the number of missing detections and thus eliminating ambiguities in the assignment of detections to tracks.
Next to the usage of detections, the way of leveraging the available information on appearance and motion of targets plays a key role for the association accuracy. In this thesis, existing fusion mechanisms for motion and appearance information are evaluated within a common base framework, allowing a thorough and fair comparison for the first time, and weaknesses of the prevailing approaches are elaborated. Building on this, novel combined distance measures for a better utilization of motion and appearance information in the association are introduced that significantly outperform previous variants.
To prevent the start of ghost tracks from duplicate detections in crowded areas, an occlusion-aware initialization strategy is suggested. It derives knowledge about the neighborhood of unassigned detections from the available track information to identify and discard duplicates. Moreover, a lightweight model for compensating potential camera motion is presented, which is of great importance for applications with non-static cameras. The proposed modules are combined into a novel framework that surpasses the state of the art in established multi-person tracking benchmarks. This achievement is mainly due to a better use of available information in the tracking process, since the same models are adopted for detection as well as extraction of appearance and motion information as in the competing trackers.
Additionally, several optimizations are made to accelerate the computationally complex multi-person tracking framework, including the application of an efficient model for extracting appearance information, the use of a high-performance library for neural network inference, and parallelization. Without a significant loss of performance, the resulting system runs in real time while being capable of tracking hundreds of targets simultaneously. This is despite the fact that it includes all important components like appearance model or camera motion compensation, which are not used by many methods from the literature in order to achieve a low runtime.