Abstract:
Die automatische Interpretation menschlicher Bewegungsabläufe auf Basis von Videos ist ein wichtiger Bestandteil vieler Anwendungen im Bereich des Maschinellen Sehens, wie zum Beispiel Mensch-Roboter Interaktion, Videoüberwachung, und inhaltsbasierte Analyse von Multimedia Daten. Anders als die meisten Ansätze auf diesem Gebiet, die hauptsächlich auf die Klassifikation von einfachen Aktionen, wie Aufstehen, oder Gehen ausgerichtet sind, liegt der Schwerpunkt dieser Arbeit auf der Erkennung menschlicher Aktivitäten, d.h. komplexer Aktionssequenzen, die meist Interaktionen des Menschen mit Objekten beinhalten.
... mehr
Gemäß der Aktionsidentifikationstheorie leiten menschliche Aktivitäten ihre Bedeutung nicht nur von den involvierten Bewegungsmustern ab, sondern vor allem vom generellen Kontext, in dem sie stattfinden. Zu diesen kontextuellen Informationen gehören unter anderem die Gesamtheit aller vorher furchgeführter Aktionen, der Ort an dem sich die aktive Person befindet, sowie die Menge der Objekte, die von ihr manipuliert werden. Es ist zum Beispiel nicht möglich auf alleiniger Basis von Bewegungsmustern und ohne jeglicher Miteinbeziehung von Objektwissen zu entschieden ob eine Person, die ihre Hand zum Mund führt gerade etwas isst oder trinkt, raucht, oder bloß die Lippen abwischt.
Die meisten Arbeiten auf dem Gebiet der computergestützten Aktons- und Aktivitätserkennung ignorieren allerdings jegliche durch den Kontext bedingte Informationen und beschränken sich auf die Identifikation menschlicher Aktivitäten auf Basis der beobachteten Bewegung. Wird jedoch Objektwissen für die Klassifikation miteinbezogen, so geschieht dies meist unter Zuhilfenahme von überwachten Detektoren, für deren Einrichtung widerum eine erhebliche Menge an Trainingsdaten erforderlich ist. Bedingt durch die hohen zeitlichen Kosten, die die Annotation dieser Trainingsdaten mit sich bringt, wird das Erweitern solcher Systeme, zum Beispiel durch das Hinzufügen neuer Typen von Aktionen, zum eigentlichen Flaschenhals. Ein weiterer Nachteil des Hinzuziehens von überwacht trainierten Objektdetektoren, ist deren Fehleranfälligkeit, selbst wenn die verwendeten Algorithmen dem neuesten Stand der Technik entsprechen. Basierend auf dieser Beobachtung ist das Ziel dieser Arbeit die Leistungsfähigkeit computergestützter Aktivitätserkennung zu verbessern mit Hilfe der Hinzunahme von Objektwissen, welches im Gegensatz zu den bisherigen Ansätzen ohne überwachten Trainings gewonnen werden kann.
Wir Menschen haben die bemerkenswerte Fähigkeit selektiv die Aufmerksamkeit auf bestimmte Regionen im Blickfeld zu fokussieren und gleichzeitig nicht relevante Regionen auszublenden. Dieser kognitive Prozess erlaubt es uns unsere beschränkten Bewusstseinsressourcen unbewusst auf Inhalte zu richten, die anschließend durch das Gehirn ausgewertet werden. Zum Beispiel zur Interpretation visueller Muster als Objekte eines bestimmten Typs. Die Regionen im Blickfeld, die unsere Aufmerksamkeit unbewusst anziehen werden als Proto-Objekte bezeichnet. Sie sind definiert als unbestimmte Teile des visuellen Informationsspektrums, die zu einem späteren Zeitpunkt durch den Menschen als tatsächliche Objekte wahrgenommen werden können, wenn er seine Aufmerksamkeit auf diese richtet. Einfacher ausgedrückt: Proto-Objekte sind Kandidaten für Objekte, oder deren Bestandteile, die zwar lokalisiert aber noch nicht identifiziert wurden. Angeregt durch die menschliche Fähigkeit solche visuell hervorstechenden (salienten) Regionen zuverlässig vom Hintergrund zu unterscheiden, haben viele Wissenschaftler Methoden entwickelt, die es erlauben Proto-Objekte zu lokalisieren. Allen diesen Algorithmen ist gemein, dass möglichst wenig statistisches Wissens über tatsächliche Objekte vorausgesetzt wird.
Visuelle Aufmerksamkeit und Objekterkennung sind sehr eng miteinander vernküpfte Prozesse im visuellen System des Menschen. Aus diesem Grund herrscht auf dem Gebiet des Maschinellen Sehens ein reges Interesse an der Integration beider Konzepte zur Erhöhung der Leistung aktueller Bilderkennungssysteme. Die im Rahmen dieser Arbeit entwickelten Methoden gehen in eine ähnliche Richtung: wir demonstrieren, dass die Lokalisation von Proto-Objekten es erlaubt Objektkandidaten zu finden, die geeignet sind als zusätzliche Modalität zu dienen für die bewegungsbasierte Erkennung menschlicher Aktivitäten. Die Grundlage dieser Arbeit bildet dabei ein sehr effizienter Algorithmus, der die visuelle Salienz mit Hilfe von quaternionenbasierten DCT Bildsignaturen approximiert. Zur Extraktion einer Menge geeigneter Objektkandidaten (d.h. Proto-Objekten) aus den resultierenden Salienzkarten, haben wir eine Methode entwickelt, die den kognitiven Mechanismus des Inhibition of Return implementiert. Die auf diese Weise gewonnenen Objektkandidaten nutzen wir anschliessend in Kombination mit state-of-the-art Bag-of-Words Methoden zur Merkmalsbeschreibung von Bewegungsmustern um komplexe Aktivitäten des täglichen Lebens zu klassifizieren.
Wir evaluieren das im Rahmen dieser Arbeit entwickelte System auf diversen häufig genutzten Benchmark-Datensätzen und zeigen experimentell, dass das Miteinbeziehen von Proto-Objekten für die Aktivitätserkennung zu einer erheblichen Leistungssteigerung führt im Vergleich zu rein bewegungsbasierten Ansätzen. Zudem demonstrieren wir, dass das vorgestellte System bei der Erkennung menschlicher Aktivitäten deutlich weniger Fehler macht als eine Vielzahl von Methoden, die dem aktuellen Stand der Technik entsprechen. Überraschenderweise übertrifft unser System leistungsmäßig sogar Verfahren, die auf Objektwissen aufbauen, welches von überwacht trainierten Detektoren, oder manuell erstellten Annotationen stammt.
Benchmark-Datensätze sind ein sehr wichtiges Mittel zum quantitativen Vergleich von computergestützten Mustererkennungsverfahren. Nach einer Überprüfung aller öffentlich verfügbaren, relevanten Benchmarks, haben wir jedoch festgestellt, dass keiner davon geeignet war für eine detaillierte Evaluation von Methoden zur Erkennung komplexer, menschlicher Aktivitäten. Aus diesem Grund bestand ein Teil dieser Arbeit aus der Konzeption und Aufnahme eines solchen Datensatzes, des KIT Robo-kitchen Benchmarks. Wie der Name vermuten lässt haben wir uns dabei für ein Küchenszenario entschieden, da es ermöglicht einen großen Umfang an Aktivitäten des täglichen Lebens einzufangen, von denen viele Objektmanipulationen enthalten. Um eine möglichst umfangreiche Menge natürlicher Bewegungen zu erhalten, wurden die Teilnehmer während der Aufnahmen kaum eingeschränkt in der Art und Weise wie die diversen Aktivitäten auszuführen sind. Zu diesem Zweck haben wir den Probanden nur die Art der auszuführenden Aktivität mitgeteilt, sowie wo die benötigten Gegenstände zu finden sind, und ob die jeweilige Tätigkeit am Küchentisch oder auf der Arbeitsplatte auszuführen ist. Dies hebt KIT Robo-kitchen deutlich hervor gegenüber den meisten existierenden Datensätzen, die sehr unrealistisch gespielte Aktivitäten enthalten, welche unter Laborbedingungen aufgenommen wurden. Seit seiner Veröffentlichung wurde der resultierende Benchmark mehrfach verwendet zur Evaluation von Algorithmen, die darauf abzielen lang andauerne, realistische, komplexe, und quasi-periodische menschliche Aktivitäten zu erkennen.
Abstract (englisch):
Automatic interpretation of human motions from videos is an important component of many computer vision applications such as human-robot interaction, surveillance, and multimedia retrieval. While most existing approaches in this area are designed to classify simple actions such as standing up or walking, the scope of this work lies in the recognition of complex action sequences involving human-object interactions, also known as activities.
According to the action identification theory, an activity derives its meaning from the overall context and not from motion alone. Such contextual information may involve, among others, the sum of all previously performed actions, the location where the action in question is executed, as well as the objects that are manipulated by the actor. ... mehrFor instance, when only considering motion information while neglecting object knowledge, it is not possible to discern accurately whether a person raising his hand towards the mouth is eating, drinking, or cleaning his mouth.
Still, most works in action and activity recognition ignore any contextual cues and focus on the identification of activities based on motion alone. On the other hand, approaches that do incorporate object information usually depend on detectors that require supervised training. Since a substantial amount of manually annotated training data is needed to build the detectors, expanding such frameworks (e.g., adding new action classes) becomes the bottleneck for generalized tasks. Another disadvantage of obtaining object knowledge by relying on supervised detectors lies in the unreliability of state-of-the-art general purpose object detection approaches. Hence, the main goal of this work is to boost activity recognition performance by augmenting motion features with object information that can be obtained without any supervision.
Us humans have the remarkable ability to selectively attend to an area of the visual field while ignoring the surrounding regions. This process is known as attention and serves us as a selective gating mechanism that decides what will be processed at later stages (e.g., object recognition).
The regions that draw our attention are also known as proto-objects and are defined as volatile units of visual information that may be validated as actual objects through focused attention. Or, to put it in other words, proto-objects are object- or object-part candidates that have been detected, but not yet identified. Motivated by the ability of humans to reliably determine such visually salient regions from the background, many approaches have been proposed in the literature to detect proto-objects with the least statistical knowledge of the objects themselves.
Since visual attention and object recognition are tightly linked processes in the human visual system, there is an increasing interest in integrating both concepts to improve the performance of computer vision systems. In this work, we show that proto-object detection also allows us to find object candidate regions that can be used as an additional cue for motion-based activity recognition. To this end, we make use of a very fast visual saliency estimation method, that is based on quaternion DCT image signatures.
For the selection of a set of object candidates (\ie proto-objects) from the saliency maps, we propose an approach implementing the concept of inhibition of return. The extracted object-candidate features are further used in conjunction with state-of-the-art local spatio-temporal Bag-of-Words motion encoding methods to classify complex activities of daily living.
In an experimental evaluation on several widely used benchmark data sets, we demonstrate that proto-object based features yield a superior performance compared to only using motion information. Surprisingly, the proposed approach also outperforms methods relying on object knowledge from supervised detectors or manual annotations. Furthermore, the reported classification accuracy results in a clear improvement over current state-of-the-art methods for activity recognition.
Benchmark data sets are an important tool to assess the performance of computer vision approaches. Due to a lack of suitable benchmarks allowing an in-depth comparison of methods for the recognition of complex activities, part of this work consisted of the setup and collection of the now publicly available KIT Robo-kitchen data set.
As the name suggests, a kitchen scenario has been chosen as the setting for the video recordings, since it provides a vast range of possible everyday activities involving human-object interactions. The participants were barely restricted in how to perform the activities which resulted in a collection of natural motions with much variation as opposed to most currently existing action and activity recognition data sets. Therefore the subjects only got brief information about what to do, such as where to find the required objects, or to perform the activity at a location of their choice at the table.
The resulting data set has since its publication served as a benchmark to evaluate the performance of several approaches aimed at the recognition of complex, long-lasting, quasi-periodic, and realistic human activities.