Abstract:
Kollaboration zwischen Menschen und Robotern gewinnt zunehmend an Bedeutung in der Industrie und Forschung. Manipulation ist eine Grundvoraussetzung für eine erfolgreiche Kollaboration und deshalb eine grundlegende Forschungsfrage in der Robotik. Bei der Manipulation von Objekten, zum Beispiel beim Greifen eines Bohrers, müssen Roboter mit einer dynamischen Umgebungen, partieller Wahrnehmung, Model- und Ausführungsunsicherheit zurechtkommen. In dieser Arbeit identifizieren wir Einschränkungen von modellbasierten Ansätzen des gegenwärtigen Standes der Technik für Manipulationsaufgaben und untersuchen wie man diese mit Lernverfahren kombinieren und verbessern kann, um autonome Manipulation zu ermöglichen. ... mehrMaschinelle Lernverfahren wie $\textit{neuronale Netze}$, die mithilfe von großen Datenmengen ein gutes Modell lernen, sind sehr geeignet für die Robotik, da Roboter ihre Umgebung mithilfe von einer Vielzahl an Sensoren wahrnehmen und dadurch eine Fülle von Daten erzeugen. Im Gegensatz zu anderen Forschungsgebieten, wie zum Beispiel Sprach- und Bildverarbeitung, interagieren Roboter mit ihrer Umgebung, sodass Vorhersagen einen physikalischen Einfluss auf die Umgebung haben. Aufgrund der Interaktion mit der Umgebung und der kontinuierlichen Wahrnehmung ergibt sich eine Rückkopplungsschleife die neue Herangehensweisen erfordert um Sicherheitsbedenken und Geschwindigkeitsanforderungen zu erfüllen.
Das Ziel dieser Dissertation ist es zu untersuchen, wie man bestehende $\textit{modellbasierte}$ Robotersysteme mithilfe von $\textit{Lernverfahren}$ verbessern kann. Dabei ist es wichtig das vorhandene domänenspezifische Wissen nicht zu vernachlässigen, sondern in die $\textit{Lernverfahren}$ zu integrieren. Die Ergebnisse dieser Arbeit zeigen, dass $\textit{lernbasierte}$ Ansätze $\textit{modellbasierte}$ Methoden sehr gut ergänzen und es ermöglichen Probleme, die ansonsten unlösbar wären, zu lösen. Wir zeigen, wie man bestehende Modelle zum Trainieren von Lernverfahren verwenden kann. Dadurch wird problemspezifisches Expertenwissen in den Datengenerierungsprozess integriert und somit an das gelernte Modell weitergegeben. Wir entwickeln außerdem ein neues Optimierungsverfahren, das während der Optimierung etwas über den Vorgang an sich lernt. Ein solches Verfahren ist sehr relevant für eine Vielzahl von Problemen in der Robotik, da $\textit{autonome}$ Manipulationssysteme kontinuierlich neue Aufgaben lösen müssen.
Im Folgenden stellen wir die Hauptbeiträge dieser Dissertation vor, eingebettet in den Kontext von Manipulationsaufgaben.
$\textbf{Visuelle Wahrnehmung in Echtzeit trifft auf reaktive Bewegungsplanung}$
Der Hauptbeitrag dieser Arbeit ist ein voll integriertes Manipulationssystem das erste einheitliche Experimente und dadurch empirische Ergebnisse ermöglicht. Diese zeigen eindeutig, dass kontinuierliche, zeitnahe Wahrnehmung und die Integration mit schnellen Verfahren zur Erzeugung von reaktiven Bewegungen essenziell für erfolgreiche Manipulation in dynamischen Szenarien ist. Wir vergleichen drei verschiedene Systeme, welche die gängigsten Architekturen im Bereich Robotik für Manipulation repräsentieren: (i) Ein traditioneller $\textit{Sense-Plan-Act}$ Ansatz (aktuell am weitesten verbreitet), (ii) einen myopischen Regelungsansatz, der nur auf lokale Veränderungen reagiert und (iii) ein reaktives Planungsverfahren, das auf Änderungen der Umgebung reagiert diese in die Bewegungsplanung einbezieht und den aktuellen Plan transparent an einen schnelleres lokales Regelungsverfahren übergibt. Unser Gesamtsystem ist rein $\textit{modellbasiert}$ und umfangreich auf einer realen Roboterplattform in vier Szenarien empirisch evaluiert worden. Unsere experimentellen Szenarien beinhalten anspruchsvolle Geometrien im Arbeitsraum des Roboters, dynamische Umgebungen und Objekte mit denen der Roboter interagieren muss. Diese Arbeit zeigt den aktuellen Stand der Forschung, der mit einem \textit{modellbasierten} Manipulationssystem im Bereich der Robotik unter Verwendung von schnellen Rückkopplungen und langsamerer reaktiver Planung möglich ist. Angesichts des Interesses in der Robotikforschung $\textit{modellbasierte}$ Systeme mit $\textit{Ende-zu-Ende Lernansätzen}$ ganzheitlich zu ersetzen, ist es wichtig ein performantes $\textit{modellbasiertes}$ Referenzsystem zu haben um neue Methoden qualitativ in Hinblick auf ihre Fähigkeiten und ihre Generalisierbarkeit zu vergleichen. Weiterhin erlaubt ein solches System Probleme mit $\textit{modellbasierten}$ Ansätzen zu identifizieren und diese mithilfe von $\textit{learnbasierten}$ Methoden zu verbessern.
$\textbf{Online Entscheidungsfindung für Manipulation}$
Die meisten Robotermanipulationssysteme verfügen über viele Sensoren mit unterschiedlichen Modalitäten und Rauschverhalten. Die Entwicklung von $\textit{Modellen}$ für alle Sensoren ist nicht trivial und die resultierende Modelle zu komplex für Echtzeitverarbeitung in $\textit{modellbasierten}$ Manipulationssystem. Planen mit vielen Sensormodalitäten ist besonders komplex aufgrund der vielen Modellunsicherheiten. Dies ist besonders ausgeprägt für Manipulationsaufgaben bei denen Kontakte zwischen Roboter und Objekten von Bedeutung sind. Eine der Hauptherausforderung für autonome Manipulation ist daher die Erzeugung geeigneter multimodaler Referenztrajektorien, die es ermöglichen Steuerbefehle für Regelungssysteme zu berechnen die nicht modellierte Störungen kompensieren und damit die Erfüllung der gestellten Manipulationsaufgabe ermöglichen. In dieser Arbeit stellen wir einen $\textit{lernbasierten}$ Ansatz zur inkrementellen Erfassung von Referenzsignalen vor, der in Echtzeit entscheidet $\textit{wann}$ ein Verhalten abgebrochen und zu $\textit{welchem}$ Verhalten gewechselt werden sollte, um eine erfolgreiche Ausführung zu gewährleisten. Wir formulieren dieses Online-Entscheidungsproblem als zwei miteinander verbundene Klassifikationsprobleme. Beide verarbeiten die aktuellen Sensormesswerte, zusammengesetzt aus mehreren Sensormodalitäten, in Echtzeit (in 30 Hz). Dieser Ansatz basiert auf unserem domänenspezifischen Problemverständnis, dass stereotypische Bewegungsgenerierung ähnliche Sensordaten erzeugt. Unsere Experimente zeigen, dass dieser Ansatz es ermöglicht schwierige kontextbasierte Aufgaben zu erlernen, die präzise Manipulation von relativ kleinen Objekten voraussetzen. Um eine solche Aufgabe zu erlernen, benötigt ein Benutzer unseres Systems kein Expertenwissen. Das System benötigt nur kinästhetische Demonstrationen und Unterbrechungen in Fehlersituationen. Die gelernte Aufgabenausführung ist robust gegen Störeinflüsse und Sensorrauschen, da unsere Methode online entscheidet, ob sie aufgrund von unerwarteter sensorischer Signale zu einer anderen Ausführung wechseln sollte oder nicht.
$\textbf{Big-Data Greifen}$
Greifen ist ein wichtiges Forschungsproblem in der Robotik, da es eine Grundvoraussetzung für Manipulation darstellt. In dieser Arbeit konzentrieren wir uns auf das Problem der Vorhersage von Position und Orientierung bevor ein Kontakt zwischen Objekt und Endeffektor eintritt. Für diesen grundlegenden Schritt um “erfolgreich zu greifen” stehen nur visuelle Sensordaten wie 2D-Bilder und/oder 3D-Punktwolken zur Verfügung. Die Verwendung von $\textit{modellbasierten}$ Greifplanern ist in solchen Situationen nicht optimal, da präzise Simulationen zu rechenintensiv sind und alle Objekte bekannt, erkannt und visuell verfolgt werden müssen. $\textit{Lernbasierte}$ Verfahren die direkt von visuellen Sensordaten stabile Griffe vorhersagen sind sehr effizient in der Auswertung jedoch benötigen die aktuell vielversprechendsten Verfahren, neuronale Netze, eine Vielzahl von annotierten Beispielen um diese Abbildung zu lernen. Im Rahmen dieser Arbeit stellen wir eine umfangreichen Datenbank mit einer Vielzahl von Objekten aus sehr unterschiedlichen Kategorien vor. Auf Basis dieser Datenbank analysieren wir drei Aspekte: (i) Eine Crowdsourcing Studie zeigt, dass unsere neu vorgestellte Metrik auf Basis einer physikalischen Simulation ein besserer Indikator für Greiferfolg im Vergleich zu der bestehenden Standard ϵ-Metrik ist. Darüber hinaus deutet unsere Studie darauf hin, dass unsere Datengenerierung keine manuelle Datenannotation benötigt. (ii) Die daraus resultierende Datenbank ermöglicht die Optimierung von parametrischen Lernverfahren wie neuronale Netze. Dadurch, dass wir eine Abbildung von Sensordaten zu möglichen Griffen lernen, muss das Objekt, seine Position und Orientierung nicht bekannt sein. Darüber hinaus zeigen wir, dass einfachere Methoden wie logistische Regression nicht die Kapazität haben um die Komplexität unserer Daten zu erfassen. (iii) Roboter nehmen ein Szenario typischerweise aus einem Blickwinkel wahr und versuchen ein Objekt mit dem ersten Versuch zu greifen. Klassifikationsverfahren sind nicht speziell für diese Verwendung optimiert, weshalb wir eine neue Formulierung erarbeiten, welche die beste, $\textit{top-1}$ Hypothese aus den jeweiligen Teilmengen auswählt. Diese neuartige Optimierungszielsetzung ermöglicht dies selbst auf unserem binären Datensatz, da das Lernverfahren selbst die Daten ordnet und somit einfach zu erkennende Griffe selbst auswählen kann.
$\textbf{Lernen von inversen Dynamikmodellen für Manipulationsaufgaben}$
Sichere Bewegungsausführung auf Basis von Regelungskreisen sind entscheidend für Roboter die mit Menschen kollaborativ Manipulationsaufgaben lösen. Daher werden neue Methoden benötigt, die es ermöglichen inversen Dynamikmodelle zu lernen und bestehende Modelle zu verbessern, um Verstärkungsgrößen in Regelungskreisen zu minimieren. Dies ist besonders wichtig, wenn Objekte manipuliert werden, da sich das bekannte inverse Dynamikmodell dadurch verändert. Aktuelle Verfahren, welche Fehlermodelle zu bestehenden $\textit{modellbasierten}$ Regler für die inverse Dynamik zu lernen, werden auf Basis der erzielten Beschleunigungen und Drehmomenten optimiert. Da die tatsächlich realisierten Beschleunigungen, eine indirekte Datenquelle, jedoch nicht die gewünschten Beschleunigungen darstellen, werden hohe Verstärkungen im Regelkreis benötigt, um relevantere Daten zu erhalten die es erlauben ein gutes Modell zu lernen. Hohe Verstärkung im Regelkreis ist wiederum schlecht für die Sicherheit. In dieser Arbeit leiten wir ein zusätzliches Trainingssignal her, das auf der gewünschten Beschleunigungen basiert und von dem Rückkopplungssignal abgeleitet werden kann. Wir analysieren die Nutzung beider Datenquellen in Simulation und demonstrieren ihre Wirksamkeit auf einer realen Roboterplattform. Wir zeigen, dass das System das gelernte inverse Dynamikmodell inkrementell verbessert. Durch die Kombination beider Datenquellen kann ein neues Modell konsistenter und schneller gelernt werden und zusätzlich werden keine hohen Verstärkungen im Regelungskreis benötigt.
$\textbf{Lernen wie man lernt, während man lernt}$
Menschen sind bemerkenswert gut darin, neue oder angepasste Fähigkeiten schnell zu erlernen. Dies ist darauf zurückzuführen, dass wir nicht jede neue Fähigkeit von Grund auf neu erlernen, sondern stattdessen auf den bereits gewonnenen Fertigkeiten aufbauen. Die meisten robotergestützten Lernaufgaben würden davon profitieren, wenn sie ein solches abstraktes Meta-Lernverfahren zur Verfügung hätten. Ein solcher Ansatz ist von großer Bedeutung für die Robotik, da autonomes Lernen ein inhärent inkrementelles Problem ist. In dieser Arbeit stellen wir einen neuen $\textit{Meta-Lernansatz}$ vor, der es erstmals ermöglicht die Roboterdynamik online zu erlernen und auf neue Probleme zu übertragen. Während der Optimierung lernt unser Verfahren die Struktur der Optimierungsprobleme, welche für neue Aufgaben verwendet werden kann, was zu einer schnelleren Konvergenz führt. Das vorgeschlagene $\textit{Meta-Lernverfahren}$ kann zudem mit jedem beliebigen gradientenbasierten Optimierungsansatz verwendet werden. Wir zeigen, dass unser Ansatz die Dateneffizienz für inkrementelles Lernen erhöht. Weiterhin ist unser Verfahren für das $\textit{online Lernen}$ mit korrelierten Daten geeignet, zum Beispiel für inverse Dynamikmodelle. Der vorgestellte Ansatz eröffnet zusätzlich völlig neue Wege um in Simulation gewonnene Erfahrungen in die reale Welt zu transferieren. Dadurch kann möglicherweise bestehendes Domänenwissen in Form von $\textit{modellbasierter}$ Simulation auf völlig neue Weise verwendet werden.
Abstract (englisch):
Modern robotics is gravitating towards increasingly collaborative human robot interaction. Manipulation is a prerequisite for such collaborations and a fundamental research problem in robotics. While manipulating objects, for example grasping a drill, robots have to cope with dynamic environments, partial observations, and model uncertainties. In this work, we aim at $\textit{identifying limitations}$ of current state-of-the-art $\textit{model-based}$ approaches for $\textit{robot manipulation}$ and investigating how to combine such approaches with $\textit{data-driven machine learning}$ techniques towards autonomous manipulation. ... mehrMachine learning approaches such as deep neural networks, which require large amount of data to achieve good performance, are very suitable for robotics. Robots typically receive new sensor measurements in various frequencies, typically ranging from 0.1~Hz up to 1000~Hz. Thus, robots generate an abundance of data of different sensor modalities. Yet, very different from other domains, robots interact with their environment, consequently predictions have a physical effect on the world. This embodiment and the resulting feedback loop pose several challenges, such as safety concerns and time constraints. Furthermore, robots have to continuously adapt to environment changes, creating further challenges both for $\textit{model-based}$ and $\textit{learning-based}$ approaches. The objective of this thesis is to exploit how $\textit{learning-based}$ methods can improve the systems performance by exploiting domain knowledge usually applied in $\textit{model-based}$ approaches. Our results demonstrate that $\textit{learning-based}$ approaches efficiently complement $\textit{model-based}$ methods allowing to solve problems which are otherwise often intractable. We show how to use existing models to bootstrap $\textit{learning-based}$ methods, encoding expert problem information in the data generation process. We further introduce a new $\textit{learning-based}$ optimization technique, relevant to robotic problems such as continual/online task learning and model predictive control problems.
In the following, we present the core thesis contributions, always embedded in the context of robotic manipulation tasks. We start out with a high level systems perspective, then focus on three progressively more low-level aspects which arise in robotic manipulation tasks. Finally, we present an abstract learning approach with very broad applications in machine learning and optimization in general, but especially interesting ones within the robotics domain.
$\textbf{Real-Time Perception meets Reactive Motion Generation:}$
The main contribution of this work is a fully integrated system, presenting the first coherent empirical results, demonstrating the importance of continuous, real-time perception and its tight integration with reactive motion generation methods in dynamic manipulation scenarios. Three different systems that are instantiations of the most common architectures in the field are compared: (i) a traditional sense-plan-act approach (still most widely used), (ii) a myopic controller that only reacts to local environment dynamics and (iii) a reactive planner that integrates feedback control and motion optimization. The overall system is purely $\textit{model-based}$ and extensively evaluated on a real robotic platform in four scenarios that exhibit challenging workspace geometries and/or dynamic environments. This work shows the performance which can be achieved with a state-of-the-art $\textit{model-based}$ manipulation system using fast feedback. Given the rise of recent $\textit{end-to-end learning}$ approaches in robotic manipulation, neglecting almost all existing domain knowledge (e.g., in the form of models), it is especially important to have a $\textit{model-based}$ reference system. Hence, this work functions as a performance baseline for learning approaches, not only in terms of capabilities but also with respect to generalization. Within the context of this thesis, these results allow identifying problems which arise in purely $\textit{model-based}$ approaches and are suitable for $\textit{learning-based}$ extensions. For example, automatic online failure detection, inverse dynamics model learning, data association as well as grasp planning.
$\textbf{Online Decision Making for Manipulation:}$
Most robotic manipulation systems have a very diverse set of sensor modalities with different noise characteristics. Often it is not trivial to simulate ($\textit{model-based}$) all sensors; thus, it is very hard to plan with such modalities. This is especially pronounced in cases when a robotic system makes physical contact with the world, where bidirectional forces are simultaneously applied and felt by the robot. Therefore, one of the main challenges in autonomous manipulation is to generate appropriate multi-modal reference trajectories that enable feedback controllers to compute control commands that compensate for unmodeled perturbations and therefore to achieve the task at hand. In this thesis, we propose a data-driven ($\textit{learning-based}$) approach to incrementally acquire reference signals from experience and decide online $\textit{when}$ and to $\textit{which}$ successive behavior to switch, ensuring successful task execution. The online decision-making problem is reformulated as a pair of related classification problems. Both process the current sensor readings, composed of multiple sensor modalities, in real-time (at 30 Hz). This approach exploits our domain specific problem understanding that movement generation can dictate sensor feedback. Thus, enforcing stereotypical behavior will yield stereotypical sensory events which can be accumulated and stored along with the movement plan. Such movement primitives (DMPs), augmented with sensor experience, are called Associative Skill Memories (ASMs). Sensor experience consists of (real) sensors, including haptic, auditory information and visual information, as well as additional (virtual) features. Experiments show that this approach can be used to teach dexterous tasks, e.g., a bimanual manipulation task on a real platform that requires precise manipulation of relatively small objects. Task execution is robust against perturbation and sensor noise because our method decides online whether or not to switch to alternative ASMs due to unexpected sensory signals. In summary, this work demonstrated that we could $\textit{learn simple models}$ for various sensor modalities, which can be evaluated in real-time, to make decisions about the performance of our currently executed task.
$\textbf{Big-Data Grasping:}$
Grasping is a prerequisite for object manipulation, making it an important research problem in the robotics community. In this thesis, we focus on the problem of predicting/planning grasps prior to contact, where only visual information (e.g., 2D images and/or 3d point clouds) is available to infer a grasp pose and configuration. In such settings $\textit{model-based}$ approaches typically suffer from high computational complexity, require model identification from partial noisy sensor observation, and do not scale well due to a large number of available objects in the world. One promising approach is the use of deep neural networks which have been very successful in learning similar mappings, given a large set of examples. We contribute a new large-scale database that contains grasps applied to a broad set of objects from numerous categories. These grasps are generated in simulation, using our $\textit{model and domain knowledge}$, and they are automatically annotated with different grasp stability metrics. Three different aspects are further analyzed within the scope of this thesis: (i) Crowdsourcing to investigate the correlation of the metrics with grasp success as predicted by humans. The results show that our proposed metric based on physics simulation is a more consistent predictor for grasp success than the standard analytical ϵ-metric. Further, our study suggests that human labels are not required for good ground truth grasp data. (ii) Instead, we use our domain knowledge to design a fully automatic data generation process with high-quality labels using a physics-metric that may be used to bootstrap learning in the real world. The resulting rich dataset allows us to optimize highly parametric function approximators, such as deep neural networks, to learn both the partial identification and pose/configuration regression problem. Further, these parametric models allow for very fast and computationally efficient inference. Additionally, we verify that simpler methods, such as logistic regression, do not have the capacity to leverage the large-scale database. (iii) Robots typically observe a scene from one viewpoint when attempting to grasp an object. In general, we strive for a grasp predictor which enables robots to grasp an object on the first attempt successfully. This domain specific observation enables us to reformulate the typical grasp prediction-/classification- into a top-1 prediction-problem, to obtain the best hypothesis from a binary labeled dataset. Our novel loss formulation significantly outperforms previous, more traditional classification and regression formulations by a large margin while still using the same underlying models.
$\textbf{Inverse Dynamics Learning:}$
Inherently safe robot behavior is crucial for collaborative humanoid robotic manipulation tasks. Therefore, we need methods to track precisely desired policies while still maintaining system compliance. Our previously presented approaches generate reference policies for typical robot manipulation tasks such as picking up objects. As part of this thesis, we present a novel approach which extends existing $\textit{model-based}$ inverse dynamics controllers with $\textit{learned error models}$, translating desired accelerations into torques. Existing $\textit{model-based}$ approaches typically suffer from poor performance in cases of significant system payload changes. This is often the case when grasping and lifting an object. Traditional learning techniques attempt to overcome this limitation by training a full or error model on the actually realized accelerations, an indirect data source, instead of the policy’s desired accelerations. We show how an additional training signal --- measured at the desired accelerations --- can be derived from a feedback control signal. This effectively creates a second data source for learning inverse dynamics models. We analyze the use of both data sources in simulation and demonstrate its effectiveness on a real-world robotic platform. We show that our system incrementally improves the learned inverse dynamics model. By combining both data sources, we further show that $\textit{error model learning}$ converges more consistently and faster. This performance improvement is likely due to our domain knowledge and understanding of the robotic task, resulting in the derivation of the proposed additional data source.
$\textbf{Learning to Learn While Learning:}$ Humans are remarkably skilled at quickly acquiring new skills, or adapting existing ones. This ability can be attributed to the fact that we do not learn each new skill from scratch, but instead build upon prior knowledge. Most robotic learning tasks would benefit from being guided by a ``meta-learner'', especially given that multiple skill learning is an inherently incremental problem for truly autonomous systems. In this thesis, we present a novel meta-learning approach which learns the robot dynamics online and affords transfer of the learned structure to new tasks, resulting in faster convergence. The proposed meta-learning approach is advantageous because (i) it can be combined with any gradient-based optimizer, (ii) allows learning on the fly, and (iii) can be transferred to new optimization tasks. Model-based control, often used in robotic manipulation, is particularly well suited for our approach since very similar optimization problems have to be solved in a recurrent manner. Further, our approach not only significantly reduces the amount of required observed data samples, a challenge for real robot experiments, but opens up an entirely new avenue to achieve simulation to real-world transfer. Hence, it allows us to exploit existing domain knowledge in the form of $\textit{model-based}$ simulation in entirely novel ways.