Abstract:
Trotz seines nachgewiesenen Potenzials, Aufgaben in verschiedenen Domänen von Grund auf zu erlernen, bleibt die Notwendigkeit einer großen Anzahl von Trainingsepisoden in Kombination mit Sicherheitsbedenken ein wesentlicher limitierender Faktor für die Anwendung von Reinforcement Learning (RL) in der Robotik.
Das Erlernen von Fähigkeiten direkt auf realen Robotern ist zeitaufwendig, verursacht Verschleiß und birgt das Risiko von Schäden sowohl am Roboter als auch an seiner Umgebung durch unsichere explorative Aktionen.
Obwohl das Erlernen von Fähigkeiten in Simulationen und deren Übertragung auf reale Roboter vielversprechend ist, wird der Erfolg durch die sogenannte „Reality Gap“ – also die Diskrepanz zwischen Simulation und physischer Welt – eingeschränkt.
... mehr
Diese Herausforderung ist besonders ausgeprägt bei Aufgaben, die den Kontakt mit der Umgebung erfordern, da sich Kontaktdynamiken nur schwer genau modellieren und simulieren lassen.
Darüber hinaus ist die Erstellung realistischer Simulationen selbst ein mühsamer und zeitintensiver Prozess.
Diese Arbeit adressiert diese Herausforderungen, indem Methoden entwickelt werden, die Aufgabenwissen und Einschränkungen in das RL einbeziehen, um so die Stichprobeneffizienz und Sicherheit während der Exploration und Ausführung zu verbessern.
Unbekanntes Aufgabenwissen und Aktionen werden von einem RL-Agenten erlernt, der in eingeschränkten Umgebungen exploriert, was ein direktes Lernen auf realen Robotern ermöglicht – insbesondere bei kontaktintensiven Aufgaben.
Die erste Methode dieser Arbeit, Reinforcement Learning with Shared Control Templates (RL-SCT), nutzt handgestaltetes Aufgabenwissen und Sicherheitsbeschränkungen, um Zustands- und Aktionsräume zu reduzieren und dadurch sicheres und stichprobeneffizientes Lernen auf realen Robotern zu ermöglichen.
Die zweite Methode, Kernelized Guided Reinforcement Learning (KGRL), erweitert diesen Ansatz, indem sie menschliche Demonstrationen integriert, um Politiken zu initialisieren und Einschränkungen über Linearly Constrained Null-Space Kernelized Movement Primitives (LC-NS-KMP) durchzusetzen.
KGRL verbessert die Extraktion von Aufgabenwissen im Vergleich zu RL-SCT, indem es Strategien zur Aufgabenerfüllung direkt aus Demonstrationen ableitet.
Es führt zustandsabhängiges, unsicherheitsbewusstes Explorationsrauschen ein, das aus der Varianz der Demonstrationen abgeleitet wird, und erzwingt lineare Ungleichungsbeschränkungen für den Roboterzustand, um eine sichere, geführte Exploration zu gewährleisten.
Die dritte Methode, Smooth Kernelized Guided Reinforcement Learning (sKGRL), erweitert KGRL durch die Einbeziehung einer glatten Explorationsstrategie unter Verwendung glatter Kerne (z. B. radialer Basisfunktionen) und der Zustandsverlaufshistorie des Roboters, um abrupte, hochbeschleunigte Bewegungen zu minimieren und die Sicherheit weiter zu erhöhen.
Im Gegensatz zu klassischem RL erzwingen unsere Methoden Beschränkungen explizit, wodurch einfachere Belohnungsfunktionen ohne zusätzliche Kostenbegriffe für Beschränkungsverletzungen möglich werden.
Gemeinsam ermöglichen diese Beiträge ein effizientes und sicheres Reinforcement Learning direkt auf realen Robotern und fördern damit die Anwendbarkeit von RL auf komplexe, kontaktintensive Manipulationsaufgaben in der Robotik.
Evaluierungen auf realen Robotern und in simulierten Umgebungen zeigen, dass diese Frameworks bestehende klassische RL-Methoden in Sicherheits- und Effizienzmetriken übertreffen – etwa durch geringere Flüssigkeitsverschüttung, weniger Kollisionen, geringere Interaktionskräfte und vor allem eine reduzierte Anzahl von Trainingsepisoden.
Durch die Kombination von Shared Control, demonstrationsgeleitetem Lernen und glatter Exploration bietet diese Arbeit einen ganzheitlichen Ansatz für das Reinforcement Learning in der realen Welt.
Wir präsentieren eine umfassende Evaluation dieser Methoden, um ihre Fähigkeit zur Bewältigung vielfältiger Manipulationsaufgaben zu demonstrieren.
Die Ergebnisse dieser Arbeit liefern neuartige Frameworks für skalierbares, sicheres Reinforcement Learning und treiben das Feld in Richtung praktischer Anwendungen in komplexen, kontaktintensiven robotischen Manipulationsaufgaben voran.
Abstract (englisch):
Despite its proven potential to learn tasks from scratch across diverse domains, the requirement for a large number of training episodes, coupled with safety concerns, remains a major limiting factor for applying Reinforcement Learning (RL) in robotics.
Learning skills directly on real robots is time-consuming, causes wear and tear, and risks damage to both the robot and its environment due to unsafe exploratory actions.
Although learning skills in simulation and transferring them to real robots has shown promise, its success is limited by the reality gap between simulation and the physical world.
... mehr
This challenge is particularly pronounced for tasks involving contact with the environment, as contact dynamics are difficult to model and simulate accurately.
Moreover, designing realistic simulations is itself a tedious and time-consuming process.
This work addresses these challenges by developing methods that incorporate task knowledge and constraints to guide RL, thereby improving sample efficiency and safety during exploration and execution. Unknown task knowledge and actions are learned by an RL agent exploring within constrained environments, enabling learning directly on real robots, especially for contact-rich tasks. The first method in this work, Reinforcement Learning with Shared Control Templates (RL-SCT) leverages hand-designed task knowledge and safety constraints to reduce state and action spaces, enabling safe and sample-efficient learning on real robots.
The second method, Kernelized Guided Reinforcement Learning (KGRL) enhances this by integrating human demonstrations to initialize policies and enforce constraints via Linearly Constrained Null-Space Kernelized Movement Primitives (LC-NS-KMP).
KGRL improves task knowledge extraction over RL-SCT by deriving task completion strategies directly from demonstrations.
It introduces state-dependent, uncertainty-aware exploration noise derived from demonstration variance and imposes linear inequality constraints on the robot's state to ensure safe guided exploration.
The third method, Smooth Kernelized Guided Reinforcement Learning (sKGRL) extends KGRL by incorporating smooth exploration strategy, utilizing smooth kernels (e.g., radial basis functions) and robot state history to minimize abrupt, high-acceleration actions, further enhancing safety. Unlike classical RL, our methods enforce constraints explicitly, allowing for simpler reward functions without cost terms for constraint violations.
Together, these contributions enable efficient and safe reinforcement learning directly on real robots, advancing RL's applicability for complex, contact-rich robotic manipulation tasks.
Evaluated on real robot and simulated environments, these frameworks outperform existing classical RL methods in safety and efficiency metrics, such as reduced spillage of liquid, collisions, interaction forces and more importantly the number of training episodes.
By incorporating shared control, demonstration-guided learning, and smooth exploration, this work offers a holistic approach to real-world robotic reinforcement learning. We offer extensive evaluation of these methods to showcase their ability to handle diverse manipulation tasks.
The findings in this work provide novel frameworks for scalable, safe RL, advancing the field toward practical deployment in complex, contact-rich robotic manipulation tasks.