Unified Movement Primitives and Advanced Reinforcement Learning for Efficient Robotic Skill Learning

Li, Ge

doi:10.5445/IR/1000192658

Abstract:

Künstliche Intelligenz hat die Art und Weise, wie Maschinen mit der Welt interagieren, grundlegend verändert und es physischen Agenten wie Robotern ermöglicht, intelligent und autonom zu agieren. Machine Learning-Verfahren, einschließlich Imitation Learning und Reinforcement Learning (RL), befähigen Roboter, auf Grundlage von Daten oder vordefinierten Belohnungssignalen zu erkennen, zu schlussfolgern und zu handeln. Eine erfolgreiche Policy fungiert als „Gehirn“ des Roboters und bestimmt, wann und wie er handelt. In den meisten Ansätzen werden Actions in jedem Zeitschritt vorhergesagt, was zu extrem hohen Entscheidungsfrequenzen führt.
... mehr

Im Gegensatz dazu treffen Menschen, ob als Kleinkinder oder Experten, Entscheidungen nicht in solch hoher Frequenz und denken auch nicht bewusst über jede Mikrobewegung bei sehr hohen Frequenzen nach. Stattdessen tun wir es einfach: Wir bewegen die Finger, um ein Objekt zu greifen, schwingen den Arm oder schießen einen Fußball. Wir entscheiden uns für eine Action Sequence, führen diese aus und nehmen während der Ausführung nur kleine Anpassungen vor.

Movement Primitives (MPs) sind Bewegungsdarstellungs- und -generierungstechniken, die von biologischen Bewegungen inspiriert sind. Sie kodieren und modulieren komplexe Bewegungen mithilfe latenter Parameter, die typischerweise eine geringere Dimensionalität als die ursprüngliche Trajektorie aufweisen. MPs werden in der Robotik breit eingesetzt und wurden in jüngerer Zeit mit Deep Learning-Architekturen kombiniert, um Probleme zu adressieren, die durch schrittweise Action Prediction entstehen, wie geringe Glattheit, abrupte Übergänge und ineffiziente Exploration im Reinforcement Learning.

Trotz ihrer Vorteile stehen MPs vor zwei zentralen Herausforderungen. Erstens die Representation Capacity: die Fähigkeit, sowohl die dynamischen als auch die statistischen Eigenschaften einer Bewegung zu erfassen, um reibungslose Action Replanning zu gewährleisten und gleichzeitig Bewegungskorrelationen und Unsicherheiten zu modellieren. Zweitens die Integration Efficiency: die effektive Kombination von MPs mit Reinforcement Learning, sodass Roboter nicht bei jedem Zeitschritt zufällige Actions wählen und sich wie in einem Random Walk verhalten.

Diese Dissertation befasst sich mit diesen Herausforderungen und präsentiert mehrere Algorithmen, die diese Lücke schließen. Zunächst werden zwei klassische MP-Modelle, Dynamic Movement Primitives (DMPs) und Probabilistic Movement Primitives (ProMPs), durch analytische Lösung der zugrunde liegenden Differentialgleichungen der DMPs vereinigt. Das resultierende Framework, ProDMPs, vereint die Stärken beider Modelle und erfasst sowohl die dynamische Glattheit als auch die probabilistische Struktur. Darüber hinaus werden zwei neue RL-Methoden vorgestellt: Temporally Correlated Episodic RL und Transformer-based Episodic RL, die feingranulare Aktualisierungen von MP-basierten Policies und eine präzise Bewertung von Action Sequences ermöglichen.

Diese Dissertation präsentiert meine Forschung zur Action Sequence Modeling und zum Policy Learning, die ich im Rahmen meiner Promotion durchgeführt habe. Sie zeigt, wie ich Movement Primitive-Modelle verbessert habe und dadurch die Learning Efficiency sowie die Policy Performance von Robotik-Agenten gesteigert habe.

Abstract (englisch):

Artificial intelligence has profoundly transformed how machines interact with the world, enabling physical agents such as robots to become intelligent and autonomous. Machine learning techniques, including imitation learning and reinforcement learning (RL), allow robots to perceive, reason, and act based on data or predefined reward signals. A successful control policy serves as the robot’s brain, determining when and how it acts. In most approaches, actions are predicted at every time step, leading to extremely high decision frequencies.

In contrast, humans, whether as infants or experts, do not make decisions at such high rates, nor consciously think about every micro-movement at very high frequency. ... mehrInstead, we just do it: moving fingers to grasp an object, swinging an arm to hit a tennis ball, or shooting a football using our legs. We decide on a course of action, execute a sequence of movements, and make slight adjustments during execution.

Movement Primitives (MPs) are motion representation and generation techniques inspired by biological movements. They encode and modulate complex motions using latent parameters, typically of lower dimensionality than the original trajectory. MPs are widely used in robot learning and, more recently, have been integrated with deep learning architectures to address issues caused by per-step action prediction, such as poor smoothness, abrupt transitions, and inefficient exploration in reinforcement learning.

Despite their advantages, MPs face two major challenges. First is representation capacity: the ability to capture both the dynamical and statistical characteristics of movement, ensuring smooth action replanning while modeling motion correlations and uncertainty. Second is integration efficiency: combining MPs effectively with reinforcement learning so that robots do not sample random actions at each time step, resulting in behaviors resembling a random walk.

This dissertation addresses these challenges and presents several algorithms bridging the gap. First, it unifies two classical MP models, Dynamic Movement Primitives (DMPs) and Probabilistic Movement Primitives (ProMPs), by analytically solving the underlying ODEs of DMPs. The resulting framework, ProDMPs, inherits the strengths of both, capturing dynamical smoothness and probabilistic structure. Next, two novel RL methods are proposed: Temporally Correlated Episodic RL and Transformer-based Episodic RL, which enable fine-grained updates of MP-based policies and precise evaluation of action sequence values.

This dissertation presents my research on action sequence modeling and policy learning, conducted during my PhD studies. It demonstrates how I improved movement primitive models, thereby enhancing learning efficiency and policy performance for robotic agents.

Zugehörige Institution(en) am KIT	Institut für Anthropomatik und Robotik (IAR)
Publikationstyp	Hochschulschrift
Publikationsdatum	30.04.2026
Sprache	Englisch
Identifikator	KITopen-ID: 1000192658
Verlag	Karlsruher Institut für Technologie (KIT)
Umfang	xii, 157 S.
Art der Arbeit	Dissertation
Fakultät	Fakultät für Informatik (INFORMATIK)
Institut	Institut für Anthropomatik und Robotik (IAR)
Prüfungsdatum	20.11.2025
Nachgewiesen in	OpenAlex
Relationen in KITopen	Verweist auf ProDMP: A Unified Perspective on Dynamic and Probabilistic Movement Primitives. Li, Ge; Jin, Zeqi; Volpp, Michael; Otto, Fabian; Lioutikov, Rudolf; Neumann, Gerhard (2023) Zeitschriftenaufsatz (1000156863) Open the Black Box: Step-based Policy Updates for Temporally-Correlated Episodic Reinforcement Learning. Li, Ge; Zhou, Hongyi; Roth, Dominik; Thilges, Serge; Otto, Fabian; Lioutikov, Rudolf; Neumann, Gerhard (2024) Proceedingsbeitrag (1000173857) TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning. Li, Ge; Tian, Dong; Zhou, Hongyi; Jiang, Xinkai; Lioutikov, Rudolf; Neumann, Gerhard (2025) Proceedingsbeitrag (1000179043)
Referent/Betreuer	Neumann, Gerhard Stulp, Freek

Repository KITopen

Unified Movement Primitives and Advanced Reinforcement Learning for Efficient Robotic Skill Learning

Abstract:

Abstract (englisch):