Abstract:
In der vorliegenden Arbeit wird ein Framework für das Greifen mit Robotern präsentiert, welches Neural Radiance Fields (NeRFs) als Szenendarstellungen für implizite Greifstrategien einsetzt. Der zentrale Erkenntnisgewinn dieser Arbeit ist, dass durch den Erwerb geometrischen Verständnisses mittels volumetrischem Rendering für novel view synthesis eine effektive Übertragung auf Manipulationsaufgaben möglich ist. Dies ermöglicht eine Greifplanung durch kontinuierliche Optimierung in $SE(3)$.
Der vorgeschlagene Ansatz sieht eine Erweiterung bildkonditionierter NeRFs auf Multi-Kamera Roboter-Systeme durch multi-view VisionNeRF (mVNeRF) vor. ... mehrZudem wird die Support Pose Decomposition eingeführt, um die 5-DoF Definitionsmenge von NeRF mit 6-DoF Greiferposen zu verbinden. Die Greifplanung wird als eine implizite Strategie formuliert, die Greifkandidaten durch Gradientenanstieg auf einer gelernten Greifwertfunktion optimiert. Der Ansatz wird ferner durch Trajectorien-informiertes Lernen verbessert, das demonstrierte Trajektorien einbezieht und so die Landschaft der Zielfunktion formt.
Umfassende Experimente wurden durchgeführt, um das System in Simulationen und realen Szenarien zu validieren. Das System weist eine Erfolgsrate von $71 \%$ in realen Greifversuchen auf, obwohl es ausschließlich an einfachen simulierten Objekten trainiert wurde, und zeigt einen starken Zero-Shot Sim-to-Real-Transfer ohne umfangreiche Domänenrandomisierung oder Augmentierungstechniken. Erweiterungen demonstrieren die Vielseitigkeit des Frameworks durch föderiertes NeRF-Training und CLIP-basierte Vision-Language-Konditionierung.
Die grundlegende Erkenntnis besteht darin, dass der volumetrische Rendering-Loss, welcher die Konsistenz mit der fundamentalen Physik des Lichttransports und der Kameraprojektion erzwingt, ein geometrisches Verständnis ermöglicht, das sich für Manipulationsaufgaben als vorteilhaft erweist. Diese Entwicklung etabliert ein neues Paradigma für die Nutzung von Fortschritten in der Computer Vision im Bereich der Robotik, in dem dieses geometrische Verständnis effektiv über Domänen hinweg transferiert werden kann. Die vorliegende Arbeit leistet einen Beitrag zur Entwicklung leistungsfähigerer und verallgemeinerbarer Robotersysteme, die in der Lage sind, komplexe, unstrukturierte Umgebungen zu verstehen und mit diesen zu interagieren.
Abstract (englisch):
This dissertation introduces a framework for robotic grasping that leverages Neural Radiance Fields (NeRF) as scene representations for implicit grasp policies. The central contribution of this study is the demonstration that geometric understanding acquired through volumetric rendering for novel view synthesis can be effectively transferred to manipulation tasks, thereby enabling grasp planning through continuous optimization in $SE(3)$.
The proposed framework extends an image-conditioned NeRF to multi-camera robotic setups through multi-view VisionNeRF (mVNeRF) and introduces Support Pose Decomposition, to enable the trasfer of NeRF's 5-DoF query space to full 6-DoF gripper poses. ... mehrGrasp planning is posed as an optimization problem: an implicit policy that performs gradient ascent on a learned grasp value function that serves as the objective function. The approach is further improved via trajectory-informed learning, which incorporates demonstrated trajectories to shape the objective function's landscape.
Comprehensive experiments are conducted to validate the framework across simulation and real-world scenarios. The system demonstrates a $71 \%$ success rate in real-world grasping experiments, despite being trained exclusively on simple simulated objects, and exhibits strong zero-shot sim-to-real transfer without extensive domain randomization, adaptation or augmentation techniques. Extensions demonstrate the framework's versatility through federated NeRF training and CLIP-based vision-language conditioning.
The fundamental insight is that the volumetric rendering loss, which enforces consistency with the fundamental physics of light transport and camera projection, embeds geometric understanding that proves valuable for manipulation tasks. This development establishes a novel paradigm for leveraging advances in computer vision in the field robotics, demonstrating that this geometric understanding can be transferred effectively across domains. The work opens pathways for developing more capable and generalizable robotic systems that can understand and interact with complex, unstructured environments.