Abstract:
Automatisiertes Fahren, auch als autonomes Fahren Technologie bekannt, hat eine tiefgreifende Bedeutung im modernen Verkehrswesen und darüber hinaus.
Einer der überzeugendsten Gründe für die Bedeutung des automatisierten Fahrens ist sein Potenzial zur erheblichen Verbesserung der Verkehrssicherheit.
Menschliches Versagen ist eine führende Ursache für Unfälle auf der Straße, und autonome Fahrzeuge haben das Potenzial, diese Vorfälle drastisch zu reduzieren, indem sie Faktoren wie abgelenktes Fahren, Müdigkeit und beeinträchtigtes Urteilsvermögen eliminieren.
Darüber hinaus können automatisierte Systeme schneller auf unerwartete Situationen reagieren als Menschen, was die Wahrscheinlichkeit von Kollisionen weiter verringert. ... mehr
Eines der Hauptprobleme für vollautomatisiertes Fahren besteht darin, dass die Entscheidungsrichtlinie mit verschiedenen Unsicherheitsquellen umgehen muss, wie Wahrnehmungsfehler, verdeckte Fahrzeuge und unbekannte Absichten der Fahrer mit unterschiedlichen Fahrstilen.
Diese Arbeit stellt einen Ansatz auf der Grundlage des Reinforcement Learning vor, um dieses komplexe Problem zu lösen.
Reinforcement Learning (RL) kann komplexe Entscheidungsprobleme lösen, indem es langfristig optimale Richtlinien lernt.
Im modellfreien RL wird die nicht vollständige Beobachtbarkeit in der Regel durch die Annäherung des wahren Zustands mit einer Historie aktueller Beobachtungen ($k$-Markov-Annäherung) behandelt.
Dies führt jedoch oft zu Richtlinien, die nicht verallgemeinert werden können auf Umgebungen mit leicht unterschiedlichen Dynamiken aufgrund verschiedener Rauschpegel oder unerwarteter menschlicher Verhaltensweisen mit neuen Beobachtungen.
Darüber hinaus wird die Sicherheit in der Regel durch die Bestrafung des RL-Agenten für riskante Situationen behandelt, was entweder zu wenigen Fehlern zur Laufzeit oder zu sehr konservativen Richtlinien führt.
Selbst \textit{generalisten} Richtlinien, die mit verschiedenen Rauschpegeln und unterschiedlichem menschlichem Verhalten trainiert werden, sind nicht gegen neue Umgebungen mit neuen Fahrstilen robust.
Um die Verallgemeinerung in Bezug auf Sicherheit, Komfort und Nutzen anzugehen, schlagen wir vor, Verteilungs-RL mit einem proaktiven Sicherheitsverifikationsmodul zu kombinieren, um sichere und risikobewusste RL-Richtlinien bereitzustellen.
Dank der proaktiven Sicherheitsschicht, die machbare notfallmäßige Ausweichmanöver basierend auf den schlimmsten Annahmen gewährleistet, werden unsichere Aktionen des RL herausgefiltert, was selbst bei höheren Rauschpegeln als den Trainingsbedingungen zu sicheren Richtlinien führt.
Gleichzeitig wird die Richtlinie während des Trainings ermutigt, Sicherheitseingriffe zu minimieren und risikosensitive Entscheidungen mit Hilfe des Verteilungs-RL zu erlernen.
Um die Verallgemeinerung in Bezug auf unerwartete menschliche Verhaltensweisen anzugehen, modellieren wir unbekannte menschliche Absichten als versteckte Parameter im ursprünglich teilweise beobachtbaren Problem, was dazu führt, dass das Problem als Hidden Parameter Block Markov Decision Process (HiP-BMDP) gelöst wird.
In dieser Formulierung haben Fahrer mit denselben Absichten dieselben abstrakten MDP-Zustände und unterscheiden sich nur in den Emissionsfunktionen.
Dies führt zu einem modularen Rahmenwerk, das während des Trainings effizienter mit Beispielen umgeht und sich in neuen Umgebungen anpassen kann.
Unsere Bewertungen umfassen sowohl Simulationen als auch Experimente in der realen Welt.
In den Simulationsexperimenten trainieren und bewerten wir RL-Richtlinien für das automatisierte Fahren an verdeckten Kreuzungen mit Sensorrauschen sowie interaktiven Einfädelungen mit neuen Fahrstilen.
Unsere Bewertungen in der realen Welt basieren auf Open-Source-Beobachtungsdatensätzen, um die effiziente Offline-RL aus den Trajektorien beobachteter Fahrer für interaktives Einfädeln auf Autobahnen zu demonstrieren.
In Anbetracht unserer Experimente kann das vorgeschlagene Verteilungs-RL mit Sicherheitsverifikationsebene die Sicherheit garantieren und Notmanöver minimieren, wenn es in Umgebungen mit höherem Sensorsignalrauschen als im Training eingesetzt wird, basierend auf den zur Laufzeit bereitgestellten geeigneten Risikosensibilitätsdaten für die Richtlinie.
Darüber hinaus kann das vorgeschlagene HiP-AP RL für interaktives automatisiertes Einfädeln in Umgebungen mit neuen Fahrstilen übertragen werden.
Quantitativ kann der vorgeschlagene Verteilungs-RL-Agent die durchschnittliche Fahrzeit um etwa 40% bis 50% im Vergleich zur normalen DQN-Baseline reduzieren.
Er erfordert auch 50% bis 83% weniger Sicherheitseingriffe im Vergleich zur regelbasierten Richtlinie und erhöht die durchschnittliche Fahrzeit leicht.
In realen Einstellungen zeigt der vorgeschlagene Offline-RL-Agent die Fähigkeit, optimale interaktive Einfädelrichtlinien zu erlernen und mit neuen Fahrstilen umzugehen. Wir beobachten eine Erfolgsrate von 100% für diese Richtlinie, wenn sie mit dem proaktiven Sicherheitsmodul kombiniert wird, und zeigen ihre Robustheit gegen ungültige Absichtsvorhersagen gemäß unseren Ablationsversuchen.
Abstract (englisch):
Automated driving, also known as autonomous or self-driving technology, holds profound significance in modern transportation and beyond.
One of the most compelling reasons for the importance of automated driving is its potential to significantly enhance road safety.
Human error is a leading cause of accidents on the road, and autonomous vehicles have the potential to drastically reduce these incidents by eliminating factors such as distracted driving, fatigue, and impaired judgment.
Moreover, automated systems can react faster than humans to unexpected situations, further reducing the likelihood of collisions.
... mehr
One of the major obstacles for fully automated driving is that the decision-making policy needs to deal with different sources of uncertainties such as perception errors, occluded vehicles and unknown drivers' intentions with different driving styles.
This thesis presents an approach based on reinforcement learning to solve this complex issue.
Reinforcement learning (RL) can solve complex decision-making problems by learning long-term optimal policies.
In model-free RL paradigm, partial observation is usually addressed by approximating the true state with a history of recent observations ($k$-Markov approximation).
This will however result in policies that are not generalized to be used in environments with slightly different dynamics due to different noise levels or unexpected human behaviors resulting in novel observations.
Moreover, safety is usually addressed by penalizing the RL agent for risky situations leading to either few failures at run-time or too much conservative policies.
Even \textit{generalist} policies which are trained with multiple noise levels and different human behaviors are not robust to new environments with novel driving styles.
In order to address generalization of RL policies regarding safety, comfort, and utility, we propose to combine distributional RL with a proactive safety verification module to provide safe and risk-aware RL policies.
Thanks to the proactive safety layer which assures a feasible fail-safe emergency maneuver based on the worst-case assumptions, unsafe actions from the RL are filtered out resulting in safe policies even at higher noise levels than the training settings.
Concurrently, the policy is encouraged to minimize safety interference during training and learn risk-sensitive decisions using distributional RL.
In order to address generalization regarding unexpected human behaviors, we model unknown human intentions as hidden parameters in the original partially observable problem, leading to solve the problem as a Hidden Parameter Block Markov Decision Process (HiP-BMDP).
In this formulation, drivers with same intentions have same high level MDP states and only differ in emission functions.
This results in a modular framework which is more sample-efficient during training and adaptive when transferred into new environments.
Our evaluations include both simulation and real-world experiments.
In the simulation experiments we train and evaluate RL policies for automated driving at occluded intersections with sensor noise and also interactive merging with novel driving styles.
Our real-world evaluations are based on open-source observational datasets in order to demonstrate efficient offline RL from observed drivers' trajectories for interactive merging in highways.
In the light of our experiments, the proposed distributional RL with safety verification layer can guarantee safety and minimize emergency maneuvers when transferred to environments with higher sensor noise than training.
Moreover, the proposed HiP-AP RL for interactive automated merging can transfer to environments with novel driver styles.
Quantitatively, the proposed distributional RL agent can reduce the average driving time up to 50% compared to the normal DQN baseline.
It also requires up to 83% less safety interference compared to the rule-based policy and slightly increases the average driving time.
In real-world settings, the proposed offline RL agent shows ability to learn optimal interactive merging policies from observed human trajectories.
We observe 100% success rate for this policy when it is combined with the proactive safety module and show its robustness against invalid intention predictions according to our ablation experiments.