本文考虑诊断奖励设计中某些常见错误的问题。它的见解也适用于更广泛的成本函数和绩效指标的设计。为了诊断常见错误,我们开发了 8 个简单的健全性检查来识别奖励函数中的缺陷 ...
模仿学习是一个连续的任务,学习者试图模仿专家的行为以获得最佳表现。最近针对此任务提出了几种算法。在这个项目中,我们的目标是对这些算法进行广泛的审查,展示它们的主要特征,并比较它们的性能和遗憾界限 ...
模仿学习 (IL) 是一种简单而强大的方法,可以使用可大规模收集的高质量人类驾驶数据来产生类似人类的行为。然而,仅基于模仿学习的政策往往无法充分考虑安全性和可靠性问题。在本文中,我们展示了模仿学习与使用简单奖励的强化学习相结合如何能够比仅通过模仿学习的驾驶策略显着提高驾驶策略的安全性和可靠性 ...
为现实的城市导航场景制定稳健的控制策略并不是一项简单的任务。在端到端方法中,这些策略必须将车辆摄像头的高维图像映射到转向和油门等低级操作。虽然纯粹的强化学习(RL)方法完全基于工程奖励,但生成对抗模仿学习(GAIL)代理在与环境交互的同时从专家演示中学习,这有利于 GAIL 执行难以获得奖励信号的任务,例如自动驾驶 ...
我们展示了基于模型的生成对抗性模仿学习(MGAIL)在密集城市自动驾驶任务中的首次大规模应用。我们使用分层模型增强标准 MGAIL,以实现对任意目标路线的泛化,并使用带有模拟交互式代理的闭环评估框架来衡量性能。我们根据在旧金山行驶超过 100,000 英里的真实车辆收集的专家轨迹来训练策略,并展示了一种可操纵的策略,即使在零样本设置中也能稳健地导航,并推广到具有现实世界驾驶中从未出现过的新颖目标的合成场景 ...
本文介绍了我们在 2023 年 NuPlan 挑战赛中获得第二名的解决方案。现实场景中的自动驾驶非常复杂且不确定。在复杂的多模式场景中实现安全规划是一项极具挑战性的任务 ...
模仿学习是自动驾驶车辆控制器端到端训练的一种很有前景的方法。通常,这种方法的驾驶过程是完全自动和黑匣子的,尽管在实践中希望通过高级命令来控制车辆,例如告诉它在十字路口走哪条路。在现有的工作中,这是通过应用分支神经架构来实现的,因为直接提供命令作为控制器的附加输入通常会导致命令被忽略 ...
规模化赛车的自动驾驶赛车作为开发感知、规划和控制算法以在车辆操控极限下实现安全自动驾驶的有效方法而受到越来越多的关注。为了训练自动驾驶赛车的敏捷控制策略,基于学习的方法主要利用强化学习,尽管结果好坏参半。在这项研究中,我们对赛车的各种模仿学习策略进行了基准测试,这些策略直接应用于模拟和规模化的现实世界环境中或用于引导强化学习 ...
我们提出了一种基于学习的规划器,旨在通过模仿人类驾驶员的驾驶行为来稳健地驾驶车辆。我们利用中到中的方法,使我们能够自由地操纵模仿学习网络的输入。考虑到这一点,我们提出了一种用于数据增强的新型反馈合成器 ...
强化学习(RL)和模仿学习(IL)的端到端方法在自动驾驶领域越来越受欢迎。然而,它们不像经典的机器人工作流程那样涉及明确的推理,也不涉及视野规划,领导策略隐含且短视。在本文中,我们介绍了我们的轨迹规划方法,该方法使用行为克隆(BC)进行路径跟踪,并使用 BC 引导的近端策略优化(PPO)进行静态障碍物微调 ...