为现实的城市导航场景制定稳健的控制策略并不是一项简单的任务。在端到端方法中,这些策略必须将车辆摄像头的高维图像映射到转向和油门等低级操作。虽然纯粹的强化学习(RL)方法完全基于工程奖励,但生成对抗模仿学习(GAIL)代理在与环境交互的同时从专家演示中学习,这有利于 GAIL 执行难以获得奖励信号的任务,例如自动驾驶 ...
我们展示了基于模型的生成对抗性模仿学习(MGAIL)在密集城市自动驾驶任务中的首次大规模应用。我们使用分层模型增强标准 MGAIL,以实现对任意目标路线的泛化,并使用带有模拟交互式代理的闭环评估框架来衡量性能。我们根据在旧金山行驶超过 100,000 英里的真实车辆收集的专家轨迹来训练策略,并展示了一种可操纵的策略,即使在零样本设置中也能稳健地导航,并推广到具有现实世界驾驶中从未出现过的新颖目标的合成场景 ...
本文介绍了我们在 2023 年 NuPlan 挑战赛中获得第二名的解决方案。现实场景中的自动驾驶非常复杂且不确定。在复杂的多模式场景中实现安全规划是一项极具挑战性的任务 ...
模仿学习是自动驾驶车辆控制器端到端训练的一种很有前景的方法。通常,这种方法的驾驶过程是完全自动和黑匣子的,尽管在实践中希望通过高级命令来控制车辆,例如告诉它在十字路口走哪条路。在现有的工作中,这是通过应用分支神经架构来实现的,因为直接提供命令作为控制器的附加输入通常会导致命令被忽略 ...
规模化赛车的自动驾驶赛车作为开发感知、规划和控制算法以在车辆操控极限下实现安全自动驾驶的有效方法而受到越来越多的关注。为了训练自动驾驶赛车的敏捷控制策略,基于学习的方法主要利用强化学习,尽管结果好坏参半。在这项研究中,我们对赛车的各种模仿学习策略进行了基准测试,这些策略直接应用于模拟和规模化的现实世界环境中或用于引导强化学习 ...
我们提出了一种基于学习的规划器,旨在通过模仿人类驾驶员的驾驶行为来稳健地驾驶车辆。我们利用中到中的方法,使我们能够自由地操纵模仿学习网络的输入。考虑到这一点,我们提出了一种用于数据增强的新型反馈合成器 ...
强化学习(RL)和模仿学习(IL)的端到端方法在自动驾驶领域越来越受欢迎。然而,它们不像经典的机器人工作流程那样涉及明确的推理,也不涉及视野规划,领导策略隐含且短视。在本文中,我们介绍了我们的轨迹规划方法,该方法使用行为克隆(BC)进行路径跟踪,并使用 BC 引导的近端策略优化(PPO)进行静态障碍物微调 ...
模仿学习(IL)旨在通过从演示中学习来模仿专家在顺序决策任务中的行为,并已广泛应用于机器人、自动驾驶和自回归文本生成。最简单的IL方法,即行为克隆(BC),被认为会带来样本复杂性,并对问题范围产生不利的二次依赖性,从而激发了各种不同的在线算法,这些算法在对数据和学习者访问的更强假设下获得了改进的线性范围依赖性给专家。我们从学习理论的角度重新审视离线和在线 IL 之间的明显差距,重点关注一般政策类别,直至并包括深度神经网络 ...
表示学习算法旨在学习表征数据的抽象特征。状态表示学习(SRL)专注于一种特定类型的表示学习,其中学习的特征是低维的,随着时间的推移而演变,并受到代理行为的影响。学习表征是为了捕捉代理行为所产生的环境变化;这种表示特别适合机器人和控制场景 ...
最近,研究人员将用于学习特征表示的深度学习的进步与强化学习相结合,取得了重大进展。一些值得注意的例子包括训练代理根据原始像素数据玩 Atari 游戏,并使用原始感官输入获得高级操作技能。然而,由于缺乏普遍采用的基准,很难量化持续控制领域的进展 ...