标准无模型强化学习算法优化生成当前时间步中要采取的行动的策略,以最大化预期的未来回报。虽然灵活,但由于其单步性质,它面临着探索效率低下的困难。在这项工作中,我们提出了生成规划方法(GPM),它不仅可以为当前步骤生成操作,还可以为许多未来步骤生成操作(因此称为生成规划) ...
我们考虑以极低的约束违反率最大化效用的安全强化学习(RL)问题。假设没有先验知识或对给定任务的环境安全模型进行预训练,代理必须通过探索来学习哪些状态和动作是安全的。这一研究领域的一种流行方法是将无模型强化学习算法与拉格朗日方法相结合,动态调整约束奖励相对于效用奖励的权重 ...
使用离线数据进行预训练并使用强化学习进行在线微调是一种很有前景的学习控制策略策略,它可以充分利用样本效率和性能方面的优点。一种自然的方法是用离线训练的策略来初始化在线学习的策略。在这项工作中,我们为此任务引入了政策扩展方案 ...
决策、运动规划和轨迹预测对于自动驾驶系统至关重要。通过准确预测其他道路使用者的运动,可以增强自主系统的决策能力,使其更有效地应对动态和不可预测的环境,并更适应多样化的道路场景。本文介绍了 FFStreams++ 方法,用于不同操作的决策和运动规划,包括无保护左转、超车和保持车道 ...
自动驾驶 (AD) 中的端到端架构在可解释性方面面临着重大挑战,阻碍了人类与人工智能的信任。人类友好的自然语言已经被探索用于驾驶解释和 3D 字幕等任务。然而,以前的工作主要集中在声明性可解释性的范式上,其中自然语言解释并不基于 AD 系统的中间输出,使得解释只是声明性的 ...
强化学习 (RL),特别是它与被称为深度 RL (DRL) 的深度神经网络的结合,在广泛的应用中显示出了巨大的前景,这表明它具有开发复杂机器人行为的潜力。然而,由于与物理世界交互的复杂性和成本,机器人问题给强化学习的应用带来了根本性的困难。本文对机器人技术的 DRL 进行了现代调查,特别侧重于评估在现实世界中使用 DRL 在实现几种关键机器人能力方面所取得的成功 ...
如今,自动驾驶汽车因其在解决各种其他现实挑战方面的众多潜在应用而受到关注。然而,开发自动驾驶汽车在将其部署到现实世界之前需要大量的培训和测试。虽然强化学习(RL)领域已经发展成为深度表示学习发展的强大学习框架,并且现在能够在自动驾驶汽车等高维环境中学习复杂的策略 ...
与流行的模块化框架不同,端到端自动驾驶寻求以集成的方式解决感知、决策和控制问题,更能适应新的场景,更容易大规模推广。然而,现有的端到端方法通常缺乏可解释性,只能处理简单的驾驶任务,例如车道保持。在本文中,我们提出了一种用于端到端自动驾驶的可解释的深度强化学习方法,能够处理复杂的城市场景 ...
为了安全地应对复杂的现实场景,自动驾驶汽车必须能够适应不同的路况并预测未来的事件。基于世界模型 (WM) 的强化学习 (RL) 通过学习和预测各种环境的复杂动态而成为一种有前景的方法。然而,据我们所知,不存在用于在复杂的驾驶环境中训练和测试此类算法的可访问平台 ...
对于自动驾驶汽车 (AV) 来说,在密集且异构的交通场景中安全高效地行驶是一项挑战,因为它们无法推断附近驾驶员的行为或意图。在这项工作中,我们引入了一种分布式多智能体强化学习(MARL)算法,该算法可以预测密集和异构流量场景中的轨迹和意图。我们的意图感知规划方法 iPLAN 允许代理仅根据本地观察来推断附近驾驶员的意图 ...