强化学习 (RL) 通过与环境交互的试错过程来解决顺序决策问题。虽然强化学习在玩允许大量试错的复杂视频游戏方面取得了巨大成功,但在现实世界中犯错误总是不受欢迎的。为了提高样本效率并减少错误,基于模型的强化学习(MBRL)被认为是一个有前途的方向,它构建了可以在没有实际成本的情况下进行试错的环境模型 ...
本文旨在对目前工业界和学术界报道的方法(包括详细技术)进行快速回顾。具体来说,本文回顾了端到端规划,包括 Tesla FSD V12、Momenta 2023、Horizon Robotics 2023、Motional RoboTaxi 2022、Woven Planet (Toyota): Urban Driver 和 Nvidia。此外,我们回顾了研究自动驾驶端到端规划的最先进的学术研究 ...
由于交通环境的复杂性和多变性,自动驾驶决策是一个非常困难的问题。在这个项目中,我们使用深度 Q 网络以及基于规则的约束来做出换道决策。通过将高层横向决策与低层基于规则的轨迹监控相结合,可以获得安全高效的车道变换行为 ...
现实世界的强化学习任务通常涉及某种形式的部分可观察性,其中观察仅给出世界真实状态的部分或嘈杂视图。此类任务通常需要某种形式的记忆,其中代理可以访问多个过去的观察结果,以便良好地执行。整合记忆的一种流行方法是使用循环神经网络来访问代理的历史记录 ...
顺序决策,通常形式化为马尔可夫决策过程(MDP)优化,是人工智能中的一个重要挑战。解决这个问题的两个关键方法是强化学习(RL)和规划。本文对这两个领域的整合进行了调查,即基于模型的强化学习 ...
Transformer 对自然语言处理、计算机视觉和机器人等领域产生了重大影响,与其他神经网络相比,它们提高了性能。本次调查探讨了如何在强化学习(RL)中使用 Transformer,它们被视为解决无法训练、学分分配、缺乏可解释性和部分可观察性等挑战的有前景的解决方案。我们首先提供 RL 的简要领域概述,然后讨论经典 RL 算法的挑战... ...
设计更好的深度网络和更好的强化学习 (RL) 算法对于深度 RL 都很重要。这项工作研究了前者。具体来说,提出了感知和决策交错 Transformer (PDiT)网络,它以一种非常自然的方式级联两个 Transformer :感知 Transformer 通过在补丁级别处理观察来关注\emph{环境感知},而决策者通过以期望回报的历史、感知者的输出和行动为条件来关注\emph{决策} ...
近年来,自动驾驶汽车领域的学术研究非常受欢迎,涉及传感器技术、V2X通信、安全、决策、控制,甚至法律和标准化规则等多个主题。除了经典的控制设计方法之外,人工智能和机器学习方法几乎存在于所有这些领域。研究的另一部分侧重于运动规划的不同层面,例如战略决策、轨迹规划和控制 ...
支持下一代通信网络的无人机(UAV)的自主部署需要高效的轨迹规划方法。我们提出了一种新的端到端强化学习(RL)方法,用于从城市环境中的物联网(IoT)设备收集无人机数据。自主无人机的任务是在有限的飞行时间和避障条件下从分布式传感器节点收集数据 ...
本文介绍了一种基于深度强化学习的自动生成通用决策函数的方法。深度 Q 网络代理在模拟环境中接受训练,以处理卡车拖车组合的速度和车道变更决策。在高速公路驾驶案例中,结果表明该方法生成的代理的性能与常用参考模型的性能相匹配或超过 ...