人为干预是将人类知识注入强化学习训练循环的有效方式,可以带来快速学习并保证训练安全。鉴于人类干预的预算非常有限,设计人类专家在训练中何时以及如何与学习代理交互仍然具有挑战性。在这项工作中,我们开发了一种新颖的人机循环学习方法,称为人类人工智能副驾驶优化(HACO) ...
自动驾驶引起了学术界和工业界的高度关注。为了实现自动驾驶,深度模仿学习(DIL)被认为是最有前途的解决方案之一,因为与手动设计驾驶策略相比,它通过从人类驾驶数据中自动学习复杂的映射来改进自动驾驶系统。然而,现有的 DIL 方法不能很好地跨域泛化,也就是说,在源域数据上训练的网络对目标域数据的泛化能力较差 ...
获得多样化的通用技能仍然是机器人技术面临的一个公开挑战。在这项工作中,我们提出在人类遥控游戏数据之上进行自我监督控制,作为扩大技能学习的一种方式。与传统的任务演示相比,游戏有两个特性使其更具吸引力 ...
尽管人工智能在我们的日常生活中无处不在,但它在迄今为止可能具有最大社会影响的新兴领域——自动驾驶领域才刚刚开始取得进展。在这项工作中,我们讨论了这个重要的主题,并解决了新兴领域的一个关键方面,即预测自动驾驶汽车周围环境的未来状态对于安全和高效运行所必需的问题。我们引入了一种基于深度学习的方法,该方法考虑当前的世界状态并生成每个参与者附近的光栅化表示 ...
城市环境中自动驾驶的决策和规划系统很难设计。目前大多数方法都是手动设计驾驶策略,大规模开发和维护成本可能会很高。相反,通过模仿学习,我们只需要收集数据,计算机就会自动学习和改进驾驶策略 ...
使用记录交互的固定离线数据集的离策略强化学习(RL)是现实世界应用中的一个重要考虑因素。本文使用 DQN 重放数据集研究离线 RL,该数据集包含 DQN 代理在 60 个 Atari 2600 游戏上的整个重放体验。我们证明,即使仅在这个固定数据集上进行训练,最近的离策略深度 RL 算法也优于经过充分训练的 DQN 代理 ...
模仿学习(IL)是一种学习理想自主行为的有吸引力的方法。然而,指导 IL 实现任意目标是很困难的。相比之下,基于规划的算法使用动态模型和奖励函数来实现目标 ...
为了实现自动驾驶的安全高效的规划和控制,我们需要一种能够在长期内实现理想的驾驶质量并保证安全性和可行性的驾驶策略。基于优化的方法,例如模型预测控制(MPC),可以提供此类最优策略,但其计算复杂性通常对于实时实现来说是不可接受的。为了解决这个问题,我们提出了一种快速集成规划和控制框架,该框架将基于学习和优化的方法结合在两层分层结构中 ...
离线强化学习 (RL) 设置(也称为全批量 RL)是从静态数据集中学习策略的,这一点非常引人注目,因为进步使 RL 方法能够利用先前收集的大型数据集,就像人工智能的崛起一样。大型数据集推动了监督学习的成果。然而,现有的在线 RL 基准并不是针对离线环境量身定制的,并且现有的离线 RL 基准仅限于经过部分训练的代理生成的数据,这使得离线 RL 的进展难以衡量。在这项工作中,我们引入了专门为离线设置设计的基准,以与离线 RL 实际应用相关的数据集的关键属性为指导 ...
我们推出 Simitate——一个混合基准测试套件,旨在评估模仿学习方法。提供了包含 1938 个人类在现实环境中进行日常活动的序列的数据集。该数据集与模拟器的集成紧密结合 ...