诸如模仿学习之类的顺序预测问题,其中未来的观察依赖于先前的预测(动作),违反了常见的独立同分布 ...
我们考虑从一组有限的专家轨迹中进行模仿学习的问题,而无需访问强化信号。通过逆强化学习提取专家的奖励函数,然后进行强化学习的经典方法是间接的,并且计算成本可能很高。最近基于匹配专家和代理之间的策略分布的生成对抗方法在训练期间可能不稳定 ...
实现端到端自动驾驶的一种方法是学习策略函数,通过模仿专家驾驶员或参考人,将感知输入(例如来自前置摄像头的图像帧)映射到驾驶动作政策。这可以通过监督学习来完成,其中调整策略函数以最小化预测动作和真实动作之间的差异。然而,已知以这种方式训练的策略函数会由于参考策略可到达的状态与经过训练的策略函数之间的不匹配而遭受意外行为 ...
模仿学习是通过再现人类演示行为来学习复杂机器人操作技能的一种有前景的范式。然而,操作任务通常包含瓶颈区域,需要一系列精确的操作才能取得有意义的进展,例如机器人将咖啡包插入咖啡机来煮咖啡。经过训练的政策在这些地区可能会失败,因为行动上的微小偏差可能会导致政策进入示威活动未覆盖的州 ...
人为干预是将人类知识注入强化学习训练循环的有效方式,可以带来快速学习并保证训练安全。鉴于人类干预的预算非常有限,设计人类专家在训练中何时以及如何与学习代理交互仍然具有挑战性。在这项工作中,我们开发了一种新颖的人机循环学习方法,称为人类人工智能副驾驶优化(HACO) ...
自动驾驶引起了学术界和工业界的高度关注。为了实现自动驾驶,深度模仿学习(DIL)被认为是最有前途的解决方案之一,因为与手动设计驾驶策略相比,它通过从人类驾驶数据中自动学习复杂的映射来改进自动驾驶系统。然而,现有的 DIL 方法不能很好地跨域泛化,也就是说,在源域数据上训练的网络对目标域数据的泛化能力较差 ...
获得多样化的通用技能仍然是机器人技术面临的一个公开挑战。在这项工作中,我们提出在人类遥控游戏数据之上进行自我监督控制,作为扩大技能学习的一种方式。与传统的任务演示相比,游戏有两个特性使其更具吸引力 ...
尽管人工智能在我们的日常生活中无处不在,但它在迄今为止可能具有最大社会影响的新兴领域——自动驾驶领域才刚刚开始取得进展。在这项工作中,我们讨论了这个重要的主题,并解决了新兴领域的一个关键方面,即预测自动驾驶汽车周围环境的未来状态对于安全和高效运行所必需的问题。我们引入了一种基于深度学习的方法,该方法考虑当前的世界状态并生成每个参与者附近的光栅化表示 ...
城市环境中自动驾驶的决策和规划系统很难设计。目前大多数方法都是手动设计驾驶策略,大规模开发和维护成本可能会很高。相反,通过模仿学习,我们只需要收集数据,计算机就会自动学习和改进驾驶策略 ...
使用记录交互的固定离线数据集的离策略强化学习(RL)是现实世界应用中的一个重要考虑因素。本文使用 DQN 重放数据集研究离线 RL,该数据集包含 DQN 代理在 60 个 Atari 2600 游戏上的整个重放体验。我们证明,即使仅在这个固定数据集上进行训练,最近的离策略深度 RL 算法也优于经过充分训练的 DQN 代理 ...