逆强化学习(IRL)从演示中推断出奖励函数,从而可以改进策略和泛化。然而,尽管最近人们对现实生活很感兴趣,但在理解教授特定顺序决策任务所需的最小演示集方面却几乎没有做任何工作。我们将寻找 IRL 的最大信息量演示的问题形式化为机器教学问题,其目标是找到指定演示者的奖励等价类所需的最少演示数量 ...
考虑从示例专家行为中学习策略,而不与专家交互或访问强化信号。一种方法是通过逆强化学习恢复专家的成本函数,然后通过强化学习从该成本函数中提取策略。这种方法是间接的并且可能很慢 ...
在模仿学习中,代理通过模仿专家演示来学习如何在成本函数未知的环境中表现。现有的模仿学习算法通常涉及解决一系列规划或强化学习问题。因此,此类算法不能直接适用于大型高维环境,并且如果规划问题未得到最优解决,其性能可能会显着下降 ...
端到端自动驾驶的模仿学习引起了学术界的关注。当前的方法要么仅使用图像作为输入,当汽车接近十字路口时,图像是不明确的,要么使用额外的命令信息来导航车辆,但自动化程度不够。着眼于使车辆沿着给定路径行驶,我们提出了一种不需要人类参与的新导航命令和一种称为角度分支网络的新颖模型架构 ...
经过人类驾驶演示训练的深度网络已经学会了沿着道路行驶并避开障碍物。然而,通过模仿学习训练的驾驶策略在测试时无法控制。经过端到端训练来模仿专家的车辆无法被引导在即将到来的十字路口进行特定转弯 ...
诸如模仿学习之类的顺序预测问题,其中未来的观察依赖于先前的预测(动作),违反了常见的独立同分布 ...
我们考虑从一组有限的专家轨迹中进行模仿学习的问题,而无需访问强化信号。通过逆强化学习提取专家的奖励函数,然后进行强化学习的经典方法是间接的,并且计算成本可能很高。最近基于匹配专家和代理之间的策略分布的生成对抗方法在训练期间可能不稳定 ...
实现端到端自动驾驶的一种方法是学习策略函数,通过模仿专家驾驶员或参考人,将感知输入(例如来自前置摄像头的图像帧)映射到驾驶动作政策。这可以通过监督学习来完成,其中调整策略函数以最小化预测动作和真实动作之间的差异。然而,已知以这种方式训练的策略函数会由于参考策略可到达的状态与经过训练的策略函数之间的不匹配而遭受意外行为 ...
模仿学习是通过再现人类演示行为来学习复杂机器人操作技能的一种有前景的范式。然而,操作任务通常包含瓶颈区域,需要一系列精确的操作才能取得有意义的进展,例如机器人将咖啡包插入咖啡机来煮咖啡。经过训练的政策在这些地区可能会失败,因为行动上的微小偏差可能会导致政策进入示威活动未覆盖的州 ...
人为干预是将人类知识注入强化学习训练循环的有效方式,可以带来快速学习并保证训练安全。鉴于人类干预的预算非常有限,设计人类专家在训练中何时以及如何与学习代理交互仍然具有挑战性。在这项工作中,我们开发了一种新颖的人机循环学习方法,称为人类人工智能副驾驶优化(HACO) ...