模仿学习(IL)旨在通过从演示中学习来模仿专家在顺序决策任务中的行为,并已广泛应用于机器人、自动驾驶和自回归文本生成。最简单的IL方法,即行为克隆(BC),被认为会带来样本复杂性,并对问题范围产生不利的二次依赖性,从而激发了各种不同的在线算法,这些算法在对数据和学习者访问的更强假设下获得了改进的线性范围依赖性给专家。我们从学习理论的角度重新审视离线和在线 IL 之间的明显差距,重点关注一般政策类别,直至并包括深度神经网络 ...
表示学习算法旨在学习表征数据的抽象特征。状态表示学习(SRL)专注于一种特定类型的表示学习,其中学习的特征是低维的,随着时间的推移而演变,并受到代理行为的影响。学习表征是为了捕捉代理行为所产生的环境变化;这种表示特别适合机器人和控制场景 ...
最近,研究人员将用于学习特征表示的深度学习的进步与强化学习相结合,取得了重大进展。一些值得注意的例子包括训练代理根据原始像素数据玩 Atari 游戏,并使用原始感官输入获得高级操作技能。然而,由于缺乏普遍采用的基准,很难量化持续控制领域的进展 ...
逆强化学习(IRL)从演示中推断出奖励函数,从而可以改进策略和泛化。然而,尽管最近人们对现实生活很感兴趣,但在理解教授特定顺序决策任务所需的最小演示集方面却几乎没有做任何工作。我们将寻找 IRL 的最大信息量演示的问题形式化为机器教学问题,其目标是找到指定演示者的奖励等价类所需的最少演示数量 ...
考虑从示例专家行为中学习策略,而不与专家交互或访问强化信号。一种方法是通过逆强化学习恢复专家的成本函数,然后通过强化学习从该成本函数中提取策略。这种方法是间接的并且可能很慢 ...
在模仿学习中,代理通过模仿专家演示来学习如何在成本函数未知的环境中表现。现有的模仿学习算法通常涉及解决一系列规划或强化学习问题。因此,此类算法不能直接适用于大型高维环境,并且如果规划问题未得到最优解决,其性能可能会显着下降 ...
端到端自动驾驶的模仿学习引起了学术界的关注。当前的方法要么仅使用图像作为输入,当汽车接近十字路口时,图像是不明确的,要么使用额外的命令信息来导航车辆,但自动化程度不够。着眼于使车辆沿着给定路径行驶,我们提出了一种不需要人类参与的新导航命令和一种称为角度分支网络的新颖模型架构 ...
经过人类驾驶演示训练的深度网络已经学会了沿着道路行驶并避开障碍物。然而,通过模仿学习训练的驾驶策略在测试时无法控制。经过端到端训练来模仿专家的车辆无法被引导在即将到来的十字路口进行特定转弯 ...
诸如模仿学习之类的顺序预测问题,其中未来的观察依赖于先前的预测(动作),违反了常见的独立同分布 ...
我们考虑从一组有限的专家轨迹中进行模仿学习的问题,而无需访问强化信号。通过逆强化学习提取专家的奖励函数,然后进行强化学习的经典方法是间接的,并且计算成本可能很高。最近基于匹配专家和代理之间的策略分布的生成对抗方法在训练期间可能不稳定 ...