强化学习(RL)在各个领域都取得了惊人的成功。然而,其数据驱动的性质也引入了可能被恶意对手利用的新漏洞。最近的研究表明,训练有素的强化学习智能体可以通过在测试阶段战略性地扰乱其状态观察来轻松操纵 ...
人类经常通过观察和模仿来获得新技能。对于机器人代理来说,从互联网上提供的大量未标记视频演示数据中学习需要模仿专家而无法访问其动作,这提出了称为观察模仿学习(ILfO)的挑战。解决 ILfO 问题的常见方法是将其转换为逆强化学习问题,利用根据代理和专家的观察计算出的代理奖励 ...
离线强化学习(RL)因其从静态离线数据集中学习并消除与环境交互的需要的能力而备受关注。然而,离线强化学习的成功在很大程度上依赖于用奖励标签注释的离线转换。在实践中,我们经常需要手工设计奖励函数,这有时很困难、劳动密集型或效率低下 ...
状态策略在强化学习中发挥着重要作用,例如处理部分可观察的环境、增强鲁棒性或直接将归纳偏差强加到策略结构中。训练有状态策略的传统方法是随时间反向传播(BPTT),它具有显着的缺点,例如由于顺序梯度传播而导致训练缓慢以及梯度消失或爆炸的发生。为了解决这些问题,梯度通常会被截断,从而导致政策更新出现偏差 ...
虽然强化学习 (RL) 表现出了良好的性能,但其样本复杂性仍然是一个巨大的障碍,限制了其在各个领域的更广泛应用。模仿学习(IL)利用预言机来提高样本效率,但它通常受到部署的预言机质量的限制。它根据对 IL 和 RL 性能的在线估计,主动地在 IL 和 RL 之间进行交错 ...
逆强化学习 (IRL) 旨在从代理的行为(表示为策略 $\pi$)推断代理的偏好(表示为奖励函数 $R$)。为此,我们需要一个关于 $\pi$ 与 $R$ 关系的行为模型。在当前文献中,最常见的行为模型是最优性、玻尔兹曼理性和因果熵最大化 ...
结合专家演示在经验上有助于提高强化学习(RL)的样本效率。本文从理论上量化了这些额外信息在多大程度上降低了强化学习的样本复杂性。特别是,我们研究了演示正则化强化学习,它利用 KL 正则化的专家演示来实现通过行为克隆学习的策略 ...
对未来的预测和推理是许多时间序列问题的核心。例如,目标条件强化学习可以被视为学习表示,以预测未来可能访问哪些状态。虽然现有方法使用对比预测编码来对时间序列数据进行建模,但学习编码长期依赖性的表示通常需要大量数据 ...