现代深度强化学习 (RL) 算法需要估计最大 Q 值,这在具有无限数量可能动作的连续域中很难计算。在这项工作中,我们从经济学中汲取灵感,引入了一种新的在线和离线强化学习更新规则,该规则使用极值理论(EVT)直接对最大值进行建模。通过这样做,我们可以避免使用分布外操作来计算 Q 值,这通常是错误的重要来源 ...
在许多顺序决策问题(例如,机器人控制、游戏、顺序预测)中,可以使用包含有关任务的有用信息的人类或专家数据 ...
强化学习(RL)的目标是找到一种最大化预期累积回报的策略。事实证明,该目标可以表示为线性约束下状态-动作访问分布的优化问题。这个公式的对偶问题,我们称之为对偶强化学习,是不受约束的并且更容易优化 ...
重放数据是支持离策略强化学习(RL)稳定性和数据效率的主要机制。我们提出了一个有效而简单的框架来扩展多个实验中重放的使用,最小化地调整 RL 工作流程,以大幅提高控制器性能和研究迭代时间。跨实验重播 (RaE) 的核心涉及重用之前实验的经验来改进探索和引导学习,同时与之前的工作相比将所需的更改减少到最低限度 ...
训练具有一般能力的代理来彻底探索环境并学习新的和多样化的技能是机器人学习的长期目标。质量多样性强化学习(QD-RL)是一个新兴的研究领域,融合了两个领域的最佳方面——质量多样性(QD)提供了一种原则性的探索形式,并产生了行为多样化的代理集合,而强化学习(RL)提供了强大的性能改进运算符,可以跨任务和动态环境进行泛化。现有的 QD-RL 方法仅限于采样高效、确定性的离策略 RL 算法和/或进化策略,并且难以应对高度随机的环境 ...
根据人类反馈进行强化学习 (RLHF) 是微调大型语言模型以遵循指令的标准方法。作为此过程的一部分,学习奖励模型用于近似模拟人类偏好。然而,作为“真实”奖励的不完美表示,这些学习的奖励模型很容易受到过度优化的影响 ...
基于偏好的强化学习 (PbRL) 提供了一种将 RL 代理的行为与人类期望的结果结合起来的自然方法,但通常受到代价高昂的人类反馈的限制。为了提高反馈效率,大多数现有的 PbRL 方法都专注于选择查询来最大限度地提高奖励模型的整体质量,但与直觉相反,我们发现这不一定会带来性能的提高。为了解开这个谜团,我们发现了现有 PbRL 研究的查询选择方案中长期被忽视的问题:查询策略错位 ...
人体运动驱动控制(HMDC)是一种有效的方法,可以生成自然且引人注目的机器人运动,同时保留高级语义。然而,由于运动学和动力学特性的不匹配,建立人类和具有不同身体结构的机器人之间的对应关系并不简单,这导致了问题的内在模糊性。许多以前的算法通过无监督学习来解决这个运动重定向问题,这需要先决条件的技能 ...
无监督预训练策略已被证明在自然语言处理和计算机视觉方面非常有效。同样,无监督强化学习(RL)有望发现各种潜在有用的行为,这些行为可以加速各种下游任务的学习。以前的无监督强化学习方法主要侧重于纯粹的探索和互信息技能学习 ...
因果问题询问不同事件或现象之间的因果关系。它们对于各种用例都很重要,包括虚拟助手和搜索引擎。然而,当前许多因果问题回答方法无法为其答案提供解释或证据 ...