重放数据是支持离策略强化学习(RL)稳定性和数据效率的主要机制。我们提出了一个有效而简单的框架来扩展多个实验中重放的使用,最小化地调整 RL 工作流程,以大幅提高控制器性能和研究迭代时间。跨实验重播 (RaE) 的核心涉及重用之前实验的经验来改进探索和引导学习,同时与之前的工作相比将所需的更改减少到最低限度 ...
训练具有一般能力的代理来彻底探索环境并学习新的和多样化的技能是机器人学习的长期目标。质量多样性强化学习(QD-RL)是一个新兴的研究领域,融合了两个领域的最佳方面——质量多样性(QD)提供了一种原则性的探索形式,并产生了行为多样化的代理集合,而强化学习(RL)提供了强大的性能改进运算符,可以跨任务和动态环境进行泛化。现有的 QD-RL 方法仅限于采样高效、确定性的离策略 RL 算法和/或进化策略,并且难以应对高度随机的环境 ...
根据人类反馈进行强化学习 (RLHF) 是微调大型语言模型以遵循指令的标准方法。作为此过程的一部分,学习奖励模型用于近似模拟人类偏好。然而,作为“真实”奖励的不完美表示,这些学习的奖励模型很容易受到过度优化的影响 ...
基于偏好的强化学习 (PbRL) 提供了一种将 RL 代理的行为与人类期望的结果结合起来的自然方法,但通常受到代价高昂的人类反馈的限制。为了提高反馈效率,大多数现有的 PbRL 方法都专注于选择查询来最大限度地提高奖励模型的整体质量,但与直觉相反,我们发现这不一定会带来性能的提高。为了解开这个谜团,我们发现了现有 PbRL 研究的查询选择方案中长期被忽视的问题:查询策略错位 ...
人体运动驱动控制(HMDC)是一种有效的方法,可以生成自然且引人注目的机器人运动,同时保留高级语义。然而,由于运动学和动力学特性的不匹配,建立人类和具有不同身体结构的机器人之间的对应关系并不简单,这导致了问题的内在模糊性。许多以前的算法通过无监督学习来解决这个运动重定向问题,这需要先决条件的技能 ...
无监督预训练策略已被证明在自然语言处理和计算机视觉方面非常有效。同样,无监督强化学习(RL)有望发现各种潜在有用的行为,这些行为可以加速各种下游任务的学习。以前的无监督强化学习方法主要侧重于纯粹的探索和互信息技能学习 ...
因果问题询问不同事件或现象之间的因果关系。它们对于各种用例都很重要,包括虚拟助手和搜索引擎。然而,当前许多因果问题回答方法无法为其答案提供解释或证据 ...
投资组合管理(PM)是一项基本的金融交易任务,它探索资金到不同股票的最佳周期性重新配置以追求长期利润。强化学习 (RL) 最近显示出其通过与金融市场互动来训练可盈利代理人的潜力。但现有工作多集中于固定股票池,与投资者的实际需求不符 ...
现代大规模推荐系统建立在计算密集型基础设施之上,通常会受到高峰期和非高峰期流量巨大差异的影响。在高峰期,由于计算资源预算有限,对每个请求进行实时计算具有挑战性。带缓存的推荐是这个问题的解决方案,其中用户明智的结果缓存用于在推荐系统无法承担实时计算时提供推荐 ...
信息检索(IR)是各种应用中的关键组成部分。机器学习 (ML) 的最新进展使得 ML 算法能够集成到 IR 中,特别是在排名系统中。虽然有大量关于基于机器学习的排名系统的稳健性的研究,但这些研究在很大程度上忽略了商业电子商务系统,并且未能在现实世界和操纵的查询相关性之间建立联系 ...