离线强化学习(RL)允许代理从静态数据集中学习有效的、回报最大化的策略。离线强化学习的三种流行算法是保守 Q 学习 (CQL)、行为克隆 (BC) 和决策变换器 (DT),分别属于 Q 学习、模仿学习和序列建模类别。一个关键的悬而未决的问题是:在什么条件下首选哪种算法?我们通过探索这些算法在常用的 D4RL 和 Robomimic 基准测试中的性能来实证研究这个问题 ...
电子商务平台通常会在 Feed 中显示广告和有机项目的混合列表。一个关键问题是如何分配 feed 中有限的时段,以最大化整体收入并改善用户体验,这需要一个良好的用户偏好模型。排列信号不是对单个项目对用户行为的影响进行建模,而是对项目排列的影响进行建模,并可能导致更好的分配策略 ...
离线强化学习的最新发展揭示了扩散建模的巨大潜力,它擅长表示异构行为策略。然而,扩散策略的采样速度相当慢,因为一项操作需要数十到数百个迭代推理步骤。为了解决这个问题,我们建议从批评模型和预训练的扩散行为模型中提取有效的确定性推理策略,利用后者在优化过程中直接用行为分布的得分函数正则化策略梯度 ...
现代深度强化学习 (RL) 算法需要估计最大 Q 值,这在具有无限数量可能动作的连续域中很难计算。在这项工作中,我们从经济学中汲取灵感,引入了一种新的在线和离线强化学习更新规则,该规则使用极值理论(EVT)直接对最大值进行建模。通过这样做,我们可以避免使用分布外操作来计算 Q 值,这通常是错误的重要来源 ...
在许多顺序决策问题(例如,机器人控制、游戏、顺序预测)中,可以使用包含有关任务的有用信息的人类或专家数据 ...
强化学习(RL)的目标是找到一种最大化预期累积回报的策略。事实证明,该目标可以表示为线性约束下状态-动作访问分布的优化问题。这个公式的对偶问题,我们称之为对偶强化学习,是不受约束的并且更容易优化 ...
重放数据是支持离策略强化学习(RL)稳定性和数据效率的主要机制。我们提出了一个有效而简单的框架来扩展多个实验中重放的使用,最小化地调整 RL 工作流程,以大幅提高控制器性能和研究迭代时间。跨实验重播 (RaE) 的核心涉及重用之前实验的经验来改进探索和引导学习,同时与之前的工作相比将所需的更改减少到最低限度 ...
训练具有一般能力的代理来彻底探索环境并学习新的和多样化的技能是机器人学习的长期目标。质量多样性强化学习(QD-RL)是一个新兴的研究领域,融合了两个领域的最佳方面——质量多样性(QD)提供了一种原则性的探索形式,并产生了行为多样化的代理集合,而强化学习(RL)提供了强大的性能改进运算符,可以跨任务和动态环境进行泛化。现有的 QD-RL 方法仅限于采样高效、确定性的离策略 RL 算法和/或进化策略,并且难以应对高度随机的环境 ...
根据人类反馈进行强化学习 (RLHF) 是微调大型语言模型以遵循指令的标准方法。作为此过程的一部分,学习奖励模型用于近似模拟人类偏好。然而,作为“真实”奖励的不完美表示,这些学习的奖励模型很容易受到过度优化的影响 ...
基于偏好的强化学习 (PbRL) 提供了一种将 RL 代理的行为与人类期望的结果结合起来的自然方法,但通常受到代价高昂的人类反馈的限制。为了提高反馈效率,大多数现有的 PbRL 方法都专注于选择查询来最大限度地提高奖励模型的整体质量,但与直觉相反,我们发现这不一定会带来性能的提高。为了解开这个谜团,我们发现了现有 PbRL 研究的查询选择方案中长期被忽视的问题:查询策略错位 ...