通过 RLHF 使生成模型与人类偏好保持一致通常会遇到过度优化的问题,其中学习不完善的奖励模型可能会误导生成模型输出不需要的响应。我们以原则性的方式研究这个问题,将偏差的根源识别为分布变化和学习人类偏好的不确定性的一种形式。为了减轻过度优化,我们首先提出一种理论算法,为对抗性选择的奖励模型选择最佳策略;同时最小化损失的最大似然估计和奖励惩罚项 ...
直接偏好优化 (DPO) 和身份偏好优化 (IPO) 等直接对齐算法 (DAA) 已成为在线人类反馈强化学习 (RLHF) 算法(例如用于对齐语言模型的近端策略优化 (PPO))的替代方案以满足人类的偏好,而不需要明确的奖励模型。这些方法通常旨在增加生成更好(首选)完成结果的可能性,同时阻止更差(非首选)完成结果,同时保持接近原始模型的行为。在这项工作中,我们探索了最先进的 DAA 中完成可能性和模型性能之间的关系,并确定了可能性过度优化的关键问题 ...
与评估整个响应的结果奖励模型 (ORM) 不同,过程奖励模型 (PRM) 逐步对推理轨迹进行评分,提供更密集、更细粒度的奖励。然而,训练 PRM 需要在每个中间步骤都注释标签,这给手动和自动数据收集带来了巨大的挑战。本文旨在应对这一挑战 ...
在本文中,我们介绍了一种受子空间启发的低秩适应(LoRA)方法,该方法计算效率高,易于实现,并且易于适用于大型语言、多模态和扩散模型。最初,我们等价地将LoRA的权重分解为两个子空间,发现简单地混合它们可以提高性能。为了研究这种现象,我们通过细粒度子空间透镜重新审视它,表明这种修改相当于采用固定混合器来融合子空间 ...
基于人类反馈的强化学习 (RLHF) 已证明可以有效地将大型语言模型 (LLM) 与人类偏好保持一致。然而, Token 级 RLHF 会遇到长序列的信用分配问题,其中延迟的奖励使模型很难辨别哪些行为有助于成功的结果。这会阻碍学习效率并减慢收敛速度 ...
在线模仿学习面临着广泛的在线探索空间和有限的专家轨迹之间的差距,由于奖励估计不准确而阻碍了有效的探索。受认知神经科学发现的启发,我们假设智能体可以通过将目标任务分解为“做什么”的目标和“如何做”的机制来估计精确的任务感知奖励,以进行有效的在线探索。在这项工作中,我们引入了混合关键状态引导的在线模仿(KOI)学习方法,该方法利用语义和运动关键状态的集成作为奖励估计的指导 ...
从偏好反馈中学习已成为提高现代语言模型(LM)的生成质量和性能的重要步骤。尽管使用广泛,但基于偏好的学习的应用方式差异很大,使用不同的数据、学习算法和评估,这使得理清每个方面的影响变得困难。在这项工作中,我们确定了基于偏好的学习的四个核心方面:偏好数据、学习算法、奖励模型和策略训练提示,系统地研究了这些组件对下游模型性能的影响,并提出了强偏好学习的秘诀反馈 ...
增加对大型语言模型 (LLM) 输出的信心的一种方法是用清晰且易于检查的推理来支持它们——我们称之为易读性。我们在解决小学数学问题的背景下研究了易读性,结果表明,仅为了答案的正确性而优化思维链解决方案可能会使它们不太易读。为了减轻易读性的损失,我们提出了一种受 Anil 等人的 Prover-Verifier Game 启发的训练算法 ...
我们提出了 PDLP,这是一种实用的线性规划 (LP) 一阶方法,可以实现传统 LP 应用中预期的高精度求解。此外,它可以扩展到非常大的问题,因为它的核心运算是矩阵向量乘法。 PDLP 是通过将由 Chambolle 和 Pock (2011) 推广的原始对偶混合梯度 (PDHG) 方法应用于 LP 的鞍点公式而导出的 ...
大规模预训练模型在各种计算机视觉任务中取得了显着的成功。利用这些模型的标准方法是微调下游任务的所有模型参数,这在计算和存储成本方面提出了挑战。最近,受自然语言处理(NLP)的启发,参数高效迁移学习已成功应用于视觉任务 ...