理解人类偏好学习的一般理论范式



Mohammad Gheshlaghi Azar        Mark Rowland           Bilal Piot     

Daniel Guo Daniele Calandriello      Michal Valko   Rémi Munos     

Google DeepMind

摘要

通过强化学习 (RLHF) 从人类偏好中学习的普遍部署依赖于两个重要的近似:第一个假设可以用逐点奖励代替成对偏好。 第二个假设基于这些逐点奖励训练的奖励模型可以从收集的数据推广到策略采样的分布外数据。 最近,直接偏好优化(DPO)被提出作为一种绕过第二次近似并直接从收集的数据中学习策略的方法,而无需奖励建模阶段。 然而,该方法仍然严重依赖第一近似。

在本文中,我们试图对这些实用算法有更深入的理论理解。 特别是,我们推导出一个名为 ΨPO 的新通用目标,用于从人类偏好中学习,该偏好以成对偏好表示,因此绕过了两种近似。 这个新的总体目标使我们能够对 RLHFDPO (作为 ΨPO的特殊情况)的行为进行深入分析并确定其潜在的陷阱。 然后,我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一个特殊情况,为此我们可以导出有效的优化过程,证明性能保证并通过一些示例证明其相对于DPO的实证优越性。

1简介

从人类偏好(Christiano 等人,2017 年)中学习是自然语言处理文献中采用的一种范式,目的是使预训练(Radford 等人,2018 年;Ramachandran 等人,2016 年)和指令微调(Wei 等人,2022 年)生成语言模型更好地与人类需求相一致。 它包括首先收集大量数据,其中每个数据由上下文、成对的上下文延续(也称为 generations)以及指示哪一个 generation 最好的成对人类偏好组成。 然后,从收集的数据中学习在给定背景下生成 的 generations 的策略。 我们将从人类偏好中学习的问题描述为离线上下文 bandit 问题(Lu等人,2010) 这个 bandit 问题的目标是,在给定一个上下文的情况下选择一个动作(扮演生成者的角色),该动作在确保赌徒策略接近某个已知参考策略的约束下,最受人类评分者青睐。 接近已知参考策略的约束可以通过使用 KL 正则化 (Geist 等人, 2019) 来满足,其作用是避免模型漂移 (Lazaridou 等人, 2020 ; 卢等人, 2020).

解决从人类偏好中学习问题的一个突出方法是通过强化学习从人类反馈中学习(RLHF,Ouyang等,2022年; Stiennon等,2020年),首先训练一个奖励模型,以分类器的形式对喜欢和不喜欢的动作进行训练。 然后通过强化学习训练 bandit 策略,以最大化学习到的奖励模型,同时最小化与参考策略的距离。 最近,RLHF已成功用于解决生成语言模型与人类偏好匹配的问题(Ouyang等人,2022) 此外,最近的工作,例如直接偏好优化(DPO,Rafailov等人,2023)(SLiC-HF,Zhao等人,2023)已经表明,可以直接根据人类偏好优化 bandit 策略,无需学习奖励模型。 他们还表明,在选择的标准语言任务上,它们与最先进的 RLHF 具有竞争力,同时它们更易于实现并且需要更少的资源。

尽管取得了实际的成功,但人们对这些实用方法的理论基础知之甚少。 值得注意的特殊例外情况是(Wang 等人,2023;Chen 等人,2022)和之前的关于偏好的工作(Busa-Fekete 等人,2014,2013) ) 以及与 bandits 和 RL 的对抗(Novoseller 等人, 2020; Pacchiano 等人, 2023) 然而,这些理论工作侧重于为标准 bandit 设置中的 regret 界限提供理论保证,而没有涉及RLHFDPOSLiC-HF

在这项工作中,我们的重点是通过介绍用于学习人类偏好的实用算法的简单而通用的理论表示来弥合理论与实践之间的差距。 特别是,我们表明可以将 RLHFDPO 的目标函数描述为专门用成对偏好表示的更一般目标的特殊情况。 我们将此目标称为 Ψ-偏好优化目标 (ΨPO) ,其中 Ψ 是任意非递减映射。 然后,我们在 RLHFDPO 的特殊情况下分析这个目标函数,并研究其潜在的缺陷。 我们对 RLHFDPO 的理论研究表明,原则上它们都容易受到过度拟合的影响。 这是因为这些方法依赖于这样一个强有力的假设:成对偏好可以通过 Bradley-Terry (BT) 模型化用 ELo-score(逐点奖励)替代(Bradley 和 Terry,1952) 特别是,当(采样的)偏好是确定性或接近确定性时,这种假设可能会出现问题,因为它会导致过度拟合偏好数据集,而代价是忽略 KL 正则化项(参见第 4.2 然后,我们提出了一个简单的解决方案来避免过度拟合的问题,即通过将 Ψ 设置为 ΨPO 中的同一性。 这种方法称为 Identity-PO (IPO),并且通过构造绕过偏好的 BT 模型化假设(参见第 5 节)。 最后,我们提出了一个实用的解决方案,通过采样损失函数(参见第5.2节),根据经验优化这个简化版本的ΨPO并且,我们在简单的 bandit 示例上将其性能与 DPO 进行了比较,为我们的理论发现提供了实证支持(参见第 5.3 节和第 5.4 节) )。

2 符号

剩下的部分,我们以 DPO (Rafailov 等人, 2023) 的符号为基础。 给定一个上下文 x𝒳,其中 𝒳 是上下文的有限空间,我们假设一个有限的动作空间𝒴 策略πΔ𝒴𝒳将每个上下文关联起来x𝒳 离散概率分布 π(.|x)Δ𝒴,其中 Δ𝒴𝒴 上的离散分布集合。 我们表示 μΔ𝒴𝒳行为策略。 从给定的上下文 x 中,设 y,yμ(x) 是由参考策略独立生成的两个操作。 然后将这些结果呈现给表达对某一代的偏好的人类评估者,表示为 ywyl,其中 ywyl 表示 {y,y} 分别。 然后,我们写出真正的人类偏好p*(yy|x)在知道上下文 x 的情况下,y优于 y 的概率。 概率来自于我们询问他们的偏好的人的选择的随机性。 所以p*(yy|x)=𝔼h[𝕀{h prefers y to y given x}],其中,期望值是对人类 h 的期望值。我们还引入了一代人y对已知x的分布μ的预期偏好、noted p*(yμ|x), via the following equation:

p*(yμ|x)=𝔼yμ(.|x)[p*(yy|x)].

对于任意两个政策 π,μΔ𝒴𝒳和上下文分布 ρ,我们将政策 πμ 的总偏好表示为

pρ*(πμ|x)=𝔼xρyπ(.|x)[p*(yμ|x)].

在实践中,我们不会直接观察 p* ,而是观察样本 I(y,y|x)来自伯努利分布,其均值为p*(yy|x)(i.e.,I(y,y|x) is 1 with probabilityp*(yy|x)0、其中 N 是数据集大小。 此外,对于一般有限集 𝒮、离散概率分布 ηΔ𝒮 和实函数 f𝒮、我们注意到 fη 下的期望为𝔼sη[f(s)]=s𝒮f(s)η(s). 对于有限数据集 𝒟=(si)i=1N、其中每个 i 都有 si𝒮 实函数 f𝒮、我们将 f𝒟 下的 经验期望表示为𝔼sD[f(s)]=1Ni=1Nf(si).

3背景

3.1 根据人类反馈进行强化学习 (RLHF)

标准RLHF范式(Christiano等人,2017;Stiennon等人,2020)由两个主要阶段组成:(i)学习奖励模型; (ii) 使用学习到的奖励进行策略优化。 在这里,我们回顾一下这些阶段。

3.1.1 学习奖励模型

学习奖励模型包括训练一个二元分类器,以使用逻辑回归损失来区分首选和不首选的操作。 对于分类器,一个流行的选择是 Bradley-Terry 模型:对于给定的上下文 x 和动作 y,我们表示逐点奖励,也可以解释为 Elo 分数, yr(x,y) 给定 x Bradley-Terry 模型表示偏好函数 p(yy|x) (分类器)作为奖励差异的 sigmoid:

p(yy|x)=σ(r(x,y)r(x,y)), (1)

其中σ()表示sigmoid函数,起到归一化的作用。 给定数据集 𝒟=(xi,yw,iyl,i)i=1N可以通过优化以下函数来学习奖励函数逻辑回归损失

(r)=𝔼(x,yw,yl)𝒟[log(p(ywyl|x))]. (2)

假定 p*(yy|x)符合布拉德利-特里模型、我们可以证明,随着数据集 𝒟 的增大、p(yy|x) becomes a more and more accurate对真实p*(yy|x)并在极限收敛于p*(yy|x).

3.1.2 利用学习奖励进行策略优化

利用奖励(Elo 分数)r(x,y)RLHF 目标就是通过以下 KL 规则化目标函数,优化出使预期奖励最大化的策略 πΔ𝒴𝒳,同时使 π 与某个参考策略 πrefΔ𝒴𝒳 之间的距离最小:

J(π)=𝔼π[r(x,y)]τDKL(π||πref), (3)

其中上下文 x 来自 ρ,动作 y 来自 π(.|x) 散度DKL(π||πref)定义如下:

DKL(π||πref)=𝔼xρ[KL(π(.|x)||πref(.|x))].

其中:

KL(π(.|x)||πref(.|x))=𝔼yπ(.|x)[log(π(y|x)πref(y|x))].

方程 (3) 中的目标本质上是通过 PPO (Schulman 等人, 2017) 或类似方法进行优化。

RLHF+PPO的组合在实践中取得了巨大成功(例如,InsturctGPT和GPT-4 Ouyang等人,2022;OpenAI,2023)

3.2直接偏好优化

上述 RL 范式的另一种方法是直接偏好优化(DPO; Rafailov 等人,2023),它完全避免了奖励模型。 给定经验数据集 𝒟,DPO 优化的损失作为 π 的函数,由下式给出

minπ𝔼(x,yw,yl)𝒟[logσ( τlog(π(yw|x)π(yl|x))
τlog(πref(yw|x)πref(yl|x)))]. (4)

就其人口形式而言,损失表现为

minπ𝔼xρy,yμ[p*(yy|x) logσ(τlog(π(y|x)π(y|x))
τlog(πref(y|x)πref(y|x)))]. (5)

Rafailov et al. (2023) show that when (i) the Bradley-Terry model in Equation (1) perfectly fits the preference data and (ii) the optimal reward function r is obtained from the loss in Equation (2), then the global optimisers of the RLHF objective in Equation (3) and the DPO objective in Equation (3.2) perfectly coincide. 事实上,这种对应关系更普遍。请参阅附录B中的命题4

4 偏好优化的总体目标

本文的核心概念贡献是基于最大化偏好的非线性函数,提出 RLHF 的总体目标。 为此,我们考虑一个一般的非递减函数 Ψ:[0,1],一个参考策略 πrefΔ𝒴𝒳,和一个实正则化参数 τ+*,并将 Ψ-偏好优化目标 (ΨPO) 定义为

maxπ𝔼xρyπ(.|x)yμ(.|x)[Ψ(p*(yy|x))]τDKL(π||πref). (6)

该目标平衡了偏好概率的潜在非线性函数与 KL 正则化项的最大化,从而鼓励策略接近参考 πref 这是由方程 (3) 的形式推动的,我们将在下一小节中看到它严格概括了 RLHFDPO,当BT模型成立时。

4.1 深入分析DPORLHF

在剩下的部分中,为了便于表示,我们省略了对 x 的依赖。 这不失一般性,并且以下所有结果对于所有 x𝚂𝚞𝚙𝚙(ρ)

我们首先将DPORLHF与方程(6)中的Ψ-偏好目标连接起来,在特殊选择下Ψ(q)=log(q/(1q)) 更准确地说,以下命题建立了这种联系。

Proposition 1

假设 Ψ(q)=log(q/(1q)) 当Bradley-Terry模型对于p*成立时,即存在r:𝒴 这样

p*(yy)=σ(r(y)r(y)),

然后是方程 (6)、方程 (3) 中的 RLHF 目标以及标准 DPO< 的最优策略/t5> 方程 (3.2) 中的目标是相同的。

证明。

请注意,在 Bradley-Terry 模型成立的假设下,我们有

𝔼yμ[Ψ(p*(yy))] =𝔼yμ[Ψ(er(y)er(y)+er(y))]
=𝔼yμ[log(er(y)/er(y))]
=𝔼yμ[r(y)r(y)]
=r(y)𝔼yμ[r(y)].

这等于方程 (3) 中的奖励,直到一个加性常数,因此,方程 (6) 和优化方程 (3) 中的目标是相同的。 进一步,如Rafailov 等人(2023)所示,方程(3.2)中DPO目标的最优策略和方程中的目标(3) 是相同的,给出了命题的陈述。

将此命题应用于存在解析解的方程 (6) 的目标函数,表明在 BT 假设下,DPORLHF可以写成

π*(y)πref(y)exp(τ1𝔼yμ[Ψ(p*(yy))]). (7)

公式 7 的推导是众所周知的结果,并在 App 中提供。A.1 以确保完整性。

4.2 弱正则化和过拟合

值得退后一步并反问上述目标引导我们发现什么样的策略。 这种高度非线性的偏好概率转换意味着,对于已经接近1的偏好概率的微小增加和对处于 50% 左右的偏好概率的较大增加一样受到激励,这可能是不太理想的。 即使在传递性设置中,logit 偏好(博弈论术语中的 Elo 分数)的最大化也可能产生反直觉的效果(Bertrand 等人,2023)

请看这样一个简单的例子:我们有两个动作 yy,使得p*(yy)=1,即 y 总是优于 y 那么 Bradley-Terry 模型将需要 (r(y)r(y))+ 满足 (1 如果我们将其插入最优政策(7)中,就会得到π*(y)π*(y)=0(即 π*(y)=0),与 KL-正则化所使用的常数 τ 无关。 因此,偏好的确定性越大,KL 正则化的强度就越弱。

KL 正则化的弱点在有限数据体系中变得更加明显,我们只能访问偏好 p^(yy) 即使真正的偏好是,例如p*(yy)=0.8、根据经验,当我们只有几个数据点进行估计时,这是很有可能的p^(yy)=1,在这种情况下,经验最优政策将使π(y)=0,适用于任何τ 这意味着过度拟合可能是一个重大的经验问题,尤其是当上下文和动作空间非常大(就像大型语言模型一样)时。

为什么标准RLHF在实践中对这个问题更加稳健? 虽然 DPO 据称的优点是它避免了拟合奖励函数的需要,但我们观察到,在实践中,当经验偏好概率位于集合 {0,1},奖励函数最终欠拟合 存在{0,1} 偏好概率训练是无限的,但这些值是可以避免的,实际上奖励函数的正则化已被观察到是实践中 RLHF 的一个重要方面(Christiano 等人, 2017) 因此,奖励函数的欠拟合对于获得针对参考策略 πref 充分正则化的最终策略至关重要。 DPO在避免奖励函数的训练时,失去了欠拟合的奖励函数所提供的策略的正则化。

虽然提前停止等标准经验实践仍然可以用作正则化的附加形式来减少这种过度拟合,但在下一节中,我们将介绍 ΨPO 的修改 目标,即使偏好是确定性的,最优经验策略也可以接近 πref

5 IPO:具有恒等映射的ΨPO

我们在上一节中观察到,DPO容易出现过度拟合,这是由于Ψ的无界性以及没有训练明确的奖励函数的组合。 不直接训练奖励函数是DPO的明显优势,但我们也希望避免过度拟合的问题。

DPO 的分析激发了对有界 Ψ 的选择,确保方程 6 中的 KL 正则化即使在 {0,1} - 值偏好,如使用经验数据集时经常出现这种情况。 通过将 Ψ 视为方程 (6) 中的恒等映射,给出了要考虑的特别自然的目标形式,从而导致总偏好的直接正则化优化:

maxπpρ*(πμ)τDKL(π||πref). (8)

优化方程 (8) 目标函数的标准方法是通过 RLHF 并选择奖励 r(y)=p*(yμ) 然而,都使用强化学习并估计奖励模型r(y)可能成本高昂。 受到DPO的启发,人们希望为方程(8)的优化问题设计一种经验解决方案,它可以直接从偏好数据集中学习。 因此,它将能够完全避免强化学习和奖励建模。

5.1 推导和计算高效的算法

DPO一样,将方程(8)重新表达为离线学习目标将是有益的。 为了推导这样的表达式,我们首先遵循Rafailov等人(2023)的推导,将最优策略的分析表达式操纵成一个寻根问题系统。 与上一节一样,我们从符号中删除了对上下文 x 的依赖,因为所有参数都可以在每个上下文的基础上应用。

寻根问题。 g(y)=𝔼yμ[Ψ(p*(yy))] 然后我们有

π*(y)πref(y)exp(τ1g(y)). (9)

对于任意y,y𝚂𝚞𝚙𝚙(πref),因此我们有

π*(y)π*(y)=πref(y)πref(y)exp(τ1(g(y)g(y))). (10)

通过让

h*(y,y)=log(π*(y)πref(y)π*(y)πref(y))

重新排列方程 (10),我们得到

h*(y,y)=τ1(g(y)g(y)). (11)

现在的核心思想是考虑一个策略π,定义

hπ(y,y)=log(π(y)πref(yπ(y)πref(y)),

并旨在求解方程:

hπ(y,y)=τ1(g(y)g(y)). (12)

IPO 的损失。 现在,我们从 Rafailov 等人 (2023) 所采用的分析方法出发,在 Ψ 作为同一函数的特定情况下,对公式 (6) 进行离线计算。 在这种情况下,方程 (12) 简化为

hπ(y,y)=τ1(p*(yμ)p*(yμ)).

我们首先将这些寻根问题重新表示为单个优化问题 L(π)

L(π)=𝔼y,yμ[(hπ(y,y)p*(yμ)p*(yμ)τ)2]. (13)

我们可以很容易地证明,对于 π* 的选择,我们有 L(π*)=0 因此 π*L(π) 以下定理证明了该解的唯一性。

Theorem 2 (全局/局部最优的唯一性).

假设𝚂𝚞𝚙𝚙(μ)=𝚂𝚞𝚙𝚙(πref)并将 Π 定义为是政策 π 的集合,使得𝚂𝚞𝚙𝚙(π)=𝚂𝚞𝚙𝚙(μ). 那么πL(π)Π中有一个唯一的局部/全局最小值,即π*

证明。

假设π*Π,根据定义πΠ,L(π)0L(π) 此外,根据公式 (11),可以立即得出 L(π*)=0、因此我们推导出 π*L 的全局最优值。现在我们证明,在 Π 中,L 没有其他局部/全局最小值。

我们写J=𝚂𝚞𝚙𝚙(μ) 我们通过对数向量 sJ 对集合 Π 进行参数化、设置πs(y)=exp(s(y))/yJexp(s(y))for yJ,and πs(y)=0 otherwise. 让我们写成 (s)=L(πs) 目标作为 logits s

(s) =𝔼y,yμ[[p*(yμ)p*(yμ)τ (14)
(s(y)s(y))log(πref(y)πref(y))]2].

目标是 logits s 的二次函数。此外,通过展开上面的二次方,我们看到损失可以表示为平方和

y,yJμ(y)μ(y)(s(y)s(y))2 (15)

加上线性项和常数项。 因此,这是一个正半定二次方程,因此是凸的。 因此我们推断出损失的所有局部最小化 (s) 也是全局最小化器 (Boyd 和 Vandenberghe,2004 年,第 1 章) 4). 我们现在注意到,由于 πs 是一个从 sπ 的连续射影,因此从局部最小值的定义中可以很容易地证明,L 的每个局部最小值 π 都对应于 的局部最小值 𝒮π 的集合。 因此,L 的所有局部最小值也是全局最小值。

最后,方程 (15) 中的二次方不远离 0 增加的唯一方向 s 是当所有括号内的项保持为 0 时;也就是说,在方向 (1,,1)J 因此,(s) 是严格凸的,除了方向 (1,,1) (Boyd 和 Vandenberghe,2004 年,第 1 章) 3). 但是,沿 e=(1,,1)不会修改所得到的策略 πs,因为对于 yJ

πs+λe(y)=es(y)+λyJes(y)+λ=es(y)yJes(y)=πs(y).

严格的凸性与 π* 是全局最小值这一事实相结合,证明 π*Π (Boyd 和 Vandenberghe,2004 年,第 1 章) 4).

5.2 IPO的抽样损失

为了获得 IPO 的采样损失,我们需要证明我们可以对方程右侧 (13) 建立无偏估计。 为此,我们考虑Population IPO损失

𝔼y,yμ[(hπ(y,y)τ1I(y,y))2], (16)

其中 I(y,y)取自伯努利分布,其均值为p*(yy),i.e.,I(y,y)1,如果y优于y(发生这种情况的概率为probability p*(yy)),和偏好数据集中的 0,并参考记录的偏好,从 I(y,y) 中获取样本。 下面的命题通过证明方程 (13) 到方程 (16) 的相等性来证明它们的转换是正确的。

Proposition 3

方程 (13) 和方程 (16) 中的表达式是相等的,直到独立于 π 的加性常数。

证明。

这种等价并非完全微不足道,因为一般来说条件期望

𝔼[hπ(Y,Y)τ1I(Y,Y)|Y=y,Y=y]

不等于方程(13)中出现的相应数量,即

hπ(y,y)τ1(p*(yμ)p*(yμ)).

我们需要利用 yy 的分布之间的对称性,并利用 hπ(y,y)分解为 yy 的加法函数。 为了证明这种损失相等,只需关注在方程 (13) 和 (16) 中展开二次方程时获得的“交叉项”即可;也就是说,要显示

𝔼y,yμ[hπ(y,y)I(y,y)]
= 𝔼y,yμ[hπ(y,y)(p*(yμ)p*(yμ))].

现在,从右边开始并使用速记符号πy=log(π(y)),πyR=log(πref(y)),py=p*(yμ),同样,对于 y,我们有

𝔼y,yμ[hπ(y,y)(p*(yμ)p*(yμ))]
= 𝔼y,yμ[(πyπy+πyRπyR)(pypy)]
= 𝔼y,yμ[πypyπypyπypy+πy
+py+πyRpyπyRpyπyRpy+πyRpy]
= 𝔼y,yμ[(2py1)πy(2py1)πyR],

其中我们使用了 yy𝔼yμ[py]=1/2 转向左侧,我们有

𝔼y,yμ[hπ(y,y)I(y,y)]
= 𝔼y,yμ[(πyπy+πyRπyR)I(y,y)]
= 𝔼yμ[(πyπyR)𝔼yμ[I(y,y)y]]
+𝔼yμ[(πy+πyR)𝔼yμ[I(y,y)y]]
= 𝔼y,yμ[πypyπy(1py)+πyR(1py)πyRpy]
= 𝔼y,yμ[(2py1)πy(2py1)πyR],

我们使用 𝔼yμI(y,y)=py𝔼yμI(y,y)=1py 根据需要,这表明损失相等。

我们现在讨论如何使用经验数据集来近似方程 (16) 中的损失。 正如我们之前的讨论一样,经验数据集 𝒟 的形式为 (yw,i,yl,i)i=iN 请注意,每个数据点 (yw,i,yl,i)为公式 (16) 的经验近似值贡献了两个项,其中 (y,y,I(y,y))=(yw,i,yl,i,1),and also (y,y,I(y,y))=(yl,i,yw,i,0). 这种对称性对于利用很重要,并且可以减少损失的方差。 因此,总体经验损失由下式给出

12𝔼(yw,yl)D[(hπ(yw,yl)τ1)2+hπ(yl,yw)2] =
12𝔼(yw,yl)D[(hπ(yw,yl)τ1)2+hπ(yw,yl)2] ,

直到一个常数等于:

𝔼(yw,yl)D[(hπ(yw,yl)τ12)2]. (17)

这种损失的简化形式为 IPO 优化政策 π 的方式提供了一些有价值的见解:(i) IPO 只需增加对数似然比即可从偏好数据集中学习 log(π(yw)/π(yl)) 通过常数 τ12 因此,正则化越弱,ywyl (ii) IPODPO 不同,始终将其解决方案规范化为 πref 通过控制对数似然比之间的距离 log(π(yw)/π(yl))log(πref(yw)/πref(yl))

5.3说明性示例

为了说明我们的算法和 DPO 之间的质的差异,我们将考虑一些简单的案例。 为了简单起见,我们假设没有上下文x,即我们处于 bandit 设置中。

5.3.1 渐近设置

我们首先考虑只有 2 个动作的简单情况,y1y2,以及它们之间的确定性偏好:p*(y1y2)=1 假设我们从统一的 πrefμ 开始。 我们从第 4.2 中知道,DPO 将收敛于确定性策略 π*(y1)=1π*(y2)=0,而无论 τ 的值是什么。 因此,即使正则化系数τ非常大,这也与均匀的πref有很大不同。

现在,让我们推导出IPO的最优政策。 我们有 p*(y1μ)=3/4p*(y2μ)=1/4 将其与 Ψ=I 一起代入 (9) 公式,可以得出π*(y1)=exp(0.75τ1)exp(0.75τ1)+exp(0.25τ1)=σ(0.5τ1) 以及 π*(y2)=σ(0.5τ1),其中 σ 是 sigmoid 函数。 因此,我们可以看到,如果我们采用 τ+ 这样的大正则化,则 π* 收敛到统一策略 πref;反之 τ+0,那么π*(y1)1π*(y2)0,这就是确定性最优策略。 正则化参数 τ 现在实际上可以用来控制我们与 πref 的接近程度。

5.4 采样首选项

到目前为止,我们依赖于方程(1)中的封闭形式最优策略(9) 来研究 DPOIPO 的稳定性,但该方程不适用于更复杂的设置,比如我们只能访问采样的偏好而不是 p 不过,我们仍然可以通过选择一个参数 πθ 来找到最优策略的精确近似值,并通过数据集上的经验损失和基于梯度的迭代更新来优化 θ 我们将使用这种方法来展示两个非渐进的例子,在这两个例子中,DPO过度拟合了偏好数据集,忽略了πref:当一个行动 y 赢得所有其他行动 DPO 时,πθ(y) 推至 1,与 τ 无关、反之,当一个行动 y 从未赢得其他行动 DPO 时,πθ(y) 将再次推至 0,而与 τ 无关。 在相同的场景中,IPO不会收敛到这些退化的解决方案,而是仍然接近于πref,基于正则化的强度τ

对于这两种情况,我们考虑一个离散空间 𝒴={ya,yb,yc} with 3 actions,并选择一个数据对 𝒟={(yw,i,yl,j)}. 给定𝒟,我们利用等式中的经验损失。 3.2 和等式。 13找到DPOIPO的最优政策。 我们使用向量 θ3 将策略编码为 πθ(yi)=softmax(θ)i,并使用 Adam 针对 18000 步骤优化它们(Kingma 和 Ba,2014)学习率 0.01 和小批量大小 9 小批量是使用统一采样和 𝒟 替换来构建的。 策略和损失均使用flax python框架(Bradbury等人,2018;Heek等人,2023)实现,Adam实现来自optax (Babuschkin 等人,2020) 对于每组超参数,我们使用不同的种子重复实验 10 次,并报告平均值和 95% 置信区间。 所有实验均在具有 4 核和 32GB RAM 的现代云虚拟机上执行。

IPO 避免贪婪策略

对于第一个示例,我们对每个唯一的操作对进行一次采样,以收集包含 3 个观察到的偏好的数据集 𝒟 由于成对偏好的对称性,仅对 3 个偏好进行采样只能产生两种结果(取决于操作的排列):

𝒟1={(ya,yb),(yb,yc),(ya,yc)},
𝒟2={(ya,yb),(yb,yc),(yc,ya)},

我们关注 𝒟1,它代表总排序,而不是 𝒟2,代表一个循环。 实验结果如图 1 所示,其中,我们报告了不同 τ 值的学习曲线。 我们观察到,对于所有 τ 值,DPO 始终收敛于确定性策略。 换句话说,无论正则化项有多强,DPO 都完全忽略参考策略,并收敛到数据集中首选的操作。 另一方面,IPO防止政策在正则化较强时变得贪婪。

Refer to caption
图1: 𝒟1IPODPO行动概率学习曲线比较
IPO 不排除动作

在第一个示例中,DPO 收敛于确定性策略,因为一个操作严格支配所有其他操作,并且损失继续推高其可能性直至饱和。 相反的效果发生在逻辑相反的条件下,即,当一个动作在数据集中没有至少取得胜利时,DPO 会将其概率设置为 0,而不管 τ 虽然这比第一个例子的破坏性要小(单个概率受到干扰,而之前整个政策因过度实现的行动而扭曲),但它在现实世界的数据中也更为常见。 特别是,当动作空间很大但数据集很小时,某些动作必然会很少或仅被采样一次,从而可能永远不会观察到胜利。 特别是因为我们没有关于其性能的数据,为了安全起见,π应该接近πref,但是DPO 的目标并不提倡这一点。

在最后一个示例中,数据集由两个观察到的偏好组成 𝒟3={(ya,yb),(yb,ya)} 并保留对 (ya,yc) 我们再次使用 Adam 计算解决方案,并在图 2 中报告不同 τ 值的结果。 我们在这里再次观察到,无论我们对目标的正则化有多强,DPO 都会完全忽略先前的 πref,而 IPO 逐渐降低 τ 未观察到行动的概率。

Refer to caption
图2: 𝒟3IPODPO行动概率学习曲线比较

6 结论和未来工作

我们提出了一个统一的目标,称为ΨPO,用于从偏好中学习。 它统一了RLHFDPO方法。 此外,我们还介绍了 ΨPO 的特殊情况,称为 IPO,它允许直接从偏好中学习,无需奖励建模阶段,也无需依赖于 Bradley-Terry 模型假设,该假设假设成对偏好可以用逐点奖励替代。 这很重要,因为它可以避免过度拟合问题。 仅当可以导出经验采样损失函数时,这种理论贡献才在实践中有用。 这就是我们在第5节中所做的,我们证明IPO可以被表述为一个寻根问题,从中可以导出经验采样损失函数。 IPO损失函数简单、易于实现且理论上合理。 最后,在 5.3 节 和 5.4 节,我们提供了说明性示例,其中我们强调了当偏好完全已知以及对偏好进行采样时 DPO 的不稳定性。 这些最小的实验足以证明 IPODPO 更适合从抽样偏好中学习。 未来的工作应该将这些实验扩展到更复杂的设置,例如基于人类偏好数据的训练语言模型。

参考

  • Babuschkin et al. (2020) Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, et al. The DeepMind JAX ecosystem, 2020, 2020. URL http://github.com/deepmind.
  • Bertrand et al. (2023) Quentin Bertrand, Wojciech Marian Czarnecki, and Gauthier Gidel. On the limitations of the Elo: Real-world games are transitive, not additive. In Proceedings of the International Conference on Artificial Intelligence and Statistics, 2023.
  • Boyd and Vandenberghe (2004) Stephen P. Boyd and Lieven Vandenberghe. Convex optimization. Cambridge University Press, 2004.
  • Bradbury et al. (2018) James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, and Qiao Zhang. JAX: composable transformations of Python+NumPy programs, 2018. URL http://github.com/google/jax.
  • Bradley and Terry (1952) Ralph Allan Bradley and Milton E Terry. Rank analysis of incomplete block designs: I. The method of paired comparisons. Biometrika, 39(3/4):324–345, 1952.
  • Busa-Fekete et al. (2014) Róbert Busa-Fekete, Balázs Szörényi, Paul Weng, Weiwei Cheng, and Eyke Hüllermeier. Preference-based reinforcement learning: Evolutionary direct policy search using a preference-based racing algorithm. Machine Learning, (3):327–351, 2014.
  • Busa-Fekete et al. (2013) Róbert Busa-Fekete, Balázs Szörenyi, Paul Weng, Weiwei Cheng, and Eyke Hüllermeier. Preference-based evolutionary direct policy search. In Autonomous Learning Workshop @ ICRA, 2013.
  • Chen et al. (2022) Xiaoyu Chen, Han Zhong, Zhuoran Yang, Zhaoran Wang, and Liwei Wang. Human-in-the-loop: Provably efficient preference-based reinforcement learning with general function approximation. In Proceedings of the International Conference on Machine Learning, 2022.
  • Christiano et al. (2017) Paul F. Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems, 2017.
  • Geist et al. (2019) Matthieu Geist, Bruno Scherrer, and Olivier Pietquin. A theory of regularized Markov decision processes. In Proceedings of the International Conference on Machine Learning, 2019.
  • Heek et al. (2023) Jonathan Heek, Anselm Levskaya, Avital Oliver, Marvin Ritter, Bertrand Rondepierre, Andreas Steiner, and Marc van Zee. Flax: A neural network library and ecosystem for JAX, 2023. URL http://github.com/google/flax.
  • Kingma and Ba (2014) Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In Proceedings of the International Conference on Learning Representations, 2014.
  • Lazaridou et al. (2020) Angeliki Lazaridou, Anna Potapenko, and Olivier Tieleman. Multi-agent communication meets natural language: Synergies between functional and structural language learning. In Proceedings of the Annual Meeting of Association for Computational Linguistics, 2020.
  • Lu et al. (2010) Tyler Lu, Dávid Pál, and Martin Pál. Contextual multi-armed bandits. In Proceedings of the International Conference on Artificial Intelligence and Statistics, 2010.
  • Lu et al. (2020) Yuchen Lu, Soumye Singhal, Florian Strub, Aaron Courville, and Olivier Pietquin. Countering language drift with seeded iterated learning. In Proceedings of the International Conference on Machine Learning, 2020.
  • Novoseller et al. (2020) Ellen Novoseller, Yibing Wei, Yanan Sui, Yisong Yue, and Joel Burdick. Dueling posterior sampling for preference-based reinforcement learning. In Proceedings of the Conference on Uncertainty in Artificial Intelligence, 2020.
  • OpenAI (2023) OpenAI. Gpt-4 technical report, 2023.
  • Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller amd Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems, 2022.
  • Pacchiano et al. (2023) Aldo Pacchiano, Aadirupa Saha, and Jonathan Lee. Dueling RL: Reinforcement learning with trajectory preferences. arXiv, 2023.
  • Radford et al. (2018) Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training. 2018.
  • Rafailov et al. (2023) Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. arXiv, 2023.
  • Ramachandran et al. (2016) Prajit Ramachandran, Peter J. Liu, and Quoc V. Le. Unsupervised pretraining for sequence to sequence learning. In Proceedings of the Conference on Empirical Methods in Natural Language Processings, 2016.
  • Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv, 2017.
  • Stiennon et al. (2020) Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F. Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 2020.
  • Wang et al. (2023) Yuanhao Wang, Qinghua Liu, and Chi Jin. Is RLHF more difficult than standard RL? arXiv, 2023.
  • Wei et al. (2022) Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. Finetuned language models are zero-shot learners. In Proceedings of the International Conference on Learning Representations, 2022.
  • Zhao et al. (2023) Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, and Peter J Liu. SLiC-HF: Sequence likelihood calibration with human feedback. arXiv, 2023.

附录

附录A证明

A.1 正则化argmaximum的存在唯一性

为了完整起见,我们简要回顾一下以下正则化准则的 argmaximum 的存在性和唯一性证明,该证明也可以在 Rafailov 等人 (2023) 的工作中找到:

τ(δ) =𝔼sδ[f(s)]τKL(δ||η),
=s𝒮δ(s)f(s)τKL(δ||η),

其中 𝒮 是有限集,f𝒮 是将 𝒮 中的元素映射为实数的函数、τ+*一个严格的正实数、δΔ𝒮 andηΔ𝒮𝒮 上的离散概率分布。 特别是,我们记得离散概率分布 δΔ𝒮可以识别为正实函数δ+𝒮 验证:

s𝒮δ(s)=1.

现在,如果我们定义 softmax 概率 δ*Δ𝒮 为:

s𝒮,δ*(s)=η(s)exp(τ1f(s))s𝒮η(s)exp(τ1f(s)),

那么,根据前面的定义,我们得到以下结果:

δ*=argmaxδΔ𝒮τ(δ)
证明。
τ(δ)τ =s𝒮δ(s)f(s)τKL(δ||η),
=s𝒮δ(s)f(s)τs𝒮δ(s)log(δ(s)η(s)),
=s𝒮δ(s)(f(s)τlog(δ(s)η(s))),
=s𝒮δ(s)(log(exp(τ1f(s)))log(δ(s)η(s))),
=s𝒮δ(s)(log(η(s)exp(τ1f(s))δ(s))),
=s𝒮δ(s)(log(η(s)exp(τ1f(s))s𝒮η(s)exp(τ1f(s))s𝒮η(s)exp(τ1f(s))δ(s))),
=s𝒮δ(s)(log(η(s)exp(τ1f(s))s𝒮η(s)exp(τ1f(s))δ(s)))+s𝒮δ(s)log(s𝒮η(s)exp(τ1f(s))),
=s𝒮δ(s)(log(δ*(s)δ(s)))+log(s𝒮η(s)exp(τ1f(s))),
=KL(δ||δ*)+log(s𝒮η(s)exp(τ1f(s))).

根据 KL 的定义,我们现在 δ*=argmaxδΔ𝒮[KL(δ||δ*)] 如下:

KL(δ||δ*)=τ(δ)τlog(s𝒮η(s)exp(τ1f(s)))

其中log(s𝒮η(s)exp(τ1f(s)))是一个常数(不依赖于 δ),τ是一个正乘法项、then KL(δ||δ*)τ(δ) 具有相同的 argmaximum。 证明到此结束。

A.2非唯一性,当𝚂𝚞𝚙𝚙(π())𝚂𝚞𝚙𝚙(μ):

请注意,如果我们搜索 π 的支持严格大于 μ 的支持的解决方案,则可能有多个解决方案。 让我们用一个简单的例子来说明这个案例。 只有一个状态x和3个动作y1,y2,y3. 参考策略 πref{y1,y2,y3},而策略 μ 分配的概率为1/2y1y20

因此损失为 L(π)=2(τ1(p*(y1μ)p*(y2μ))logπ(y1)π(y2))2 我们推导出任何政策 π=(p,q,1pq) such thatpq=eτ1(p*(y1μ)p*(y2μ))L(π) 的全局最小值。

特别是,有无数种与最优解 π* 不同的解。 问题来自于这样一个事实:当 μ 的支持没有覆盖整个动作空间时,没有足够的约束来唯一地表征 π* 假设 πrefμ 的支持重合使我们能够恢复解的唯一性,如定理2

附录 B其他结果

在本节中,我们将展示 DPORLHF 的等价性,无论偏好模型是否 p*对应于Bradley-Terry模型。 请注意,存在最小化器的假设是为了排除通过将某些操作的奖励设为 +/

Proposition 4

考虑偏好模型 p*,这样存在 Bradley-Terry 损失的最小化器

argminr𝔼xρyμ(|x)yμ(|x)[p*(yy|x)logσ(r(x,y)r(x,y))].

然后,方程 (3.2) 中的 DPO 目标和方程 (3) 中的 RLHF 目标的最优策略>) 奖励模型作为上述 Bradley-Terry 损失的最小化器是相同的,无论 p* 是否对应于布拉德利-特里偏好模型。

证明。

回想一下,给定奖励函数 r 的最优策略 πr*方程 (3) 中的目标由 πr*(y|x)πref(y|x)exp(τ1r(x,y)) 因此可以得出结论

𝔼xρy,yμ(|x)[p(yy|x)logσ(r(x,y)r(x,y))]
= 𝔼xρy,yμ(|x)[p(yy|x)logσ(τlog(πr*(y|x)πr*(y|x))τlog(πref(y|x)πref(y|x)))].

换句话说,r的布拉德利-特里奖励目标值就是πr*DPO目标值。 我们还记得地图 rπr* 是满射的。

现在,假设 r 对于 Bradley-Terry 奖励目标而言是最佳的,这意味着 πr* 对于 RLHF 目标而言是最佳的。 如果 πr* 对于 DPO 目标不是最优的,则存在另一种策略 πDPO2> 损失获得严格较低的值。 但是存在一个奖励函数 r,使得 π=πr*、such as r(x,y)=τlog(π(y|x)/πref(y|x)),因此,r 得到的布拉德利-特里损失比 r 低,这是一个矛盾。

同样,如果 π* 对于 DPO 目标是最优的,则相应的奖励函数 r(x,y)=τlog(π*(y|x)/πref(y|x)) 必须是 Bradley 的最佳选择 -特里奖励损失。 因此,RLHF 目标的相应优化器为π(y|x)πref(y|x)exp(τ1τlog(π*(y|x)/πref(y|x)))=π*(y|x),根据要求。