自对弈微调将弱语言模型转换为强语言模型

Zixiang Chen    Yihe Deng    Huizhuo Yuan    Kaixuan Ji    Quanquan Gu
摘要

通过监督微调(SFT)利用人工注释数据的力量对于推进大型语言模型(大语言模型)至关重要。 在本文中,我们深入研究了从弱大语言模型中发展出强大语言模型的前景,而无需获取额外的人工注释数据。 我们提出了一种新的微调方法,称为自玩微调(SPIN),该方法从监督微调模型开始。 SPIN 的核心是自我对弈机制,大语言模型通过与自身实例对战来完善其能力。 更具体地说,大语言模型从之前的迭代中生成自己的训练数据,通过区分这些自我生成的响应和从人类注释数据中获得的响应来完善其策略。 我们的方法逐步将大语言模型从一个新生模型提升为一个强大的模型,释放了人类注释的 SFT 演示数据的全部潜力。 理论上,我们证明只有当大语言模型策略与目标数据分布一致时,才能实现我们方法的训练目标函数的全局最优。 根据经验,我们在几个基准数据集上评估我们的方法,包括 HuggingFace Open 大语言模型排行榜、MT-Bench 和 Big-Bench 的数据集。 我们的结果表明,SPIN 可以显着提高大语言模型在各种基准测试中的性能,甚至优于通过直接偏好优化 (DPO) 并辅以额外 GPT-4 偏好数据训练的模型。 这揭示了自我对弈的前景,无需专家对手即可在大语言模型中实现人类水平的表现。 代码可在 https://github.com/uclaml/SPIN 获取。

机器学习,ICML

1简介

大型语言模型(大语言模型)开启了通用人工智能(AGI)的突破性时代,在需要复杂推理和专业知识的广泛领域展示了非凡的能力。 这些模型在数学推理/问题解决(Cobbe 等人,2021;Wei 等人,2022;Lewkowycz 等人,2022)、代码生成/编程(Chen 等人)等领域表现出色,2021;Austin 等人,2021;Li 等人,2022),文本生成(Bubeck 等人,2023;Anil 等人,2023;Touvron 等人,2023),摘要和创意写作等。 大语言模型(LLM)的一个重大进步是与更理想的行为进行预训练后对齐(Mishra 等人,2021;Victor 等人,2022;Chung 等人,2022;Thoppilan 等人,2022),这一过程通常依赖于昂贵的人工标注数据。 典型的对齐方法包括基于人类演示的监督微调(SFT)(Ouyang 等人,2022;Tunstall 等人,2023a),以及基于人类反馈的强化学习(RLHF)(Christiano)等人,2017;Ziegler 等人,2019;Stiennon 等人,2020;Bai 等人,2022a) 基于人类偏好。

所有上述对齐方法都需要大量的人工注释数据。 因此,人们越来越有兴趣开发能够有效利用人类数据的微调方法,从而简化对齐过程。 这激励我们研究微调大语言模型,而不需要微调数据集之外的额外人工注释数据。 我们的研究也与更广泛的目标相关,即在不需要额外训练数据的情况下将弱模型转换为强模型,这是机器学习的核心关注点,可以追溯到增强算法(Kearns & Valiant, 1994; Schapire, 1990; Freund, 1995; Freund & Schapire, 1997) 自训练算法(Vapnik, 1999; Grandvalet & Bengio, 2004; Lee, 2013)已被证明能够在混合模型中将弱学习者转换为强学习者,而无需额外的标记数据(Frei 等人,2022;Kou 等人,2022) 然而,在没有外部指导的情况下自主增强弱大语言模型的追求既有趣又尚未得到充分研究。 这就提出了以下问题:

我们能否在不获取额外人工注释数据的情况下,让弱大语言模型自我改进?

在本文中,我们对这个问题做出肯定的回答。 受到游戏中自我对弈机制(Samuel,2000)成功的启发,例如 AlphaGo Zero (Silver 等人,2017b)、AlphaZero (Silver 等)人, 2017a),其历史根源可以追溯到 TD-Gammon (Tesauro 等人, 1995),我们建议通过以下视角将弱大语言模型转换为强大语言模型自我对弈,模型通过与自身对弈来增强,而不需要任何直接监督。 特别是,我们提出了一种称为自玩微调(SPIN)的新颖微调方法,该方法从监督微调模型开始。 SPIN 允许大语言模型进行自我对弈,从而无需专家注释者(如人类或更高级的大语言模型(如 GPT-4))。 具体来说,前一次迭代 t 中的大语言模型用 p𝜽t 表示、我们利用它来生成对人类标注的 SFT 数据集中的提示 𝐱 的回应 𝐲 随后的目标是找到一个新的大语言模型 p𝜽t+1、能够区分 𝐲p𝜽t 产生的响应和 𝐲 由人类产生的响应。 这个过程可以看作是一个双人游戏:主玩家或新的大语言模型 p𝜽t+1、设法分辨对手棋手的反应 p𝜽t 和人类产生的反应、而对手或旧的大语言模型 p𝜽t 则生成与人类标注的 SFT 数据集中的应答尽可能相似的应答。 新的 LLM p𝜽t+1 是通过微调旧的 LLM p𝜽t 获得的,使其更倾向于从 pdata 中获取响应而不是从 p𝜽t 中获取响应,从而导致一个更符合 pdata 的分布 p𝜽t+1 在下一轮迭代中,新获得的 LLM p𝜽t+1 成为响应生成的对手,自玩过程的目标是使 LLM 最终收敛到 p𝜽=pdata,这样最强的 LLM 就无法再区分其先前版本生成的响应和人类生成的响应。

有趣的是,我们的方法与最近引入的直接偏好优化(DPO)方法(Rafailov等人,2023)相似,显着的区别在于我们方法的自我博弈性质。 因此,我们的方法通过消除对额外人类偏好数据的需求(DPO 方法中存在的要求)而脱颖而出。 此外,我们方法中的自我对弈机制类似于生成对抗网络(GAN)的思想(Goodfellow等人,2014;Arjovsky等人,2017),尽管判别器(主要参与者)我们方法中的生成器(对手)是来自不同迭代的同一大语言模型的实例。 理论上,我们证明当大语言模型的分布与目标数据分布相同时,我们的方法收敛,即 p𝜽t=pdata. 我们在 zephyr-7b-sft-full (Tunstall 等人, 2023a) 上的实验结果,这是一个基于 Mistral-7B 的微调大语言模型 (Jiang等人, 2023),表明虽然在自己的 SFT 数据集 Ultrachat200k (Ding 等人, 2023) 上继续使用 SFT 训练达到了性能平台甚至降低了评估分数,但我们的方法始终如一在连续迭代中改进 zephyr-7b-sft-full,同时仅利用 Ultrachat200k 数据集的 𝟓𝟎k 子集。 最终,SPIN 有效地将基础模型在 HuggingFace 开放 LLM 排行榜上的平均得分从 58.14 提高到 63.16 (Beeching 等人,2023),在 GSM8k 和 TruthfulQA 上的得分有了显著的 10%+ 提升,在 MT-Bench 上的得分从 5.94 提高到 6.78 (Zheng 等人,2023) 值得注意的是,SPIN 取得的结果甚至可以与 Open 大语言上额外的 62k 偏好数据集(Tunstall 等人,2023a) 训练的模型相媲美模型排行榜和 MT-Bench。

与我们的工作同时,Singh 等人 (2023) 提出在自我训练中使用具有二进制反馈的合成数据,减少对人类数据的依赖。 相比之下,由于自我博弈机制,我们的方法消除了对人类额外二元反馈或额外奖励模型的需要。 此外,Burns等人(2023)采用弱大语言模型模型作为指导,以弱到强生成的方式训练更强的大语言模型。 与需要弱监督者和强模型的 Burns 等人 (2023) 不同,我们的 SPIN 通过单个大语言模型有效运行。

符号表示。 我们使用小写字母和小写粗体字母分别表示标量和向量。 我们使用 [N] 来表示索引集 {1,,N} 在函数空间中,令 为函数类。 符号 qdata 表示目标数据分布,而 p 表示 LLM 响应的条件概率(即 LLM 策略)。

2相关工作

自玩。 自我对弈(Samuel,1959;Tesauro等人,1995),即算法通过与自身对战来学习的算法,由于其在多智能体强化学习(MARL)中的有效性而受到了广泛关注。 这种方法涉及代理与自身副本进行交互,从而提高学习环境中的挑战和复杂性。 自对弈领域的一项基础性工作是 AlphaGo Zero (Silver 等人, 2017b),它使用自对弈学习方案在与人类棋手的对抗中表现出了卓越的性能。 随后的研究扩展了自我对战的概念,探索了各种适应和实现(Anthony 等人, 2017; Lanctot 等人, 2017; Bansal 等人, 2018; Hernandez-Leal 等人, 2018; Muller 等人, 2019; Vinyals 等人, 2019) 我们的方法采用类似于 AlphaGo Zero 的自我对弈方法,无需额外的人工注释数据即可将弱模型转换为强模型。 虽然 MARL 中自我对战的有效性已得到证实,但据我们所知,我们的工作是第一个将这种方法应用于大语言模型的增强的工作。

大语言模型综合数据。 在大语言模型的监督微调(SFT)背景下,人工数据已被证明是一种非常有效的来源,可以提高大语言模型在代码生成等任务上的性能(Roziere等人, 2023;杨等人,2023)和数学推理(袁等人,2023;罗等人,2023) 虽然人类数据通常表现出高质量,但获取足够数量的此类数据对成本提出了挑战。 考虑到这一点,合成数据的使用变得越来越流行,并被视为人类数据的替代品。 该方法主要利用GPT系列等先进的大语言模型(Radford等人,2019;Brown等人,2020;OpenAI,2023)作为指导来生成高质量数据( Josifoski 等人, 2023;Taori 等人, 2023;Chiang 等人, 2023;Li 等人, 2023) 最近的研究还强调了大语言模型的改写能力,可以促进更好的大语言模型响应(Deng等人,2023;Prasad等人,2023)以及增强合成数据以实现更有效的SFT (于等人,2023;刘等人,2023) 与在预训练或微调目标模型时利用更先进的模型来生成合成数据的先前研究相比,我们的方法直接从目标模型本身生成合成数据。

3问题设置和准备工作

我们考虑一个由 𝜽 参数化并由 p𝜽 表示的大型语言模型(大语言模型)。 该模型将序列 𝐱=[x1,,xn],通常称为提示符,生成相应的响应𝐲=[y1,,ym] 因此,响应 𝐲 被视为条件概率分布 p𝜽(|𝐱) 在大语言模型中,xiyj分别代表序列𝐱𝐲中预定词库的单个词符。 自回归模型 p𝜽 为给定位置顺序生成令牌,仅利用先前生成的令牌序列。 因此,该模型构成了马尔可夫过程,其中条件概率分布 p𝜽(𝐲|𝐱)可以通过分解表示如下:

p𝜽(𝐲|𝐱)=j=1mp𝜽(yj|𝐱,𝐲<j),

其中 𝐲<1 为 null 且 𝐲<j=[y1,,yj1]j=2,,m 下面,我们回顾一下大语言模型的两种主要微调方法:监督微调和强化学习(RL)微调。

3.1 监督微调

与大规模预训练数据相比,有监督微调(SFT)利用相对较小的标注示例数据集(Ouyang 等人,2022 年;Yu 等人,2023 年),使预训练的大语言模型适合特定的下游任务。 在这种情况下,我们考虑一个特定的任务,其中由 𝐱 表示的提示源自指定的分布 q() 符号 pdata(|𝐱) 然后表示相关高质量响应 𝐲 因此,SFT 涉及训练大语言模型来最小化与这些分布相关的负对数似然损失,

LSFT(𝜽)=𝔼𝐱q(),𝐲pdata(|𝐱)[logp𝜽(𝐲|𝐱)]. (3.1)

需要注意的是,排除𝐱q() 从期望项产生典型的交叉熵损失,表示为 𝔼𝐲pdata(|𝐱)[logp𝜽(𝐲|𝐱)] LSFT(𝜽)当模型的预测分布达到最小值时p𝜽(𝐲|𝐱)与标记的高质量响应的分布完全一致。quality responses pdata(𝐲|𝐱).

因此、因此,SFT 后的大语言模型预计会产生与以下内容非常相似的反应pdata(𝐲|𝐱) 因此,该过程预计将显着提高模型在为特定任务生成适当响应方面的性能。

3.2强化学习微调

强化学习微调(Christiano等人,2017;Bai等人,2022a;Gao等人,2023a)提供了另一种增强通用预训练模型特定能力的方法。 通常,在 SFT 之后采用强化学习微调来实现大语言模型(Tunstall 等人,2023a)的改进对齐。

对于给定的序列对 (𝐱,𝐲),RL 微调需要确定性奖励函数 r(𝐱,𝐲) 奖励 r(𝐱,𝐲) 越高,𝐲 对给定提示 𝐱 的反应就越好。 RL 微调过程的目标是最大化以下目标函数:

LRL(𝜽) =𝔼𝐱q(),𝐲p𝜽(|𝐱)[r(𝐱,𝐲)]
λ𝔼𝐱q()KL(p𝜽(|𝐱)||pref(|𝐱)),

其中,Kullback-Leibler(KL)正则化强制新模型 p𝜽 接近参考模型 prefλ>0是正则化参数,用于控制新模型 p𝜽 与参考模型 pref 的偏差。 在实践中,参考模型 pref 通常被初始化为监督微调模型。 KL 正则化的加入对于防止与参考模型的过度偏差至关重要,从而降低了模式崩溃的风险。

同时,强化学习微调的主要挑战在于找到良好的奖励函数。 通常,此函数需要在偏好数据集上进行训练。 此类数据集的编译需要大量资源,通常涉及人类注释者的综合评估,即根据人类反馈进行强化学习(RLHF)(Christiano等人,2017;Bai等人,2022a)或强人工智能代理,即根据人工智能反馈进行强化学习(RLAIF)(Bai 等人,2022b)

4方法

在本节中,我们介绍了一种新的微调方法,可以在不依赖额外人类或人工智能反馈的情况下增强大语言模型的性能。 考虑高质量的监督微调(SFT)数据集 SSFT={(𝐱,𝐲)}i=1n,从边际分布 q(𝐱) 中采样,并且pdata(𝐲|𝐱). 给定一个有监督的微调 LLM p𝜽0,在 (3.1) 中进一步应用 SFT 方法与 SSFT 将是无效的,并可能导致性能更差。 此外,如果没有人类和/或人工智能反馈,就不可能获取用于 RL 微调的偏好数据集(例如 RLHF 和 RLAIF)。 这阻碍了强化学习微调技术的应用。

我们评估 p𝜽0SSFT,其中 p𝜽0 是使用 (3.1) 通过 SFT 实现的 LLM。 我们注意到来自 SSFT 的真实响应 𝐲 与 LLM 生成的响应 𝐲p𝜽(|𝐱) 之间存在持续的质量差距(参见图 1)。 这种差异表明,相对于 p𝜽0 仍有改进的空间。 因此,我们建议从p𝜽0 迭代。

Refer to caption
图1: 地面实况完成示例与迭代 0 和 1 处微调模型生成的比较。 我们可以观察到,迭代 0 时的模型生成虽然流畅,但错误地量化了交通偏好的特定百分比,这些百分比可能是幻觉。 第 1 次迭代的模型生成提供了南安普敦交通形式的定性总结,没有具体的百分比,与地面事实更接近,同时添加了更多细节。

4.1 自玩微调(SPIN)

让我们考虑一个两人游戏,其中主要玩家的目标是区分大语言模型生成的响应和人类生成的响应。 与此同时,对手的作用是产生与人类的反应无法区分的反应。 我们方法的核心是自我对战机制,其中主要玩家和对手都是相同的大语言模型,但来自不同的迭代。 更具体地说,对手是上一次迭代的旧大语言模型,而主力是本次迭代要学习的新大语言模型。

在迭代 t+1 中,对手是上一次迭代的大语言模型,用 p𝜽t 表示、它根据以下原则为 SFT 数据集中的提示 𝐱 生成 𝐲 响应p𝜽t(|𝐱). 因此,我们的方法在迭代 t+1 时包含以下两个步骤:(1) 训练主玩家,(2)

训练主要玩家。 我们首先说明我们期望如何训练主要参与者来区分大语言模型反应和人类反应。 受积分概率度量 (IPM) (Müller, 1997) 的启发, 我们将我们的目标函数公式化为:主玩家 ft+1 最大化目标数据分布 pdata 与对手玩家的分布 p𝜽t 之间的预期值差距:

ft+1 =argmaxft𝔼[f(𝐱,𝐲)f(𝐱,𝐲)], (4.1)

其中,期望值是在分布 𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱) 上计算的,而 t 是一个高度表达的函数类别序列,我们将在后面的推导中确定。 t 中的下标 t 是因为函数类别取决于 p𝜽t 给定这样一个 ft+1 和对提示 𝐱 的响应序列 𝐲ft+1(𝐱,𝐲) 的值反映了主要参与者对 𝐲 来自于 pdata 而不是 p𝜽t 的置信程度。 理想情况下,当 𝐲pdata(|𝐱) 时,主要参与者 ft+1 应该产生一个高值,而当 𝐲p𝜽t(|𝐱) 时,应该产生一个低值,其中 p𝜽t 是对手的分布。 而不是解决 (4.1),我们也可以解决以下更一般的优化问题,

ft+1=argminft𝔼[(f(𝐱,𝐲)f(𝐱,𝐲))], (4.2)

其中期望值是在分布 𝐱q(),𝐲pdata(|𝐱),yp𝜽t(|𝐱) 上计算的,而 () 是一个单调递减且凸的损失函数。 例如,线性损失函数 (t)=t 将 (4.2) 简化为 (4.1) 的最小化版本。 然而,使用线性损失函数会导致目标值无界,这在连续训练期间会导致对手玩家的响应中 f(𝐱,𝐲) 的负无穷值。 因此,在我们的工作中,我们选择逻辑损失函数 (t):=log(1+exp(t)),因为它是非负的、平滑的,并且当 t 时具有指数衰减的尾部。 这种损失函数的选择有助于防止 f 绝对值的过度增长。

更新对手玩家。 之前我们已经讨论了给定对手玩家的分布 p𝜽t 来训练 ft+1 现在假设我们已经优化了我们的主要玩家 ft+1,它可以在某个函数类 t 中区分 pdatap𝜽t,我们详细说明了如何获得对手玩家的参数 𝜽t+1 具体来说,当呈现对相同提示 𝐱 的两个响应 𝐲𝐲 时,ft+1 会评估值 ft+1(𝐱,𝐲)ft+1(𝐱,𝐲) 然后它推断出具有较高值的响应来自真实数据分布 pdata,而具有较低值的响应归因于 LLM p𝜽t 随后,对手玩家的目标是找到一个更好的 LLM,该 LLM 生成的响应对于主要玩家来说与 pdata 不可区分。 这是通过最大化期望值 𝔼𝐱q(),𝐲p(|𝐱)[ft+1(𝐱,𝐲)] 来实现的。 此外,为了防止 p𝜽t+1p𝜽t 过度偏离并稳定自博弈,我们加入了一个 Kullback-Leibler (KL) 正则化项。 将这些放在一起会产生以下优化问题:

argmaxp𝔼𝐱q(),𝐲p(|𝐱)[ft+1(𝐱,𝐲)]
λ𝔼𝐱q()KL(p(|𝐱)||p𝜽t(|𝐱)), (4.3)

其中 λ>0 是正则化参数。 值得注意的是,(4.3) 有一个闭式解 p^(|𝐱)

p^(𝐲|𝐱)p𝜽t(𝐲|𝐱)exp(λ1ft+1(𝐱,𝐲)). (4.4)

值得注意的是,p^(|𝐱) 并不保证属于 LLM 空间 {p𝜽(|𝐱)|𝜽𝚯} 由于我们希望概率空间中的闭式解 p^ 可以由参数为 𝜽 的 LLM 实现,即 p𝜽(𝐲|𝐱)=p^(𝐲|𝐱), 求解 p𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)exp(λ1ft+1(𝐱,𝐲))ft+1(𝐱,𝐲)=λlogp𝜽(|𝐱)p𝜽t(|𝐱) 这表明以下函数类 t 用于 ft+1

t={λlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)|𝜽𝚯}, (4.5)

其中 𝚯 是所考虑 LLMs 的参数空间。 鉴于 t 在 (4.5) 中的选择,优化 (4.2) 得 ft+1,其参数化形式为 𝜽t+1

ft+1(𝐱,𝐲)=λlogp𝜽t+1(𝐲|𝐱)p𝜽t(𝐲|𝐱). (4.6)

将 (4.6) 代入 (4.4) 得 p^(𝐲|𝐱)=p𝜽t+1(𝐲|𝐱) 换句话说,从 (4.2) 中学习到的 𝜽t+1 正是理想对手选择的 LLM 参数。

端到端训练目标。 我们将前面讨论的两个步骤整合到一个单一的端到端训练目标中,更新规则为 𝜽t+1 具体来说,将 (4.5) 代入 (4.2) 得更新规则 𝜽t+1=argmin𝜽𝚯LSPIN(𝜽,𝜽t),其中 LSPIN 是定义如下训练目标:

LSPIN=𝔼[(λlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)λlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))], (4.7)

其中期望是根据分布 𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱) 计算的。 我们总结了我们方法 SPIN 的迭代自博弈过程如下:

p𝜽t(|𝐱)Opponent Player at tλlogp𝜽t+1(|𝐱)p𝜽t(|𝐱)Main Player at t+1
p𝜽t+1(|𝐱)Opponent Player at t+1

也就是说,从前一次迭代 t 中选择的对手玩家被用来训练第 t+1 次迭代的主玩家,得到参数为 𝜽t+1 的 LLM。 然后我们通过直接复制 LLM 参数 𝜽t+1 来确定第 t+1 次迭代的下一个对手玩家,该参数随后用于训练第 t+2 次迭代的主玩家。 详细算法在算法 1 中给出。

算法1 自玩微调 (SPIN)
  输入: {(𝐱i,𝐲i)}i[N]:SFT数据集,p𝜽0:大语言模型,参数𝜽0T:迭代次数。
  for t=0,,T1 do
     for i=1,N do
        生成合成数据𝐲ip𝜽t(|𝐱i)
     结束 对于
     更新𝜽t+1=argmin𝜽𝚯i[N](λlogp𝜽(𝐲i|𝐱i)p𝜽t(𝐲i|𝐱i)λlogp𝜽(𝐲i|𝐱i)p𝜽t(𝐲i|𝐱i))
  结束 对于
  输出: 𝜽T

4.2 SPIN 和 DPO 的比较

在第 4.1 节中,我们提出了自博弈微调 (SPIN),它具有针对每次迭代的端到端训练目标 (4.7)。 (4.7) 与用于 RL 微调的直接偏好优化 (DPO) (Rafailov et al., 2023) 类似。 然而,SPIN 和 DPO 从根本上不同。 DPO 基于 Bradley-Terry (BT) 模型:p(𝐲1𝐲2|𝐱)=exp(r(𝐱,𝐲1))exp(r(𝐱,𝐲1))+exp(r(𝐱,𝐲2)),并通过直接策略优化来最大化 p(𝐲1𝐲2|𝐱) 的对数似然,而无需显式奖励估计。 相反,SPIN 依赖于最大化 IPM 来与自身越来越强大的版本竞争。 以下是更详细的比较:

  1. 1.

    DPO 本质上不会导致迭代训练。 更具体地说,DPO 的目标是将由其奖励模型诱导的偏好概率 p(𝐲1𝐲2|𝐱) 与单次迭代中的数据分布 pdata(𝐲1𝐲2|𝐱) 相匹配。 相反,SPIN 的自博弈机制自然会导致迭代训练过程。 SPIN 迭代地优化其生成分布 p𝜽(𝐲|𝐱) 以匹配跨迭代的目标分布 pdata(𝐲|𝐱)

  2. 2.

    SPIN 只需要 SFT 数据集,该数据集由对 (𝐱,𝐲) 表示。 相反,DPO 需要一个偏好数据集,由 (𝐱,𝐲w,𝐲l) 表示,其中 𝐲w𝐲l 分别表示获胜者(选择)和失败者(拒绝)的响应。 此外,SPIN 可以应用于 SFT 和 RL 微调之间。

  3. 3.

    SPIN 中,我们可以选择不同的损失函数 ,这些函数只需要是凸且递减的(在定理 5.2 中稍后详细介绍),包括相关损失、铰链损失和逻辑损失。 只有当 被选为逻辑损失时,SPIN 的训练目标才会与 DPO 的训练目标类似。

最近,Xu 等人 (2023) 提议使用带有成对反感损失 (PCO) 的迭代偏好优化,并将 DPO 推广到迭代 DPO。 与我们的工作同时,Yuan 等人 (2024) 进一步提出了一种名为“自奖励语言模型”的框架,该框架利用 LLM 本身作为奖励模型来提供偏好反馈,并使用迭代 DPO 来训练 LLM。 Xu 等人 (2023); Yuan 等人 (2024) 相比,SPIN 的自我评估是隐含的,因为它不需要中间奖励或偏好反馈。

5理论分析

在本节中,我们对第 4 节中的算法 1 进行理论分析。 在目标函数的单调性和凸性假设下,我们证明当且仅当参数𝜽t 生成数据分布。 我们的假设总结如下:

Assumption 5.1.

损失函数 (t): 呈单调递减趋势,即 t,(t)0 且满足 (0)<0 另外,(t) 是凸函数。

假设 5.1 适用于机器学习中常用的各种损失函数,包括相关性损失 (t)=1t、铰链损失 (t)=max(0,1t)、指数损失 (t)=exp(t) 和逻辑损失 (t)=log(1+exp(t)) 在假设 5.1 下,我们给出以下定理,该定理对于理解我们方法的优化动力学至关重要。

Theorem 5.2.

在假设 5.1 下,假设存在 p𝜽(|𝐱)=pdata(|𝐱),则我们有

  • (充分性) 如果 p𝜽t(|𝐱)=pdata(|𝐱),则 𝜽t(4.7) 的全局最小值,对于任何 λ0 而言。

  • (必要性) 如果 p𝜽t(|𝐱)pdata(|𝐱),则存在一个适当地选择的 λ,使得 𝜽t 不是 (4.7) 的全局最小值。

Remark 5.3.

定理 5.2 表明,在一定条件下,我们方法的优化过程自然地在 p𝜽(|𝐱)=pdata(|𝐱) 处停止,这意味着我们的方法在使 LLM 的分布与目标数据分布对齐方面是有效的。 此外,定理 5.2 还表明,优化过程只有在达到全局最优时才会停止,即 LLM 的分布与目标数据分布对齐。

对于逻辑损失函数 (t)=log(1+exp(t)),以下定理给出了对手玩家更精确的特征,从而可以更好地理解SPIN9>。

Theorem 5.4.

考虑逻辑损失的选择 (t)=log(1+exp(t))SPIN9> 中。 假设 p𝜽t(𝐲|𝐱)(pdata(𝐲|𝐱)/p𝜽t(𝐲|𝐱))1/λ 位于 LLM 空间 {p𝜽(𝐲|𝐱)|𝜽𝚯} 中,且 𝜽t+1LSPIN(𝜽,𝜽t) 的全局最小值,则第 t+1 次迭代时的对手玩家满足

p𝜽t+1(𝐲|𝐱)p𝜽t(𝐲|𝐱)(pdata(𝐲|𝐱)/p𝜽t(𝐲|𝐱))1/λ.
Remark 5.5.

根据定理 5.4,当 p𝜽t(𝐲|𝐱) 小于 pdata(𝐲|𝐱) 时,从 p𝜽t(𝐲|𝐱)p𝜽t+1(𝐲|𝐱) 的模型更新倾向于增加概率 p𝜽t+1(𝐲|𝐱),而当 p𝜽t(𝐲|𝐱) 大于 pdata(𝐲|𝐱) 时,则会降低概率。 因此,定理 5.4 进一步证实了我们的方法的优化过程自然地收敛于 p𝜽(|𝐱) 等于 pdata(|𝐱) 的点。 对方玩家的更新由(pdata(𝐲|𝐱)/p𝜽t(𝐲|𝐱))1/λ,由因子1/λ λ越小,对手玩家的变化越大,而λ越大,对手的变化越小。 因此,当 p𝜽(|𝐱) 接近 pdata(|𝐱) 时,增加 λ 会提高 LLM 训练的稳定性。 这一观察结果与 (4.3) 相符,其中 λ 是 KL 正则化的正则化参数,用于控制对手玩家的偏差。

6实验

本节对SPIN进行了详细的实证分析。 我们的发现突出了几个关键点:(1) SPIN 通过突破 SFT 的限制,显著提高了模型在广泛的评估基准上的性能;(2) 即使没有引入新的经过人工标注的数据,SPIN 在迭代 0 时的性能也与利用更多数据的 DPO 训练相当;(3) 迭代训练是 SPIN 中的必要组成部分,因为它突破了多轮训练的限制。

6.1 实验设置

模型和数据集。 在本研究中,我们采用 zephyr-7b-sft-full 作为我们的基础模型。 该模型源自预训练的 Mistral-7B (Jiang et al., 2023),并在 HuggingFace 的 SFT 数据集 Ultrachat200k111https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k 上进行了进一步的微调。 Ultrachat200k 代表了更大的 UltraChat (Ding 等人,2023) 语料库的高质量 200k 子集,其中包含使用 OpenAI Turbo API 生成的约 140 万个对话。 从 UltraChat200k 中,我们随机采样 50k 个提示,并使用基础模型生成合成响应。 随后,我们按照第 4.1 节中描述的优化方法进行进一步的训练。 在多次迭代中,我们利用来自最新迭代的合成数据,并将其添加到新生成的合成数据中,因此在迭代 0 时合成数据集大小为 50k,在迭代 123 时为 100k。 在每次迭代中,我们对模型进行 2 个轮次的训练。

评估。 我们采用广泛使用的 Huggingface Open 大语言模型排行榜(Beeching 等人,2023)作为我们的评估基准,使用相同的语言模型评估工具库(Gao 等人,2023b) t1>. 该排行榜包含 6 个不同的数据集,每个数据集侧重于大语言模型的特定功能。 总的来说,这些数据集提供了一个全面的评估框架,评估大语言模型的常识推理(Arc (Clark 等人, 2018)、HellaSwag (Zellers 等人, 2019)、 Winogrande (Sakaguchi 等人, 2021))、多任务语言理解 (MMLU(Hendrycks 等人, 2020))、人类虚假模仿 (TruthfulQA (Lin等人,2021)) 和数学问题解决 (GSM8k (Cobbe 等人,2021))。 我们将更详细的实现细节留到附录 B 中,其中包含排行榜和我们实验中采用的详细评估设置。

6.2 SPIN有效提升基准性能

Refer to caption
图2: HuggingFace 开放大语言模型排行榜数据集上不同迭代的 SPIN 平均得分。 对于“SFT”,我们报告了基本模型 zephyr-7b-sft-full 的性能,该模型已在我们用于生成合成数据的同一数据集上进行了微调。

在图 2 中,我们使用 HuggingFace Open LLM 排行榜作为评估,展示了 SPIN 的有效性。 在图 3 中,我们将经过 SPIN 迭代 0 到 3 后微调的模型的性能与基础模型 zephyr-7b-sft-full 在排行榜中包含的每个任务上的性能进行了比较。 详细的性能见附录 B 中的表 4 我们可以观察到,通过进一步利用 SFT 数据集,SPIN 在提高模型性能方面表现出了显着的效果,而基础模型已经在该数据集上得到了充分的微调。 在迭代 0 中,模型响应是由 zephyr-7b-sft-full 生成的,我们观察到平均得分总体提高了 2.66% 这一改进在 TruthfulQA 和 GSM8k 基准测试中尤其显着,改进超过 5%10% 在迭代 1 中,我们使用来自迭代 0 的 LLM 模型为 SPIN 生成新的响应,并遵循算法 1 中概述的程序。 此迭代平均而言进一步提高了 1.32% 的性能,特别是在 Arc Challenge 和 TruthfulQA 基准测试中表现出色。 随后的迭代延续了各种任务增量改进的趋势。 同时,迭代 t+1 时的改进自然小于迭代 t

与DPO的比较。 zephyr-7b-beta 是从 zephyr-7b-sft-full 模型派生而来,使用 DPO 在约 62k 个偏好数据上进行训练。 这些数据,即 UltraFeedback Binarized 数据集 (Cui 等人,2023)222https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized,包含由 GPT-4 评估的已选和被拒绝的补全。 我们注意到,DPO 需要人工输入或高级语言模型反馈来确定偏好,这使得数据生成成为一个相当昂贵的过程。 相反,我们的 SPIN 仅需要初始模型本身。 此外,与需要新数据源的 DPO 不同,我们的方法专门利用现有的 SFT 数据集。 在图 3 中,我们展示了 SPIN 在迭代 0 和 1(使用 50k 个 SFT 数据)时的性能比较,以及来自相同 SFT 检查点的 DPO 训练。 我们观察到,虽然 DPO 利用来自新来源的更多数据,但基于现有 SFT 数据的 SPIN 已经能够在迭代 0 时实现与 DPO 训练相当的平均性能。 从迭代 1 开始,SPIN 甚至超越了 DPO 在排行榜基准测试中的性能。

Refer to caption
图3: 与六个基准数据集的 DPO 训练进行性能比较。 迭代 0 的自博弈实现了与 DPO 训练使用 62k 个新数据相当的性能。 在迭代 1 时,self-play 在大多数数据集上已经超过了 DPO 训练。
Refer to caption
(一) Arc Challenge。
Refer to caption
(b) TruthfulQA。
Refer to caption
(c) 平均。
图4: SPIN 训练动力学在迭代 0 期间针对 50k 个合成数据的训练时期数对 zephyr-7b-sft-full 进行训练。 我们可以观察到迭代训练是关键,因为在迭代 0 期间更多轮数的训练达到极限并且不能超过迭代 1。

6.3消融研究

在本小节中,我们将检查迭代中合成数据集大小和训练周期的影响。 我们的分析证明了 SPIN 使用的合成数据与 SFT 数据相比的有效性,以及 SPIN 中迭代训练的必要性。 在附录 B 中,我们介绍了对 SPIN 在其他基准任务上的评估。

Refer to caption
图5: 在 Open LLM 排行榜的平均得分上,与 SFT 相比,SPIN 训练规模的扩展效果。 对于 SPIN,我们考虑 14k、26k 和 50k 的训练数据大小,其中较大的数据集包含较小的数据集。 SPIN 的起点(横轴为 0)是 zephyr-7b-sft-full 检查点,该检查点已在 Ultrachat200k 上微调了一个 epoch。 我们报告使用 SPIN 在不同大小的数据集上训练一个 epoch 的模型性能。 我们还与 SFT 进行比较,其中我们在 Ultrachat200k 上连续 3 个 epoch 上使用 Mistral-7B,并报告第一个 epoch 作为起点(x 轴为 0)的模型性能。

训练尺寸。 我们研究了训练数据大小的变化对 SPIN 性能的影响。 在图 5 中,我们展示了迭代 0 期间 SPIN 训练规模的影响,并与使用完整原始数据集的 SFT 进行了比较。 具体来说,对于 SFT 基线,我们在 Ultrachat200k 上对 Mistral-7B 进行完全微调,共三个 epoch,并在图中报告第一个 epoch 的性能作为起点(横轴为 0)。 对于 SPIN,我们报告 zephyr-7b-sft-full 检查点作为起点,该检查点也已在 Ultrachat200k 上微调了一个 epoch。 我们选择迭代 0 时 SPIN 的训练规模为 14k、26k 和 50k,并相应地生成数据,确保较大的数据集包含较小的数据集。 然后在对每个训练规模进行一个 epoch 的自我博弈微调后,评估 SPIN 的性能。 我们可以观察到,虽然 SPIN 随着训练规模的增加而显着提高,但 SFT 在第 2 和第 3 个 epoch 中的进一步训练并没有带来超过 1% 的提升。 附加结果留待附录 B 中介绍。

迭代训练与多 epoch 训练。 我们进一步研究了迭代 0 内的训练,并将其与迭代 1 中取得的性能进行比较,特别是在对比从延长训练时间获得的测试性能与从下一个迭代获得的测试性能。 4 描绘了使用 SPIN 在迭代 0 的多个 epoch 中训练的模型的性能轨迹。 很明显,最实质性的改进发生在前两个时期,随后的时期仅出现适度的增长。 值得注意的是,SPIN 表现出鲁棒性和稳定性;延长训练时间不会降低性能,而是保持相当一致的水平。 然而,观察表明单次迭代内可实现的性能存在固有的限制,从而强调了迭代训练的必要性。 如图中第 1 次迭代所达到的测试性能所示,在第 0 次迭代中扩展训练未能达到与第 1 次迭代相当的性能。

7结论与讨论

本文介绍了一种新颖的微调方法SPIN,通过释放人工注释数据的全部力量,将弱大语言模型转换为强大语言模型。 该方法的核心是自我对弈机制,其中对主要玩家(大语言模型)进行微调,以区分对手玩家(先前迭代的大语言模型)的响应与目标数据分布,并且大语言模型语言模型与目标数据分布迭代对齐。 因此,SPIN有利于大语言模型通过自我对弈进行迭代自我评估和增强。 与监督微调和强化学习微调方法相比,SPIN使大语言模型能够自我改进,而无需额外的人类数据或更强的大语言模型的反馈。 实证结果表明,SPIN 显着提高了大语言模型在不同基准上的性能,甚至优于使用额外人类数据或人工智能反馈训练的模型。

限制和未来的工作。 我们理论结果表明,SPIN 的优化过程收敛当且仅当 LLM 的分布与 pdata 一致。 因此,我们的研究重点是人类生成的固定目标数据分布,这本质上对微调大语言模型的性能施加了上限。 探索动态变化的目标数据分布是克服这一限制、将大语言模型的性能提升到超越这个上限甚至超人类水平的一个重要方向。 此外,考虑到合成数据生成的资源需求,进一步探索的另一个有希望的途径是减少所需合成数据的数量。

致谢

我们感谢匿名审稿人和领域主席的宝贵意见。 ZC、YD、HY、KJ 和 QG 部分得到了美国国家科学基金会 CAREER 奖 1906169、IIS-2008981、CHE-2247426 和 Sloan 研究奖学金的支持。 本文中的观点和结论属于作者个人观点,不应被解释为代表任何资助机构。

影响陈述

本文介绍了旨在推动大语言模型领域发展的工作。 我们相信我们的工作对该领域做出了有意义的贡献,特别是在利用合成数据来增强 LLM 而不依赖人类偏好标注方面。 SPIN 生成的合成数据可用于进一步增强各种语言模型的训练。 此外,SPIN 在 LLM 的能力方面表现出显著的改进,为其在各种下游任务中的应用开辟了新的途径。 这一进步突出了 LLM 微调在技术和社会背景下所具有的变革潜力。

参考

  • Anil et al. (2023) Anil, R., Dai, A. M., Firat, O., Johnson, M., Lepikhin, D., Passos, A., Shakeri, S., Taropa, E., Bailey, P., Chen, Z., et al. Palm 2 technical report. arXiv preprint arXiv:2305.10403, 2023.
  • Anthony et al. (2017) Anthony, T., Tian, Z., and Barber, D. Thinking fast and slow with deep learning and tree search. Advances in neural information processing systems, 30, 2017.
  • Arjovsky et al. (2017) Arjovsky, M., Chintala, S., and Bottou, L. Wasserstein generative adversarial networks. In International conference on machine learning, pp.  214–223. PMLR, 2017.
  • Austin et al. (2021) Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., Jiang, E., Cai, C., Terry, M., Le, Q., et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
  • Bai et al. (2022a) Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D., Henighan, T., et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022a.
  • Bai et al. (2022b) Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., et al. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073, 2022b.
  • Bansal et al. (2018) Bansal, T., Pachocki, J., Sidor, S., Sutskever, I., and Mordatch, I. Emergent complexity via multi-agent competition. In International Conference on Learning Representations, 2018.
  • Beeching et al. (2023) Beeching, E., Fourrier, C., Habib, N., Han, S., Lambert, N., Rajani, N., Sanseviero, O., Tunstall, L., and Wolf, T. Open llm leaderboard, 2023.
  • bench authors (2023) bench authors, B. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. Transactions on Machine Learning Research, 2023. ISSN 2835-8856.
  • Bengio et al. (2009) Bengio, Y., Louradour, J., Collobert, R., and Weston, J. 课程学习。 In Proceedings of the 26th annual international conference on machine learning, pp.  41–48, 2009.
  • Brown et al. (2020) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
  • Bubeck et al. (2023) Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., Lee, P., Lee, Y. T., Li, Y., Lundberg, S., et al. Sparks of artificial general intelligence: Early experiments with gpt-4. arXiv preprint arXiv:2303.12712, 2023.
  • Burns et al. (2023) Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., Chen, Y., Ecoffet, A., Joglekar, M., Leike, J., et al. Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. 2023.
  • Chen et al. (2021) Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
  • Cheng et al. (2023) Cheng, P., Yang, Y., Li, J., Dai, Y., and Du, N. Adversarial preference optimization, 2023.
  • Chiang et al. (2023) Chiang, W.-L., Li, Z., Lin, Z., Sheng, Y., Wu, Z., Zhang, H., Zheng, L., Zhuang, S., Zhuang, Y., Gonzalez, J. E., Stoica, I., and Xing, E. P. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, March 2023.
  • Christiano et al. (2017) Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30, 2017.
  • Chung et al. (2022) Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, Y., Wang, X., Dehghani, M., Brahma, S., et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022.
  • Cirik et al. (2016) Cirik, V., Hovy, E., and Morency, L.-P. Visualizing and understanding curriculum learning for long short-term memory networks. arXiv preprint arXiv:1611.06204, 2016.
  • Clark et al. (2018) Clark, P., Cowhey, I., Etzioni, O., Khot, T., Sabharwal, A., Schoenick, C., and Tafjord, O. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
  • Cobbe et al. (2021) Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
  • Cui et al. (2023) Cui, G., Yuan, L., Ding, N., Yao, G., Zhu, W., Ni, Y., Xie, G., Liu, Z., and Sun, M. Ultrafeedback: Boosting language models with high-quality feedback, 2023.
  • Dao (2023) Dao, T. Flashattention-2: Faster attention with better parallelism and work partitioning. arXiv preprint arXiv:2307.08691, 2023.
  • Deng et al. (2023) Deng, Y., Zhang, W., Chen, Z., and Gu, Q. Rephrase and respond: Let large language models ask better questions for themselves. arXiv preprint arXiv:2311.04205, 2023.
  • Ding et al. (2023) Ding, N., Chen, Y., Xu, B., Qin, Y., Zheng, Z., Hu, S., Liu, Z., Sun, M., and Zhou, B. Enhancing chat language models by scaling high-quality instructional conversations. arXiv preprint arXiv:2305.14233, 2023.
  • Frei et al. (2022) Frei, S., Zou, D., Chen, Z., and Gu, Q. Self-training converts weak learners to strong learners in mixture models. In International Conference on Artificial Intelligence and Statistics, pp.  8003–8021. PMLR, 2022.
  • Freund (1995) Freund, Y. Boosting a weak learning algorithm by majority. Information and computation, 121(2):256–285, 1995.
  • Freund & Schapire (1997) Freund, Y. and Schapire, R. E. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences, 55(1):119–139, 1997.
  • Gao et al. (2023a) Gao, L., Schulman, J., and Hilton, J. Scaling laws for reward model overoptimization. In International Conference on Machine Learning, pp.  10835–10866. PMLR, 2023a.
  • Gao et al. (2023b) Gao, L., Tow, J., Abbasi, B., Biderman, S., Black, S., DiPofi, A., Foster, C., Golding, L., Hsu, J., Le Noac’h, A., Li, H., McDonell, K., Muennighoff, N., Ociepa, C., Phang, J., Reynolds, L., Schoelkopf, H., Skowron, A., Sutawika, L., Tang, E., Thite, A., Wang, B., Wang, K., and Zou, A. A framework for few-shot language model evaluation, 12 2023b.
  • Goodfellow et al. (2014) Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. Advances in neural information processing systems, 27, 2014.
  • Grandvalet & Bengio (2004) Grandvalet, Y. and Bengio, Y. Semi-supervised learning by entropy minimization. Advances in neural information processing systems, 17, 2004.
  • Gugger et al. (2022) Gugger, S., Debut, L., Wolf, T., Schmid, P., Mueller, Z., Mangrulkar, S., Sun, M., and Bossan, B. Accelerate: Training and inference at scale made simple, efficient and adaptable., 2022.
  • Gulrajani et al. (2017) Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., and Courville, A. C. Improved training of wasserstein gans. Advances in neural information processing systems, 30, 2017.
  • Hendrycks et al. (2020) Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., and Steinhardt, J. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
  • Hernandez-Leal et al. (2018) Hernandez-Leal, P., Kartal, B., and Taylor, M. E. Is multiagent deep reinforcement learning the answer or the question? a brief survey. learning, 21:22, 2018.
  • Hinton et al. (2012) Hinton, G., Srivastava, N., and Swersky, K. Neural networks for machine learning lecture 6a overview of mini-batch gradient descent. Cited on, 14(8):2, 2012.
  • Ho & Ermon (2016) Ho, J. and Ermon, S. Generative adversarial imitation learning. Advances in neural information processing systems, 29, 2016.
  • Jiang et al. (2023) Jiang, A. Q., Sablayrolles, A., Mensch, A., Bamford, C., Chaplot, D. S., Casas, D. d. l., Bressand, F., Lengyel, G., Lample, G., Saulnier, L., et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
  • Jolicoeur-Martineau (2018) Jolicoeur-Martineau, A. The relativistic discriminator: a key element missing from standard gan. arXiv preprint arXiv:1807.00734, 2018.
  • Josifoski et al. (2023) Josifoski, M., Sakota, M., Peyrard, M., and West, R. Exploiting asymmetry for synthetic training data generation: Synthie and the case of information extraction. arXiv preprint arXiv:2303.04132, 2023.
  • Kearns & Valiant (1994) Kearns, M. and Valiant, L. Cryptographic limitations on learning boolean formulae and finite automata. Journal of the ACM (JACM), 41(1):67–95, 1994.
  • Kou et al. (2022) Kou, Y., Chen, Z., Cao, Y., and Gu, Q. How does semi-supervised learning with pseudo-labelers work? a case study. In The Eleventh International Conference on Learning Representations, 2022.
  • Kumar et al. (2010) Kumar, M., Packer, B., and Koller, D. Self-paced learning for latent variable models. Advances in neural information processing systems, 23, 2010.
  • Lanctot et al. (2017) Lanctot, M., Zambaldi, V., Gruslys, A., Lazaridou, A., Tuyls, K., Pérolat, J., Silver, D., and Graepel, T. A unified game-theoretic approach to multiagent reinforcement learning. Advances in neural information processing systems, 30, 2017.
  • Lee (2013) Lee, D.-H. Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. In ICML Challenges in Representation Learning Workshop, 2013.
  • Lee et al. (2023) Lee, H., Phatale, S., Mansoor, H., Lu, K., Mesnard, T., Bishop, C., Carbune, V., and Rastogi, A. Rlaif: Scaling reinforcement learning from human feedback with ai feedback. arXiv preprint arXiv:2309.00267, 2023.
  • Lee & Grauman (2011) Lee, Y. J. and Grauman, K. Learning the easy things first: Self-paced visual category discovery. In CVPR 2011, pp.  1721–1728. IEEE, 2011.
  • Lewkowycz et al. (2022) Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., et al. Solving quantitative reasoning problems with language models. Advances in Neural Information Processing Systems, 35:3843–3857, 2022.
  • Li et al. (2022) Li, Y., Choi, D., Chung, J., Kushman, N., Schrittwieser, J., Leblond, R., Eccles, T., Keeling, J., Gimeno, F., Dal Lago, A., et al. Competition-level code generation with alphacode. Science, 378(6624):1092–1097, 2022.
  • Li et al. (2023) Li, Y., Bubeck, S., Eldan, R., Giorno, A. D., Gunasekar, S., and Lee, Y. T. Textbooks are all you need ii: phi-1.5 technical report, 2023.
  • Lin et al. (2021) Lin, S., Hilton, J., and Evans, O. Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958, 2021.
  • Liu et al. (2023) Liu, B., Bubeck, S., Eldan, R., Kulkarni, J., Li, Y., Nguyen, A., Ward, R., and Zhang, Y. Tinygsm: achieving> 80% on gsm8k with small language models. arXiv preprint arXiv:2312.09241, 2023.
  • Liu et al. (2018) Liu, C., He, S., Liu, K., Zhao, J., et al. Curriculum learning for natural answer generation. In IJCAI, pp.  4223–4229, 2018.
  • Liu et al. (2021) Liu, F., Ge, S., and Wu, X. Competence-based multimodal curriculum learning for medical report generation. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pp.  3001–3012, 2021.
  • Luo et al. (2023) Luo, H., Sun, Q., Xu, C., Zhao, P., Lou, J., Tao, C., Geng, X., Lin, Q., Chen, S., and Zhang, D. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct. arXiv preprint arXiv:2308.09583, 2023.
  • Mao et al. (2017) Mao, X., Li, Q., Xie, H., Lau, R. Y., Wang, Z., and Paul Smolley, S. Least squares generative adversarial networks. In Proceedings of the IEEE international conference on computer vision, pp.  2794–2802, 2017.
  • Mihaylov et al. (2018) Mihaylov, T., Clark, P., Khot, T., and Sabharwal, A. Can a suit of armor conduct electricity? a new dataset for open book question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp.  2381–2391, 2018.
  • Mishra et al. (2021) Mishra, S., Khashabi, D., Baral, C., and Hajishirzi, H. Cross-task generalization via natural language crowdsourcing instructions. arXiv preprint arXiv:2104.08773, 2021.
  • Mroueh & Sercu (2017) Mroueh, Y. and Sercu, T. Fisher gan. Advances in neural information processing systems, 30, 2017.
  • Müller (1997) Müller, A. Integral probability metrics and their generating classes of functions. Advances in applied probability, 29(2):429–443, 1997.
  • Muller et al. (2019) Muller, P., Omidshafiei, S., Rowland, M., Tuyls, K., Perolat, J., Liu, S., Hennes, D., Marris, L., Lanctot, M., Hughes, E., et al. A generalized training approach for multiagent learning. arXiv preprint arXiv:1909.12823, 2019.
  • OpenAI (2023) OpenAI. Gpt-4 technical report, 2023.
  • Ouyang et al. (2022) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35:27730–27744, 2022.
  • Prasad et al. (2023) Prasad, A., Stengel-Eskin, E., and Bansal, M. Rephrase, augment, reason: Visual grounding of questions for vision-language models. arXiv preprint arXiv:2310.05861, 2023.
  • Radford et al. (2019) Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I., et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
  • Rafailov et al. (2023) Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., and Finn, C. Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290, 2023.
  • Rajbhandari et al. (2020) Rajbhandari, S., Rasley, J., Ruwase, O., and He, Y. Zero: Memory optimizations toward training trillion parameter models. In SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, pp.  1–16. IEEE, 2020.
  • Roziere et al. (2023) Roziere, B., Gehring, J., Gloeckle, F., Sootla, S., Gat, I., Tan, X. E., Adi, Y., Liu, J., Remez, T., Rapin, J., et al. Code llama: Open foundation models for code. arXiv preprint arXiv:2308.12950, 2023.
  • Sakaguchi et al. (2021) Sakaguchi, K., Bras, R. L., Bhagavatula, C., and Choi, Y. Winogrande: An adversarial winograd schema challenge at scale. Communications of the ACM, 64(9):99–106, 2021.
  • Samuel (1959) Samuel, A. L. Some studies in machine learning using the game of checkers. IBM Journal of research and development, 3(3):210–229, 1959.
  • Samuel (2000) Samuel, A. L. Some studies in machine learning using the game of checkers. IBM Journal of research and development, 44(1.2):206–226, 2000.
  • Saunders et al. (2022) Saunders, W., Yeh, C., Wu, J., Bills, S., Ouyang, L., Ward, J., and Leike, J. Self-critiquing models for assisting human evaluators. arXiv preprint arXiv:2206.05802, 2022.
  • Schapire (1990) Schapire, R. E. The strength of weak learnability. Machine learning, 5:197–227, 1990.
  • Silver et al. (2017a) Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., et al. Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815, 2017a.
  • Silver et al. (2017b) Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A., et al. Mastering the game of go without human knowledge. nature, 550(7676):354–359, 2017b.
  • Singh et al. (2023) Singh, A., Co-Reyes, J. D., Agarwal, R., Anand, A., Patil, P., Liu, P. J., Harrison, J., Lee, J., Xu, K., Parisi, A., et al. Beyond human data: Scaling self-training for problem-solving with language models. arXiv preprint arXiv:2312.06585, 2023.
  • Soviany et al. (2022) Soviany, P., Ionescu, R. T., Rota, P., and Sebe, N. Curriculum learning: A survey. International Journal of Computer Vision, 130(6):1526–1565, 2022.
  • Spitkovsky et al. (2009) Spitkovsky, V. I., Alshawi, H., and Jurafsky, D. Baby steps: How “less is more” in unsupervised dependency parsing. In NIPS 2009 Workshop on Grammar Induction, Representation of Language and Language Learning, 2009.
  • Stiennon et al. (2020) Stiennon, N., Ouyang, L., Wu, J., Ziegler, D., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. F. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.
  • Taori et al. (2023) Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., Liang, P., and Hashimoto, T. B. Stanford alpaca: An instruction-following llama model, 2023.
  • Tesauro et al. (1995) Tesauro, G. et al. Temporal difference learning and td-gammon. Communications of the ACM, 38(3):58–68, 1995.
  • Thoppilan et al. (2022) Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., et al. Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239, 2022.
  • Touvron et al. (2023) Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
  • Tunstall et al. (2023a) Tunstall, L., Beeching, E., Lambert, N., Rajani, N., Rasul, K., Belkada, Y., Huang, S., von Werra, L., Fourrier, C., Habib, N., et al. Zephyr: Direct distillation of lm alignment. arXiv preprint arXiv:2310.16944, 2023a.
  • Tunstall et al. (2023b) Tunstall, L., Beeching, E., Lambert, N., Rajani, N., Rush, A. M., and Wolf, T. The alignment handbook, 2023b.
  • Vapnik (1999) Vapnik, V. The nature of statistical learning theory. Springer science & business media, 1999.
  • Victor et al. (2022) Victor, S., Albert, W., Colin, R., Stephen, B., Lintang, S., Zaid, A., Antoine, C., Arnaud, S., Arun, R., Manan, D., et al. Multitask prompted training enables zero-shot task generalization. In International Conference on Learning Representations, 2022.
  • Vinyals et al. (2019) Vinyals, O., Babuschkin, I., Chung, J., Mathieu, M., Jaderberg, M., Czarnecki, W., Dudzik, A., Huang, A., Georgiev, P., Powell, R., Ewalds, T., Horgan, D., Kroiss, M., Danihelka, I., Agapiou, J., Oh, J., Dalibard, V., Choi, D., Sifre, L., Sulsky, Y., Vezhnevets, S., Molloy, J., Cai, T., Budden, D., Paine, T., Gulcehre, C., Wang, Z., Pfaff, T., Pohlen, T., Yogatama, D., Cohen, J., McKinney, K., Smith, O., Schaul, T., Lillicrap, T., Apps, C., Kavukcuoglu, K., Hassabis, D., and Silver, D. AlphaStar: Mastering the Real-Time Strategy Game StarCraft II, 2019.
  • Wei et al. (2022) Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824–24837, 2022.
  • Wu et al. (2022) Wu, J., Liang, Y., Akbari, H., Wang, Z., Yu, C., et al. Scaling multimodal pre-training via cross-modality gradient harmonization. Advances in Neural Information Processing Systems, 35:36161–36173, 2022.
  • Xu et al. (2023) Xu, J., Lee, A., Sukhbaatar, S., and Weston, J. Some things are more cringe than others: Preference optimization with the pairwise cringe loss. arXiv preprint arXiv:2312.16682, 2023.
  • Yang et al. (2023) Yang, Y., Singh, A. K., Elhoushi, M., Mahmoud, A., Tirumala, K., Gloeckle, F., Rozière, B., Wu, C.-J., Morcos, A. S., and Ardalani, N. Decoding data quality via synthetic corruptions: Embedding-guided pruning of code data. arXiv preprint arXiv:2312.02418, 2023.
  • Yu et al. (2023) Yu, L., Jiang, W., Shi, H., Yu, J., Liu, Z., Zhang, Y., Kwok, J. T., Li, Z., Weller, A., and Liu, W. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023.
  • Yuan et al. (2024) Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., and Weston, J. Self-rewarding language models. arXiv preprint arXiv:2401.10020, 2024.
  • Yuan et al. (2023) Yuan, Z., Yuan, H., Li, C., Dong, G., Tan, C., and Zhou, C. Scaling relationship on learning mathematical reasoning with large language models. arXiv preprint arXiv:2308.01825, 2023.
  • Zellers et al. (2019) Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., and Choi, Y. Hellaswag: Can a machine really finish your sentence? arXiv preprint arXiv:1905.07830, 2019.
  • Zhang et al. (2015) Zhang, D., Meng, D., Li, C., Jiang, L., Zhao, Q., and Han, J. A self-paced multiple-instance learning framework for co-saliency detection. In Proceedings of the IEEE international conference on computer vision, pp.  594–602, 2015.
  • Zhang et al. (2018) Zhang, X., Kumar, G., Khayrallah, H., Murray, K., Gwinnup, J., Martindale, M. J., McNamee, P., Duh, K., and Carpuat, M. An empirical exploration of curriculum learning for neural machine translation. arXiv preprint arXiv:1811.00739, 2018.
  • Zheng et al. (2023) Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E., et al. Judging llm-as-a-judge with mt-bench and chatbot arena. arXiv preprint arXiv:2306.05685, 2023.
  • Ziegler et al. (2019) Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593, 2019.

附录 A进一步相关工作

课程学习。 在深度学习中,人们发现,与随机打乱数据上的训练相比,使用以具有战略意义的顺序排列的数据样本的训练模型可以提高性能。 这种方法通常被称为课程学习(Bengio等人,2009;Soviany等人,2022) 课程学习的初步研究引入了有效算法,这些算法遵循“从易到难”的进展 (Spitkovsky 等人,2009;Kumar 等人,2010;Lee & Grauman, 2011;Zhang 等人,2015) 在自然语言处理(NLP)领域,常用句子长度和词频等标准(Cirik等人,2016;Zhang等人,2018;Liu等人,2018) 最近的进展包括课程学习算法在多模态学习中的应用(刘等人,2021;吴等人,2022) 我们的工作与课程学习有类似的想法,其中训练数据迭代地演变——从易于与人类注释数据区分开来的响应开始,并逐渐进展到更具挑战性的实例。

生成对抗网络。 生成对抗网络(GAN)(Goodfellow 等人,2014)代表了一类独特的生成模型,其特点是其独特的对抗过程。 为了提高训练稳定性和数据质量,Mao 等人(2017)引入了最小二乘GAN,对判别器采用最小二乘损失函数。 GAN 的一项重大进步涉及积分概率度量 (IPM) (Müller,1997) 的使用,特别是在 Arjovsky 等人 (2017) 开发 Wasserstein GAN 中得到强调。 该模型在损失设计中采用了IPM,增强了训练的稳定性。 从那时起,IPM 成为 GAN 设计的关键 (Mroueh & Sercu, 2017;Gulrajani 等人,2017),特别是在将鉴别器约束到特定的函数类别,从而防止其压倒生成器。 此外,Jolicoeur-Martineau (2018)通过引入相对论判别器并提出了相对论 GAN,推广了基于 IPM 的 GAN。 值得注意的是,我们在 (4.2) 中定义的目标函数与相对论 GAN (Jolicoeur-Martineau, 2018) 相似,并在 Wasserstein GAN (Arjovsky 等人,2017) 中使用线性损失简化为 IPM 框架。 然而,我们的方法在函数类的选择和训练过程上都有所不同。 受 GAN 的启发,Cheng 等人 (2023) 提出了一种名为对抗性偏好优化(APO)的对抗性学习框架,用于在对抗性游戏中训练大语言模型和奖励模型。 与我们方法的精神类似,生成对抗模仿学习 (GAIL) (Ho & Ermon, 2016) 被提议在每次迭代中训练单独的鉴别器和策略网络。 与上述方法相比,SPIN 依赖于自我博弈,其中主要玩家和对手玩家都是来自两个连续迭代的相同 LLM。

与 AI 反馈对齐。 对齐的目标是对 LLM 进行微调,使其与人类意图保持一致。 除了使用人类演示外,AI 反馈正成为对齐过程中的一个关键组成部分。 宪法 AI (Bai et al., 2022b) 利用 AI 反馈通过监督学习和强化学习 (RL) 阶段的组合来对齐语言模型。 在 RL 阶段,(Bai et al., 2022b) 应用了来自 AI 反馈的强化学习 (RLAIF),使用 AI 生成的偏好训练奖励模型,然后使用奖励进行 RL。 Lee et al. (2023) 证明了 AI 反馈在 RL 微调中可以实现与人类反馈相当或更好的性能。 他们还证明了即使 LLM 标签器的规模与策略相同,RLAIF 也可以改进 SFT 策略。 Saunders et al. (2022) 研究了自我批评的扩展属性,并介绍了一个框架来比较批评能力、生成能力和辨别能力。 自我批评模型利用 LLM 本身通过行为克隆生成自然语言批评,辅助人类评估者。

附录 B 实验

B.1 超参数和实现细节

表格1: HuggingFace开放大语言模型排行榜的详细信息。 对于每个评估数据集,我们提供了少样本示例的数量和评估采用的指标。
Datasets Arc TruthfulQA Winogrande GSM8k HellaSwag MMLU
# few-shot 25 0 5 5 10 5
Metric acc_norm mc2 acc acc acc_norm acc

我们使用 Alignment Handbook 库 (Tunstall 等人, 2023b) 作为我们的自对弈微调方法 SPIN 的代码库,其中包括 DeepSpeed ZeRO-3 (Rajbhandari 等人, 2020) 和 FlashAttention-2 (Dao, 2023) 来降低成本。 我们使用 RMSProp (Hinton 等人, 2012) 优化器来训练我们的模型,所有迭代都没有权重衰减,这通常用于微调大语言模型以进行对齐,全局批量大小为 6410% 预热步骤和 bfloat16 精度。 我们将迭代 0 和 1 的峰值学习率设置为 5e-7,并在迭代 2 和 3 时将峰值学习率衰减为 1e-7,因为我们即将结束自我对弈微调。 最后,我们选择 β=0.1 ,最大序列长度为 2048 个标记如Tunstall 等人 (2023b) 我们注意到,在模型接近收敛的最后一次迭代 (iter-3) 中,我们将 β 的值增加到 5.0 我们使用 Accelerate 库 (Gugger 等人,2022) 通过多个 GPU 的分布式推理来生成合成数据,全局批量大小为 64 我们考虑Taori等人(2023)中常用的提示模板“###指令:{prompt}\n\n###响应:”。 对于包含多轮对话的 Ultrachat200k,我们仅对第一轮进行采样作为我们的提示和真实完成对。

B.2 训练开销

SPIN 引入的成本开销主要是我们训练的 LLM 生成的合成数据。 微调过程的成本在计算上与 SFT 和 DPO 相同。 我们在表 2 中报告了 SPIN 的生成时间和训练时间。 结果使用一台配备 8xA100 (80G) GPU 的机器获得。 对于每 64 个示例,生成时间和训练时间分别为 6.69 秒和 10 秒。

表2: 不同迭代的生成和训练时间
Iteration Iter 0 Iter 1 Iter 2 Iter 3
Process Generation Training Generation Training Generation Training Generation Training
Time 1.45h 4.32h 1.45h 8.64h 1.45h 8.64h 1.45h 8.64h

显然,每次迭代的生成时间都以训练时间为主。 2 中的估计时间是基于我们每次迭代生成 50k 个示例的事实。 请注意,从迭代 1 到迭代 3 的训练时间加倍是由于使用了双倍大小的数据集(将来自前一次迭代的 50k 个合成数据与当前迭代的 50k 个合成数据结合在一起),如第 6.1 节所述。

B.3 SPIN+DPO 的额外实验结果

旋转 只需要 SFT 数据来改进传统的 SFT 阶段,并且可以位于 SFT 和 RL 微调之间。 假设提供了额外的偏好数据,我们可以使用这些额外数据来进一步提高模型在使用 RL 微调后 SPIN 的性能。

SPIN 迭代 3 开始,我们使用 DPO 在 UltraFeedback Binarized 数据集 (Cui 等人,2023) 中的 62k 个偏好数据上进一步训练模型两个 epoch,该数据集包含由 GPT-4 评估的已选和已拒绝的响应。 3 中展示了详细的性能。

表3: 基于 zephyr-7b-sft-fullSPIN + DPO 的性能,与所有基准相比,在 HuggingFace Open LLM 排行榜数据集上进行比较。 我们还在“平均”列中表示相对于上次迭代的平均改进。
Model Arc TruthfulQA Winogrande GSM8k HellaSwag MMLU Average
zephyr-7b-dpo-full 63.65 55.19 72.61 33.43 84.44 58.52 61.31
zephyr-7b-sft-full 60.41 43.73 74.19 26.76 82.85 60.92 58.14
SPIN iteration 0 63.40 49.18 72.69 35.10 84.38 60.03 60.80(+2.66)
SPIN iteration 1 65.19 55.17 72.30 35.78 84.96 59.34 62.12(+1.32)
SPIN iteration 2 65.96 54.91 73.56 38.06 85.41 59.93 62.97(+0.85)
SPIN iteration 3 65.87 54.90 73.72 38.97 85.54 59.99 63.16(+0.19)
SPIN iteration 3 + DPO 66.47 60.07 78.06 37.98 86.17 59.68 64.05(+0.89)

我们可以观察到,由 SPIN 训练的检查点可以使用 DPO 进一步改进,平均提高了 0.89% 值得注意的是,改进在 TruthfulQA 基准上尤为显著,约为 5%

B.4 进一步的实验结果

在表 4 中,我们展示了 SPIN 在 Open LLM 排行榜中每个任务的不同迭代下的详细性能。 在表 5中,我们还展示了zephyr-7b-sft-full 在 Ultrachat200k 上经过一轮训练后的 SFT 性能。 虽然使用来自 zephyr-7b-sft-full 的合成数据进行自我博弈微调有效地提高了其性能,但简单地在 SFT 数据上再次进行微调会导致性能下降,正如我们在图 5 中观察到的那样。

表 4: 基于 zephyr-7b-sft-fullSPIN 在 HuggingFace Open LLM 排行榜数据集上的测试性能。 我们还在“平均”列中表示相对于上次迭代的平均改进。
Model Arc TruthfulQA Winogrande GSM8k HellaSwag MMLU Average
zephyr-7b-sft-full 60.41 43.73 74.19 26.76 82.85 60.92 58.14
SPIN iteration 0 63.40 49.18 72.69 35.10 84.38 60.03 60.80(+2.66)
SPIN iteration 1 65.19 55.17 72.30 35.78 84.96 59.34 62.12(+1.32)
SPIN iteration 2 65.96 54.91 73.56 38.06 85.41 59.93 62.97(+0.85)
SPIN iteration 3 65.87 54.90 73.72 38.97 85.54 59.99 63.16(+0.19)
表 5: 在 HuggingFace Open LLM 基准数据集上,经过在 Ultrachat200k 上再训练一轮的 zephyr-7b-sft-full 的测试性能。 SFT无法进一步利用微调数据来增强性能,甚至导致性能下降。
Model Arc TruthfulQA Winogrande GSM8k HellaSwag MMLU Average
zephyr-7b-sft-full 60.41 43.73 74.19 26.76 82.85 60.92 58.14
SFT epoch 1 57.76 44.39 75.77 25.85 81.69 57.89 57.23

对更多任务的进一步调查。 在这里,我们进一步研究了 SPIN 在更广泛的任务集上的性能,包括 MT-Bench (Zheng et al., 2023)、Big-Bench (bench authors, 2023) 和 OpenBookQA (Mihaylov et al., 2018),以及 Open LLM 排行榜任务。 具体来说,我们使用Big-Bench-Hard中的以下任务进行更全面的评估,包括因果判断(因果推理)、运动理解(常识推理)和形式谬误(逻辑推理)。 在表 6 中,我们展示了 SPIN 在 MT-Bench 以及 Big-Bench 中的任务上的得分。 在图 6 中,我们详细说明了模型在 MT-Bench 上针对不同类型问题的性能。 我们可以看到,SPIN 在 HuggingFace 基准之外的各种任务上都有显著的性能提升,而且没有出现重大下降。 值得注意的是,在 MT-Bench 上,通过 SPIN 微调的模型已经超过了 vicuna-13b-v1.5 (Chiang et al., 2023) 的性能,得分达到 6.57

表 6: 在不同迭代次数和 zephyr-7b-sft-full 下,SPIN 在其他推理基准数据集上的测试性能。 我们报告了标准少样本 CoT 评估下 MT-Bench 的平均得分和 Big Bench 数据集的准确度得分。 在 OpenBookQA 上,我们报告了 acc_norm,使用 Anil et al. (2023) 中使用的单样本示例。 与开放大语言模型排行榜评估类似,我们观察到其他基准任务的性能稳步提高,没有显着下降。
Model MT-Bench BB-causal BB-formal BB-sports OpenBookQA
zephyr-7b-sft-full 5.94 56.15 49.6 96.0 45.4
SPIN iteration 0 6.46(+0.52) 57.75 51.6 95.2 46.8
SPIN iteration 1 6.65(+0.19) 58.82 51.2 95.2 47.2
SPIN iteration 2 6.78(+0.13) 59.36 51.2 94.4 47.6
Refer to caption
图6: MT-Bench 上的模型性能。 我们比较了不同迭代次数下 SPIN 与基础 SFT 模型的性能。 从迭代 1 开始,我们通过 SPIN 微调的模型在所有评估方面都明显优于 SFT 检查点。

B.5 生成示例

在表 7 和 8 中,我们还提供了通过 SPIN 微调的模型在不同迭代次数下的生成示例。 与 SFT 检查点的生成相比,我们可以观察到响应质量的提高。 同时,在更高迭代次数上的模型生成通常比迭代 0 更简洁,并且更类似于真实情况的完成。

表 7: 我们微调模型通过 SPIN 在不同迭代次数上的生成示例。
Prompt How does the economic growth of Horsham compare to nearby towns?
Ground truth I do not have access to the latest economic data on horsham and nearby towns. However, you can check the latest economic statistics and reports provided by the local government or the official websites of horsham and nearby towns for a detailed comparison of their economic growth.
zephyr-7b=sft-full According to the given material, Horsham was growing "significantly" faster than nearby towns, indicating that it was economically thriving.\n However, the given material does not specify the exact rates or levels of economic growth of Horsham compared to nearby towns. Without this information, it is challenging to determine whether the differences in economic growth between Horsham and nearby towns were significant or minimal.
Iteration 0 I do not have access to the latest economic data for horsham and nearby towns. However, horsham is known to be a prosperous town in west sussex, uk, with a diverse economy that includes agriculture, manufacturing, and services. The town has a strong retail sector, and it is also home to several large companies, including the global pharmaceutical company novartis. In terms of comparison with nearby towns, horsham is generally considered to be one of the more affluent towns in the region. However, the economic growth of horsham and its neighboring towns may vary depending on various factors such as industry, investment, and government policies.
Iteration 1 I do not have access to real-time data or information about the most recent economic growth of horsesham and nearby towns. However, according to the recent reports from various sources such as the office for national statistics, horsesham’s economy primarily relies on retail, healthcare, education, and public administration industries. Compared to nearby towns such as lewes, chichester, and bognor regis, horsesham’s economy may have a different composition and growth rate based on their specific industries and economic policies.
Iteration 2 I don’t have access to the most recent economic data. However, according to a 2019 report by pwc, horsham’s expected economic growth up to 2025 was projected to be around 2.3% per annum, which is slightly below the average for the south east of england (2.8%). 克劳利和博格诺里吉斯等邻近城镇预计也将出现类似的增长率。 注意:这可能无法反映 2020 年发生的 covid-19 大流行的影响。
表 8: 我们微调模型通过 SPIN 在不同迭代次数上的另一个生成示例。
Prompt Can you clarify if Poppelsdorfer Allee 45 and the old site of the Mathematical Institute are the same location? Answer according to: Go straight to Poppelsdorfer Allee 45 and sign-in.\n There is a big lecture hall at the old site of the Mathematical Institute (Wegelerstr. 10, Bonn).
Ground truth No, Poppelsdorfer Allee 45 and the old site of the Mathematical Institute (Wegelerstr. 10, Bonn) are not the same location. To sign-in, one should go straight to Poppelsdorfer Allee 45. However, there is a big lecture hall at the old site of the Mathematical Institute.
zephyr-7b=sft-full Yes, Poppelsdorfer Allee 45 and the old site of the Mathematical Institute are the same location.
Iteration 0 Yes, Poppelsdorfer Allee 45 and the old site of the Mathematical Institute (Wegelerstr. 10, Bonn) are the same location. The Mathematical Institute has been relocated and renamed as the Institute for Mathematics and Theoretical Physics, but the building where it used to be is still referred to as the old site. The big lecture hall at the old site still exists and may be used for events or classes.
Iteration 1 No, Poppelsdorfer Allee 45 and the old site of the Mathematical Institute are not the same location. While Poppelsdorfer Allee 45 is where attendees should sign-in, the old site of the Mathematical Institute (located at Wegelerstr. 10, Bonn) has a large lecture hall mentioned in the statement. Therefore, it can be assumed that the two locations are separate and not the same.
Iteration 2 Poppelsdorfer Allee 45 and the old site of the Mathematical Institute (Wegelerstr. 10, Bonn) are two different locations. As per the instruction, you need to go straight to Poppelsdorfer Allee 45 and sign-in. However, there is a lecture hall mentioned at the old site of the Mathematical Institute (Wegelerstr. 10, Bonn).

附录 C 5 节定理证明

C.1 定理 5.2 的证明

定理 5.2 的证明。

首先,我们证明定理 5.2 中的“充分性”。 由于 pdata(|𝐱)=p𝜽t(|𝐱),根据 𝐲𝐲 的对称性,我们对于任何 𝜽𝚯 都有

2LSPIN(𝜽,𝜽t) =𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))]
+𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))]
=𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))
+(γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)γlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))]
2𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(γ2logp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)γ2logp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)
+γ2logp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)γ2logp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))]
=2(0),

其中不等式是由 Jensen 不等式得出的(回忆一下 在假设 5.1 中是凸的)。 因此,我们有 LSPIN(𝜽,𝜽t)(0)=LSPIN(𝜽t,𝜽t),这意味着 𝜽t 是 (4.7) 的全局最优。 因此,点 𝜽t 处的梯度为零,得出 𝜽t+1=𝜽t

接下来我们证明“必然性”。 定义 g(λ)如下:

g(λ)=𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(λlogpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)λlogpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))].

然后我们有 g(0)=(0)

g(0) =𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(0)(logpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)logpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))]
=(0)(𝔼𝐱q(),𝐲pdata(|𝐱)[logpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)]𝔼𝐱q(),𝐲p𝜽t(|𝐱)[logpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)])
=(0)[KL(pdata(|𝐱)||p𝜽t(|𝐱))+KL(p𝜽t(|𝐱)||pdata(|𝐱))]
<0,

其中最后一个不等式是由于 (0)<0. 因此,存在 λ0 使得对于所有 0<λ<λ0,我们有g(λ)<(0) 选择 𝜽 使得 p𝜽(𝐲|𝐱)=pdata(𝐲|𝐱) 对于0<λ<λ0,我们有

LSPIN(𝜽,𝜽t) =𝔼𝐱q(),𝐲p𝜽(|𝐱),𝐲p𝜽t(|𝐱)[(λlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)λlogp𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))]
=𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(λlogpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)λlogpdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))]
=g(λ)
<g(0)
=LSPIN(𝜽t,𝜽t),

其中第二个等式成立是因为选择了 p𝜽(|𝐱),不等式成立是因为选择了 λ 因此,我们得出结论,如果 p𝜽t(|𝐱)pdata(|𝐱)𝜽t 不是 (4.7) 的全局最优。

C.2 证明定理 5.4

在证明定理 5.4 之前,我们需要以下辅助引理。

Lemma C.1.

假设 (t)=log(1+exp(t))a,b>0

a(t)+b(t)alog(1+b/a)+blog(1+a/b),

当且仅当 t=log(a/b)

引理 C.1 的证明。

定义 g(t)=a(t)+b(t)=alog(1+exp(t))+blog(1+exp(t)),那么我们有

g(t)=aexp(t)1+exp(t)+bexp(t)1+exp(t)=a+bexp(t)1+exp(t).

因此,t<log(a/b)g(t)<0,t>log(a/b)g(t)>0,这表明gt=log(a/b) 证明结束。

引理 C.1 表明 a(t)+b(t) 的全局最小值在 t=log(a/b) 时取得。 基于引理 C.1,我们可以进一步证明,如果我们忽略约束集 t,则使用逻辑损失函数的 (4.2) 具有封闭形式解。

Lemma C.2.

表示 p+(𝐲,𝐲,𝐱)=q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)p(𝐲,𝐲,𝐱)=q(𝐱)p𝜽t(𝐲|𝐱)pdata(𝐲|𝐱)

𝔼𝐱q(),𝐲pdata(|𝐱),yp𝜽t(|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))]log2JSD(p+p),

其中 JSD(p+p) 表示 Jensen–Shannon 散度,定义如下

JSD(pq)=12KL(pp+q2)+12KL(qp+q2),

其中 KL() 是 KL 散度。 JSD 始终是非负的,并且当且仅当 p+p 相同才等于零。 此外,全局最小值 log2JSD(p+p)f 取得,当且仅当,

f(𝐱,𝐲)=Z(𝐱)+log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)),

其中 Z(𝐱) 是可能依赖于 𝐱 的任何函数。

引理 C.2 的证明。

我们将目标函数重写为以下公式:

2𝔼𝐱q(),𝐲pdata(|𝐱),𝐲p𝜽t(|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))]
=q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))]𝑑𝐲𝑑𝐲
+q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))]𝑑𝐲𝑑𝐲
=q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)(f(𝐱,𝐲)f(𝐱,𝐲))
+q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)(f(𝐱,𝐲)f(𝐱,𝐲))d𝐲d𝐲
(i)q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)log(1+pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))
+q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)log(1+pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))d𝐲d𝐲,

其中不等式是由于引理 C.1 中的 a(t)+b(t)alog(1+b/a)+blog(1+a/b),其中 a=q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱),b=q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)t=f(𝐱,𝐲)f(𝐱,𝐲) 等式 (i) 成立当且仅当以下方程几乎肯定适用于任何 𝐱,𝐲,𝐲,

f(𝐱,𝐲)f(𝐱,𝐲)=log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)). (C.1)

等式 (C.1) 等价于

f(𝐱,𝐲)log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))=f(𝐱,𝐲)log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))

对于任何 𝐱,𝐲,𝐲 因此,等式 (i) 成立当且仅当存在一些 Z(𝐱) 这样

f(𝐱,𝐲)=Z(𝐱)+log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)).

回想一下 p+(𝐲,𝐲|𝐱)=pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)p(𝐲,𝐲|𝐱)=p𝜽t(𝐲|𝐱)pdata(𝐲|𝐱) 那么(i)的右边可以写成

q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)log(1+pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))
+q(𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)log(1+pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))d𝐲d𝐲
=p+(𝐲,𝐲|𝐱)log(1+p(𝐲,𝐲|𝐱)p+(𝐲,𝐲|𝐱))+p(𝐲,𝐲|𝐱)log(1+p+(𝐲,𝐲|𝐱)p(𝐲,𝐲|𝐱))d𝐲d𝐲
=2log2+p+(𝐲,𝐲|𝐱)log(1/2[p(𝐲,𝐲|𝐱)+p+(𝐲,𝐲|𝐱)]p+(𝐲,𝐲|𝐱))
+p(𝐲,𝐲|𝐱)log(1/2[p(𝐲,𝐲|𝐱)+p+(𝐲,𝐲|𝐱)]p(𝐲,𝐲|𝐱))d𝐲d𝐲
=2log2KL(p+p++p2)KL(pp++p2)
=2log22JSD(p+p),

其中最后一个等式是由 JSD 定义的。 证明到此结束。

引理 C.2 提供了 (4.2) 的封闭形式解,如果我们忽略约束集 t 如果此封闭形式解属于 t,则它也应该是 (4.2) 的解。 这一观察结果是定理 5.4 证明的关键。

定理 5.4 的证明。

在定理 5.4 的条件下,存在一个 p𝜽 使得

p𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱)(pdata(𝐲|𝐱)/p𝜽t(𝐲|𝐱))1/λ.

因此,存在函数 Z^(𝐱) 这样

p𝜽(𝐲|𝐱)=Z^(𝐱)p𝜽t(𝐲|𝐱)(pdata(𝐲|𝐱)/p𝜽t(𝐲|𝐱))1/λ. (C.2)

对 (C.2) 两边取对数函数得到

λlog(Z^(𝐱))+log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱))=λlog(p𝜽(𝐲|𝐱)p𝜽t(𝐲|𝐱))t.

根据引理 C.2f(𝐱,𝐲)=λlog(Z^(𝐱))+log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)) 是以下最小化问题的全局最小值,

argminf𝔼𝐲pdata(|𝐱),yp𝜽t(|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))]. (C.3)

由于 ftf(𝐱,𝐲)=λlog(Z^(𝐱))+log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)) 也是优化问题 (4.2) 的全局最优解,

argminft𝔼𝐲pdata(|𝐱),yp𝜽t(|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))].

因此,我们证明了

minf𝔼𝐲pdata(|𝐱),yp𝜽t(|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))]
=minft𝔼𝐲pdata(|𝐱),yp𝜽t(|𝐱)[(f(𝐱,𝐲)f(𝐱,𝐲))]
=min𝜽𝚯LSPIN(𝜽,𝜽t). (C.4)

由于 𝜽t+1LSPIN(𝜽,𝜽t) 的全局最小值。 那么根据 (C.4),λlog(p𝜽t+1(𝐲|𝐱)p𝜽t(𝐲|𝐱)) 应该是问题 (C.3) 的全局最小值。 根据引理 C.2,存在 Z(𝐱) 使得

λlog(p𝜽t+1(𝐲|𝐱)p𝜽t(𝐲|𝐱))=Z(𝐱)+log(pdata(𝐲|𝐱)p𝜽t(𝐲|𝐱)),

这导致结果 p𝜽t+1(𝐲|𝐱)p𝜽t(𝐲|𝐱)(pdata(𝐲|𝐱)/p𝜽t(𝐲|𝐱))1/λ