SimPO：简单的偏好优化

与无参考奖励

Yu Meng¹ Mengzhou Xia

{}^{2\,*}

Danqi Chen²
¹Computer Science Department, University of Virginia
²Princeton Language and Intelligence (PLI), Princeton University
yumeng5@virginia.edu
{mengzhou,danqic}@cs.princeton.edu Equal Contribution.

摘要

直接偏好优化（DPO）是一种广泛使用的离线偏好优化算法，它根据人类反馈（RLHF）重新参数化强化学习中的奖励函数，以增强简单性和训练稳定性。在这项工作中，我们提出了 SimPO，这是一种更简单但更有效的方法。 SimPO 的有效性归功于一个关键设计：使用序列的平均对数概率作为隐式奖励。这种奖励公式可以更好地与模型生成保持一致，并且无需参考模型，从而提高计算和内存效率。此外，我们在 Bradley-Terry 目标中引入了目标奖励裕度，以鼓励获胜和失败响应之间存在更大的裕度，从而进一步提高算法的性能。我们将 SimPO 与 DPO 及其最新变体在各种最先进的训练设置中进行比较，包括基础模型和指令调整模型，如 Mistral 和 Llama3。我们评估了广泛的指令跟踪基准测试，包括 AlpacaEval 2、MT-Bench 和最近具有挑战性的 Arena-Hard 基准测试。我们的结果表明，SimPO 始终显着优于现有方法，而无需大幅增加响应长度。具体而言，SimPO 在 AlpacaEval 2 上的性能比 DPO 高出 6.4 分，在 Arena-Hard 上高出 7.5 分。我们基于 Llama3-8B-Instruct 构建的顶级模型，在 AlpacaEval 2 上实现了 44.7 的长度控制胜率，超越了排行榜上的 Claude 3 Opus，在 Arena-Hard 上实现了 33.8 的胜率，使其成为最强的 8B开源模型。⁰⁰0代码和模型可以在https://github.com/princeton-nlp/SimPO找到。

1简介

从人类反馈中学习对于使大型语言模型（大语言模型）与人类价值观和意图保持一致至关重要[47]，确保它们是有帮助的、诚实的且无害的[5]。来自人类反馈的强化学习（RLHF）[15,58,69]是微调语言模型以实现有效对齐的流行方法。虽然经典的 RLHF 方法 [58, 66] 已显示出令人印象深刻的结果，但由于其多阶段过程，它带来了优化挑战，其中涉及训练奖励模型，然后优化策略模型以最大化奖励[12]。

最近，研究人员一直在探索更简单的离线算法。直接偏好优化 (DPO) [62] 就是这样一种方法。 DPO重新参数化RLHF中的奖励函数，直接从偏好数据中学习策略模型，消除了对显式奖励模型的需要。由于其简单性和稳定性，它得到了广泛的实际应用。在 DPO 中，隐式奖励是使用当前策略模型和监督微调 (SFT) 模型之间的响应可能性的对数比率来制定的。然而，这种奖励公式并不直接与用于指导生成的指标保持一致，该指标大约是策略模型生成的响应的平均对数可能性。我们假设训练和推理之间的这种差异可能会导致性能不佳。

Refer to caption — 图1： SimPO 和 DPO 的主要区别在于奖励的制定，如阴影框中所示。 SimPO 在 AlpacaEval 2 和 Arena-Hard 上的各种设置上都优于 DPO。

表1： AlpacaEval 2 排行榜上顶级模型的长度控制 (LC) 和原始获胜率 (WR) 以及生成长度。粗体是我们训练的模型。

Model	LC (%)	WR (%)	Len.
GPT-4 Turbo (04/09)	55.0	46.1	1802
GPT-4 Turbo (11/06)	50.0	50.0	2049
Llama3-Instruct-8B-SimPO	44.7	40.5	1825
Claude 3 Opus	40.5	29.1	1388
Llama3-Instruct-8B-DPO	40.3	37.9	1837
Llama3-Instruct-70B	34.4	33.2	1919
Llama3-Instruct-8B	26.0	25.3	1899
GPT-3.5 Turbo (06/13)	22.7	14.1	1328

在这项工作中，我们提出了 SimPO，一种简单而有效的离线偏好优化算法（图1)。我们算法的核心将偏好优化目标中的奖励函数与生成指标保持一致。 SimPO 包含两个主要部分：(1) 长度归一化奖励，计算为使用策略模型响应中所有 Token 的平均对数概率，以及 (2) 目标奖励幅度，以确保获胜和失败响应之间的奖励差异超过了这个幅度。综上所述，SimPO具有以下特点：

•

简单：SimPO 不需要参考模型，与 DPO 和其他依赖于参考的方法相比，它更轻量且更容易实现。
•

显着的性能优势：尽管 SimPO 很简单，但其性能明显优于 DPO 及其最新变体（例如，最近的无参考目标 ORPO [38])。性能优势在各种训练设置和广泛的指令跟踪基准测试中都是一致的，包括 AlpacaEval 2 [51, 24] 和具有挑战性的 Arena-Hard [50] 基准测试。它比 AlpacaEval 2 提高了 6.4 点，比 Arena-Hard 提高了 7.5 点。
•

最小长度利用：与 SFT 或 DPO 模型相比，SimPO 不会显着增加响应长度(表 1) ，表示最小长度利用[24,67,78]。

广泛的分析表明，SimPO 更有效地利用偏好数据，从而在保留的验证集上对获胜和失败响应进行更准确的可能性排名，这反过来又转化为更好的策略模型。如表 1所示，我们生成了一个基于 Llama3-8B-instruct 构建的性能最佳的模型，取得了显着的 44.7 AlpacaEval 2 上的长度控制胜率，在排行榜上超越了 Claude 3 Opus，在 Arena-Hard 上的胜率达到 33.8，使其成为迄今为止最强的 8B 开源模型。

2 SimPO：简单的偏好优化

在本节中，我们首先介绍DPO的背景（§2.1)。然后，我们确定 DPO 的奖励与用于生成的似然度量之间的差异，并提出一种替代的无参考奖励公式来缓解此问题 (§2.2)。最后，我们通过将目标奖励边际项合并到 Bradley-Terry 模型中来导出 SimPO 目标 (§2.3)。

2.1背景：直接偏好优化（DPO）

DPO [62]是最流行的离线偏好优化方法之一。 DPO 不是学习显式奖励模型 [58]，而是使用具有最优策略的封闭式表达式重新参数化奖励函数 $r$ ：

r(x,y)=\beta\log\frac{\pi_{\theta}(y\mid x)}{\pi_{\text{ref}}(y\mid x)}+\beta% \log Z(x),

(1)

其中 $\pi_{\theta}$ 是策略模型， $\pi_{\text{ref}}$ 是参考策略，通常是监督微调 (SFT) 模型， $Z(x)$ 是分区函数。通过将此奖励公式纳入 Bradley-Terry (BT) 排名目标 [10]、 $p(y_{w}\succ y_{l}\mid x)=\sigma\left(r(x,y_{w})-r(x,y_{l})\right)$ ，DPO 用策略模型而不是奖励模型来表达偏好数据的概率，产生以下目标：

\mathcal{L}_{\text{DPO}}(\pi_{\theta};\pi_{\text{ref}})=-\mathbb{E}_{(x,y_{w},% y_{l})\sim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}% \mid x)}{\pi_{\text{ref}}(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x% )}{\pi_{\text{ref}}(y_{l}\mid x)}\right)\right],

(2)

其中 $(x,y_{w},y_{l})$ 是由来自偏好数据集 $\mathcal{D}$ 的提示、获胜响应和失败响应组成的偏好对。

2.2一个简单的无参考奖励与生成对齐

DPO 的奖励和生成之间存在差异。

使用方程式(1) 隐式奖励表达式具有以下缺点：(1) 训练期间需要参考模型 $\pi_{\text{ref}}$ 会产生额外的内存和计算成本，(2)是训练期间优化的奖励与用于推理的生成指标之间的差异。具体来说，在生成过程中，策略模型 $\pi_{\theta}$ 用于生成近似最大化平均对数似然的序列，定义如下：

p_{\theta}(y\mid x)=\frac{1}{|y|}\log\pi_{\theta}(y\mid x)=\frac{1}{|y|}\sum_{% i=1}^{|y|}\log\pi_{\theta}(y_{i}\mid x,y_{<i}).

(3)

在解码过程中直接最大化该度量是很困难的，可以使用各种解码策略来近似它，例如贪婪解码[30]，波束搜索[31, 49] 、核采样[35]和顶部 $k$ 采样[26,36,61]。此外，该指标通常用于对语言模型中的多项选择任务中的选项进行排名[11,37,58]。在DPO中，对于任何三元组 $(x,y_{w},y_{l})$ ，满足奖励排名 $r(x,y_{w})>r(x,y_{l})$ 并不一定意味着满足可能性排名 $p_{\theta}(y_{w}\mid x)>p_{\theta}(y_{l}\mid x)$ 。事实上，当使用 DPO 进行训练时，保留集中的三元组中只有大约 $50\%$ 满足此条件（参见图 4(b))。

长度归一化奖励公式。

自然地，我们考虑将DPO中的奖励公式替换为等式中的 $p_{\theta}$ 。 (3)，以便它与指导生成的似然度量保持一致。这会产生长度归一化的奖励：

r_{\text{SimPO}}(x,y)=\frac{\beta}{|y|}\log\pi_{\theta}(y\mid x)=\frac{\beta}{% |y|}\sum_{i=1}^{|y|}\log\pi_{\theta}(y_{i}\mid x,y_{<i}),

(4)

其中 $\beta$ 是控制奖励差异缩放比例的常量。我们发现，将奖励与响应长度标准化至关重要；从奖励公式中删除长度归一化项会导致生成更长但质量较低的序列的偏差（有关更多详细信息，请参阅部分 4.4) 。因此，这种奖励公式消除了对参考模型的需求，与依赖于参考的算法相比，提高了内存和计算效率。

2.3 SimPO 目标

目标奖励幅度。

此外，我们在 Bradley-Terry 目标中引入了目标奖励边际项 $\gamma>0$ ，以确保获胜响应的奖励 $r(x,y_{w})$ 超过失败响应的奖励， $r(x,y_{l})$ ，至少 $\gamma$ ：

p(y_{w}\succ y_{l}\mid x)=\sigma\left(r(x,y_{w})-r(x,y_{l})-\gamma\right).

(5)

已知两个类之间的间隔会影响分类器[1,9,19,27]的泛化能力。¹¹1这个优势在 Bradley-Terry 模型[1, 27]中被称为主场优势。在具有随机模型初始化的标准训练设置中，增加目标裕度通常可以提高泛化能力。在偏好优化中，这两个类别是单个输入的获胜和失败响应。在实践中，我们观察到发电质量最初随着目标裕度的增加而提高，但当裕度变得太大时，发电质量就会下降（§4.3)。 DPO 的变体之一 IPO [6] 也制定了与 SimPO 类似的目标奖励幅度。然而，其完整目标不如 SimPO (§4.1) 有效。

客观的。

最后，我们通过代入方程得到 SimPO 目标。 (4) 代入等式。 (5)：

\mathcal{L}_{\text{SimPO}}(\pi_{\theta})=-\mathbb{E}_{(x,y_{w},y_{l})\sim% \mathcal{D}}\left[\log\sigma\left(\frac{\beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|% x)-\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\gamma\right)\right].

(6)

总之，SimPO 采用了与生成指标直接一致的隐式奖励公式，无需参考模型。此外，它还引入了目标奖励幅度 $\gamma$ ，以帮助区分获胜和失败的响应。在附录E中，我们提供了SimPO和DPO的梯度分析，以进一步了解两种方法之间的差异。

3实验设置

模型和训练设置。

我们在两种设置下使用两个模型系列 Llama3-8B [2] 和 Mistral-7B [40] 执行偏好优化：Base 和 Instruct。

对于 Base 设置，我们遵循 Zephyr [75] 的训练流程。首先，我们训练一个基本模型(即、mistralai/Mistral-7B-v0.1或meta-llama/Meta-Llama-3-8B)在UltraChat-200k数据集[22]上获取SFT模型。然后，我们以 SFT 模型为起点对 UltraFeedback 数据集 [20] 进行偏好优化。由于 SFT 模型是在开源数据上进行训练的，因此此设置提供了高水平的透明度。

对于 Instruct 设置，我们使用现成的指令调整模型(即、meta-llama/Meta-Llama-3-8B-Instruct 或 mistralai/Mistral-7B-Instruct-v0.2)作为 SFT 模型。这些模型经历了广泛的指令调整过程，使其比基础设置中的 SFT 模型更强大、更稳健。然而，它们也更加不透明，因为它们的 RLHF 程序并未公开披露。为了减轻 SFT 模型和偏好优化过程之间的分布变化，我们使用遵循 [74] 的 SFT 模型生成偏好数据集。具体来说，我们使用 UltraFeedback 数据集的提示，并使用 SFT 模型重新生成所选和拒绝的响应对 $(y_{w},y_{l})$ 。对于每个提示 $x$ ，我们使用采样温度为 0.8 的 SFT 模型生成 5 个响应。然后，我们使用 PairRM [41] 对 5 个响应进行评分，选择得分最高的响应作为 $y_{w}$ ，选择得分最低的响应作为 $y_{l}$ 。为简单起见，我们在一次传递中生成数据，而不是像 [74] 中那样迭代生成数据。

总之，我们有四种设置：Llama3-Base、Llama3-Instruct、Mistral-Base 和 Mistral-Instruct。我们相信这些配置代表了最先进的配置，使我们的模型在各种排行榜上名列前茅。我们鼓励未来的研究采用这些设置，以便更好、更公平地比较不同算法。

此外，我们发现调整超参数对于所有离线偏好优化算法（包括 SimPO）实现最佳性能至关重要。一般来说，对于 SimPO，将 $\beta$ 设置在 2.0 到 2.5 之间，将 $\gamma$ 设置在 0.5 到 1.5 之间，可以在所有设置中获得良好的性能。详情请参阅附录A。

评估基准。

我们主要使用三种最流行的开放式指令跟踪基准来评估我们的模型：MT-Bench [88]、AlpacaEval 2 [51]、²²2https://tatsu-lab.github.io/alpaca_eval/ 和 Arena-Hard v0.1 [50]。这些基准评估了模型在各种查询中的多功能对话能力，并已被社区广泛采用（详细信息参见表2) 。

AlpacaEval 2 由来自 5 个数据集的 805 个问题组成，MT-Bench 涵盖 8 个类别 80 个问题。最近发布的 Arena-Hard 是 MT-Bench 的增强版本，包含 500 个明确定义的技术问题解决查询。我们按照每个基准的评估协议报告分数。对于 AlpacaEval 2，我们报告原始胜率 (WR) 和长度控制胜率 (LC) [24]。 LC 指标经过专门设计，能够抵抗模型的冗长。对于 Arena-Hard，我们报告了相对于基准模型的胜率 (WR)。对于 MT-Bench，我们报告以 GPT-4 和 GPT-4-Preview-1106 作为评判模型的平均 MT-Bench 分数。³³3与 GPT-4 相比，GPT-4-Preview-1106 可以产生更准确的参考答案和判断。解码详情请参阅附录A。我们还评估了 Huggingface Open Leaderboard 基准测试中的下游任务[8]，更多详细信息请参见附录B。

表2： AlpacaEval 2 [51]、Arena-Hard [50] 和 MT-Bench [88] 的评估详细信息。基线模型是指与之比较的模型。 GPT-4 Turbo 对应于 GPT-4-Preview-1106。

	# Exs.	Baseline Model	Judge Model	Scoring Type	Metric
AlpacaEval 2	805	GPT-4 Turbo	GPT-4 Turbo	Pairwise comparison	LC & raw win rate
Arena-Hard	500	GPT-4-0314	GPT-4 Turbo	Pairwise comparison	Win rate
MT-Bench	80	-	GPT-4/GPT-4 Turbo	Single-answer grading	Rating of 1-10

表3：给定偏好数据

\mathcal{D}={(x,y_{w},y_{l})}

的各种偏好优化目标，其中

x

是输入，

y_{w}

和

y_{l}

是获胜和失败的响应。

Method	Objective
DPO [62]	$-\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}(y_{w}\|% x)}-\beta\log\frac{\pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}\right)$
IPO [6]	$\left(\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}(y_{w}\|x)}-\log\frac{% \pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}-\frac{1}{2\tau}\right)^{2}$
KTO [25]	$-\lambda_{w}\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}% (y_{w}\|x)}-z_{\text{ref}}\right)+\lambda_{l}\sigma\left(z_{\text{ref}}-\beta% \log\frac{\pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}\right),\,$
	$\text{where}\,\,z_{\text{ref}}=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\beta% \text{KL}\left(\pi_{\theta}(y\|x)\|\|\pi_{\text{ref}}(y\|x)\right)\right]$
ORPO [38]	$-\log p_{\theta}(y_{w}\|x)-\lambda\log\sigma\left(\log\frac{p_{\theta}(y_{w}\|x)% }{1-p_{\theta}(y_{w}\|x)}-\log\frac{p_{\theta}(y_{l}\|x)}{1-p_{\theta}(y_{l}\|x)}% \right),\,$
	$\text{where}\,\,p_{\theta}(y\|x)=\exp\left(\frac{1}{\|y\|}\log\pi_{\theta}(y\|x)\right)$
R-DPO [60]	$-\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}(y_{w}\|% x)}-\beta\log\frac{\pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}-\left(% \alpha\|y_{w}\|-\alpha\|y_{l}\|\right)\right)$
SimPO	$-\log\sigma\left(\frac{\beta}{\|y_{w}\|}\log\pi_{\theta}(y_{w}\|x)-\frac{\beta}{\|% y_{l}\|}\log\pi_{\theta}(y_{l}\|x)-\gamma\right)$

基线。

我们将 SimPO 与表3中列出的其他离线偏好优化方法进行比较。⁴⁴4最近的许多研究[82, 70]广泛比较了 DPO 和 PPO [66]。我们将把 PPO 和 SimPO 的比较留给以后的工作。 IPO[6]是一种有理论依据的方法，它避免了DPO的假设，即成对偏好可以用点式奖励代替。 KTO [25] 从非配对偏好数据中学习。 ORPO [38] 引入了无参考模型的奇数比项，直接将获胜和失败的响应与策略模型进行对比，并与 SFT 目标联合训练。 R-DPO [60] 是 DPO 的修改版本，其中包含一个额外的正则化项以防止长度被利用。我们彻底调整每个基线的超参数并报告最佳性能。我们发现DPO 的许多变体在经验上并未表现出优于标准 DPO 的优势。更多详情请参阅附录A。

4实验结果

在本节中，我们介绍实验的主要结果，强调 SimPO 在各种基准和消融研究中的卓越性能 (§4.1)。我们深入了解以下组成部分：(1) 长度归一化 (§4.2)，(2) 边际项 $\gamma$ (§4.3)，以及（3）为什么 SimPO 优于 DPO（§4.4)。除非另有说明，消融研究是使用 Mistral-Base 设置进行的。

4.1 主要结果和消融

表 4： AlpacaEval 2 [51]、Arena-Hard [50] 和 MT-Bench [88] 在四种设置下的结果。 LC 和 WR 分别表示长度控制胜率和原始胜率。我们在 UltraChat 数据集上训练基本设置的 SFT 模型。对于指令设置，我们使用现成的模型作为 SFT 模型。

Method	Mistral-Base (7B)					Mistral-Instruct (7B)
	AlpacaEval 2		Arena-Hard	MT-Bench		AlpacaEval 2		Arena-Hard	MT-Bench
	LC (%)	WR (%)	WR (%)	GPT-4 Turbo	GPT-4	LC (%)	WR (%)	WR (%)	GPT-4 Turbo	GPT-4
SFT	8.4	6.2	1.3	4.8	6.3	17.1	14.7	12.6	6.2	7.5
DPO [62]	15.1	12.5	10.4	5.9	7.3	26.8	24.9	16.3	6.3	7.6
IPO [6]	11.8	9.4	7.5	5.5	7.2	20.3	20.3	16.2	6.4	7.8
KTO [25]	13.1	9.1	5.6	5.4	7.0	24.5	23.6	17.9	6.4	7.7
ORPO [38]	14.7	12.2	7.0	5.8	7.3	24.5	24.9	20.8	6.4	7.7
R-DPO [60]	17.4	12.8	8.0	5.9	7.4	27.3	24.5	16.1	6.2	7.5
SimPO	21.5	20.8	16.6	6.0	7.3	32.1	34.8	21.0	6.6	7.6
Method	Llama3-Base (8B)					Llama3-Instruct (8B)
	AlpacaEval 2		Arena-Hard	MT-Bench		AlpacaEval 2		Arena-Hard	MT-Bench
	LC (%)	WR (%)	WR (%)	GPT-4 Turbo	GPT-4	LC (%)	WR (%)	WR (%)	GPT-4 Turbo	GPT-4
SFT	6.2	4.6	3.3	5.2	6.6	26.0	25.3	22.3	6.9	8.1
DPO [62]	18.2	15.5	15.9	6.5	7.7	40.3	37.9	32.6	7.0	8.0
IPO [6]	14.4	14.2	17.8	6.5	7.4	35.6	35.6	30.5	7.0	8.3
KTO [25]	14.2	12.4	12.5	6.3	7.8	33.1	31.8	26.4	6.9	8.2
ORPO [38]	12.2	10.6	10.8	6.1	7.6	28.5	27.4	25.8	6.8	8.0
R-DPO [60]	17.6	14.4	17.2	6.6	7.5	41.1	37.8	33.1	7.0	8.0
SimPO	22.0	20.3	23.4	6.6	7.7	44.7	40.5	33.8	7.0	8.0

表 5： Mistral-Base 和 Mistral-Instruct 设置下的消融研究。我们消除了 SimPO 的每个关键设计：（1）删除式（1）中的长度归一化。 (4)(即，无 LN）； (2) 将等式1中的目标奖励保证金

\gamma

设置为0。 (6)(即、

\gamma=0

)。

Method	Mistral-Base (7B) Setting					Mistral-Instruct (7B) Setting
	AlpacaEval 2		Arena-Hard	MT-Bench		AlpacaEval 2		Arena-Hard	MT-Bench
	LC (%)	WR (%)	WR (%)	GPT-4 Turbo	GPT-4	LC (%)	WR (%)	WR (%)	GPT-4 Turbo	GPT-4
DPO	15.1	12.5	10.4	5.9	7.3	26.8	24.9	16.3	6.3	7.6
SimPO	21.5	20.8	16.6	6.0	7.3	32.1	34.8	21.0	6.6	7.6
w/o LN	11.9	13.2	9.4	5.5	7.3	19.1	19.7	16.3	6.4	7.6
$\gamma=0$	16.8	14.3	11.7	5.6	6.9	30.9	34.2	20.5	6.6	7.7

SimPO 始终显着优于现有的偏好优化方法。

如表4所示，虽然所有偏好优化算法都比SFT模型增强了性能，但SimPO尽管简单，但总体性能最佳跨越所有基准和设置。值得注意的是，在各种设置下，SimPO 在 AlpacaEval 2 LC 胜率上比最佳基线高出 3.6 到 4.8 分，在 Arena-Hard 上比最佳基线高出 0.2 到 6.2 分。这些一致且显着的改进凸显了 SimPO 的稳健性和有效性。

基准质量各不相同。

尽管这三个基准都被广泛采用，但我们发现 MT-Bench 在不同方法之间的可分离性很差。 MT-Bench 方法之间的微小差异可能归因于随机性，这可能是由于其评估数据规模及其单实例评分协议的有限性。这一发现与[50]中报告的观察结果一致。相比之下，AlpacaEval 2 和 Arena-Hard 在不同方法之间提供了更有意义的区别。此外，Arena-Hard 采用了与基线模型不同的判断模型，可能会带来更公平的评估。我们观察到 Arena-Hard 的胜率明显低于 AlpacaEval 2，这表明 Arena-Hard 是一个更具挑战性的基准。

Instruct 设置带来了显着的性能提升。

在所有基准测试中，我们观察到 Instruct 设置始终优于 Base 设置。这种改进可能是由于用于初始化的 SFT 模型质量更高以及这些模型生成了更高质量的偏好数据。

SimPO 中的两个关键设计都至关重要。

在表5中，我们展示了消除SimPO每个关键设计的结果：（1）删除等式中的长度归一化。 (4)(即，无 LN）； (2) 将式(2)中的目标奖励幅度设置为0。 (6)(即、 $\gamma=0$ )。删除长度归一化对结果的负面影响最大。我们的检查表明，这会导致生成长且重复的模式，从而大大降低输出的整体质量（参见附录D)。与 SimPO 相比，将 $\gamma$ 设置为 0 也会导致性能下降，这表明它不是最佳目标奖励裕度。在以下小节中，我们进行深入分析，以更好地理解这两种设计选择。

4.2 长度标准化 (LN) 防止长度利用

LN 会导致所有偏好对的奖励差异增加，无论其长度如何。

方程中的 Bradley-Terry 目标(5) 本质上旨在优化奖励差异 $\Delta r=r(x,y_{w})-r(x,y_{l})$ 以超过目标利润 $\gamma$ 。我们研究了学习到的奖励差异与 UltraFeedback 训练集中获胜和失败响应之间的长度差异 $\Delta l=|y_{w}|-|y_{l}|$ 之间的关系。我们使用 SFT 模型、SimPO 模型以及使用 SimPO 训练但没有长度归一化的模型来测量奖励的差异( $r_{\text{SimPO}}$ ；方程(4)）。我们在图2(a)中展示了结果，并观察到SimPO与LN一致地为所有响应对实现了正的奖励边际，无论它们的长度差异，并且持续提高了 SFT 模型的裕度。相比之下，当获胜响应短于失败响应时，没有 LN 的 SimPO 会导致偏好对的奖励差异为负，这表明模型在这些实例中学习效果不佳。

删除 LN 会导致奖励和响应长度之间存在很强的正相关性，从而导致长度利用。

图 2(b)和2(c)说明了平均对数似然( $p_{\theta}$ 式 (3)) 与使用 SimPO 和不使用 LN 的 SimPO 训练的模型的保留集上的响应长度。与 SimPO 相比，未经 LN 训练的模型在似然性和响应长度之间表现出更强的 Spearman 正相关性，表明有利用长度偏差并生成更长序列的趋势（参见表 11)。相比之下，SimPO 产生的 Spearman 相关系数与 SFT 模型类似（参见图5(a))。

4.3 SimPO 中目标奖励保证金的影响

$\gamma$ 对奖励准确率和胜率的影响。

我们研究了 SimPO 中的目标奖励余量 $\gamma$ 如何影响保留集的奖励准确性以及 AlpacaEval 2 上的获胜率，结果如图图 3(a)。奖励准确度以偏好对的百分比来衡量，其中获胜响应最终比失败响应获得更高的奖励(即、 $r(x,y_{w})>r(x,y_{l})$ )。我们观察到，在两个基准上，奖励准确度都随着 $\gamma$ 的增加而增加，这表明执行更大的目标奖励余量可以有效提高奖励准确度。然而，AlpacaEval 2 的胜率随着 $\gamma$ 先增加后减少，这表明生成质量不仅仅由奖励边际决定。

$\gamma$ 对奖励分配的影响。

我们在图中可视化了不同 $\gamma$ 值下学习奖励余量 $r(x,y_{w})-r(x,y_{l})$ 的分布和获胜响应 $r(x,y_{w})$ 的奖励> 2(b)和图2(c)。值得注意的是，增加 $\gamma$ 往往会使两个分布变得平坦，并降低获胜序列的平均对数似然。这最初会提高性能，但最终可能导致模型退化。我们假设在设置 $\gamma$ 值时，在准确近似真实奖励分布和保持良好校准的可能性之间存在权衡。对这种平衡的进一步探索将推迟到未来的工作中。

4.4 DPO 与 SimPO 的深入分析

在本节中，我们从以下方面比较 SimPO 和 DPO：(1) 似然长度相关性、(2) 奖励公式、(3) 奖励准确性和 (4) 算法效率。我们证明 SimPO 在奖励准确性和效率方面优于 DPO。

表6：不同模型的平均对数似然与保留集上的响应长度之间的斯皮尔曼相关性

\rho

。

	SimPO w/o LN	DPO	SimPO
$\rho$	0.82	0.59	0.34

DPO 奖励隐含地促进了长度标准化。

尽管 DPO 奖励表达式 $r(x,y)=\beta\log\frac{\pi_{\theta}(y\mid x)}{\pi_{\text{ref}}(y\mid x)}$ （排除分配函数）缺乏长度归一化的明确术语，但策略模型和参考模型之间的对数比可以隐式抵消长度偏差。如表6及图4(a)，与没有任何长度归一化的方法（称为“SimPO w/o LN”）相比，采用 DPO 降低了平均对数似然与响应长度之间的 Spearman 相关系数。然而，与 SimPO 相比，它仍然表现出更强的正相关性。⁵⁵5请注意，这种相关性并不能完全反映代长度。尽管 DPO 显示出更强的相关性，但其生成的响应长度与 SimPO 模型相当甚至略短。请在附录D中找到更多详细信息。

DPO 奖励不匹配的生成可能性。

DPO 的奖励公式 $r_{\theta}(x,y)=\beta\log\frac{\pi_{\theta}(y\mid x)}{\pi_{\text{ref}}(y\mid x)}$ 与平均对数似然指标 $p_{\theta}(y\mid x)=\frac{1}{|y|}\log\pi_{\theta}(y\mid x)$ 之间存在差异，这直接影响生成。如图图 4(b)所示，在UltraFeedback训练集中 $r_{\theta}(x,y_{w})>r_{\theta}(x,y_{l})$ 的实例中，几乎一半这些对有 $p_{\theta}(y_{w}\mid x)<p_{\theta}(y_{l}\mid x)$ 。相比之下，SimPO 直接采用平均对数似然（按 $\beta$ 缩放）作为奖励表达式，从而完全消除了差异，如图图 5 (b)。

DPO 在奖励准确性方面落后于 SimPO。

在图 4(c)中，我们比较了 SimPO 和 DPO 的奖励准确性，评估它们最终学习到的奖励与偏好标签的一致性程度保留的集合。我们观察到 SimPO 始终比 DPO 实现更高的奖励准确性，这表明我们的奖励设计有助于更有效的泛化并带来更高质量的生成。

SimPO 比 DPO 具有更高的内存和计算效率。

SimPO 的另一个好处是其效率，因为它不使用参考模型。图 4(d)说明了使用 8 在 Llama3-Base 设置中 SimPO 和 DPO 的整体运行时间和每 GPU 峰值内存使用情况×H100 GPU。与普通的 DPO 实施相比，⁶⁶6如果将参考模型的前向传递与实际偏好优化分开，DPO 可以与 SimPO 一样具有内存效率。然而，这种实现并不是标准做法。由于消除了参考模型的前向传递，SimPO 将运行时间缩短了大约 20%，并将 GPU 内存使用量减少了大约 10%。

5相关工作

从人类反馈中强化学习。

RLHF 是一种将大型语言模型与人类偏好和价值观结合起来的技术[15,91,58,7]。经典的 RLHF 管道通常包含三个阶段：监督微调 [90, 72, 29, 18, 44, 22, 77, 13, 79]，奖励模型训练 [28, 56 , 14, 52, 33, 46]，以及策略优化[66, 4]。近端策略优化（PPO）[66]是RLHF第三阶段广泛使用的算法。 RLHF框架也广泛应用于各种应用，例如减轻毒性[45, 3]、确保安全[21]、增强帮助性[73]，搜索和浏览网络[57]，并提高模型推理能力[32]。最近，[12] 强调了从偏好数据收集到模型训练整个 RLHF 流程中的挑战。进一步的研究还表明，RLHF 可能会导致有偏差的结果，例如模型 [24,67,78] 的详细输出。

偏好优化。

鉴于在线偏好优化算法复杂且难以优化[89, 65]，研究人员一直在探索更高效、更简单的替代离线算法。直接偏好优化 (DPO) [62] 就是一个著名的例子。然而，DPO 中缺乏奖励模型限制了它从最优策略中采样偏好对的能力。为了解决这个问题，研究人员探索了使用训练有素的 SFT 策略[87]或带有拒绝采样的改进的 SFT 策略[55]来增强偏好数据，使策略能够学习最优策略生成的数据。进一步的研究已将这种方法扩展到迭代训练设置，不断更新参考模型以使用最新的策略模型或通过生成由不断发展的策略模型评分和选择的偏好对来优化[42,63,84]. 此外，一些研究用离线排名目标取代了在线强化学习目标，从而可以从更广泛的角度对两个以上实例进行比较[23,54,68,83]。另一项工作探索更简单的偏好优化目标，而不依赖于参考模型[38, 81]，类似于 SimPO。我们的工作遵循成对偏好优化设置，无需迭代训练。我们将其与一系列离线算法进行比较，包括 DPO、IPO [6]、KTO [25]、ORPO [38] 和R-DPO[60]，并发现SimPO在效率和性能上都可以优于这些方法。最近，[71]提出了一种统一不同离线算法的广义偏好优化框架，SimPO可以看作是该框架的一个特例。

6讨论

结论。

在这项工作中，我们提出了 SimPO，这是一种简单而有效的训练偏好优化算法，在各种设置中始终优于现有方法。通过将奖励函数与生成可能性相结合并引入目标奖励裕度，SimPO 消除了对参考模型的需求，并在不利用长度偏差的情况下实现了强大的性能。广泛的分析表明SimPO中的关键设计至关重要，并验证了SimPO的效率和有效性。

局限性和未来的工作。

首先，尽管 SimPO 取得了经验上的成功和直观的动机，但我们对其工作原理缺乏理论和严格的理解。此外，目标奖励利润的引入需要我们调整一个额外的超参数，未来的工作可以探索如何自动确定最佳利润。其次，SimPO 是一种离线偏好算法，不利用迭代训练或其他正交技术。未来的工作可以探索 SimPO 与这些方法的集成，以进一步提高模型性能。第三，我们的实验仅关注有用性的评估，忽略了模型行为的其他关键方面，例如安全、诚实和公平。在未来的研究中研究 SimPO 对这些行为的泛化非常重要。最后，我们观察到一些下游任务的性能下降，尤其是数学基准测试。我们将在下一节中更详细地讨论局限性和未来方向。

局限性

•

更深入的理论分析。尽管 SimPO 取得了经验上的成功和直观的动机，但仍需要更严格的理论分析才能充分理解影响其有效性的因素。此外，我们引入了一个额外的超参数，即目标奖励裕度，它需要手动调整。未来的工作可以探索如何自动确定最佳裕度，并提供对 SimPO 更具理论性的理解。
•

安全和诚实。 SimPO 旨在通过将获胜响应和失败响应的平均对数似然之间的差值推至超过目标奖励差值来优化语言模型的生成质量。然而，它没有明确考虑安全和诚实方面，而这对于现实世界的应用至关重要。未来的工作应该探索将安全和诚实约束集成到 SimPO 中，以确保生成的响应不仅是高质量的，而且是安全和诚实的。本工作中使用的数据集 UltraFeedback [20] 主要关注帮助性，未来的研究可能会考虑利用更大规模的偏好数据集进行更全面的研究[39, 86] 和评估基准[76]，重点强调安全方面。尽管如此，我们观察到，与 Table 9 中的其他目标相比，该方法始终实现了较高的 TruthfulQA [53] 性能，表明其安全调整的潜力。
•

数学成绩下降。我们观察到，偏好优化算法通常会降低下游任务性能，特别是在 GSM8k 等推理繁重的任务上，如 Table 9 所示。 SimPO 有时会产生与 DPO 相当或更差的性能。我们假设这可能与训练数据集的选择、用于训练的超参数或用于下游任务评估的聊天模板的不匹配有关。一种解释是，尽管增加了奖励裕度，偏好优化目标可能并不能有效地增加偏好序列的可能性。 [59] 首先观察到这一现象，并指出这可能会阻碍从数学偏好对中进行学习，其中更改一个词符可能会翻转标签（例如，将 $2+2=4$ 更改为 $2+2=5$ )。他们提出了一种简单的正则化策略，将参考模型校准的监督微调损失添加回偏好优化目标，并有效缓解此问题。未来的工作可能会考虑将这种正则化策略集成到 SimPO 中，以提高推理繁重任务的性能。

致谢

作者要感谢高天宇、Tanya Goyal、Kaifeng Lyu、Sadhika Malladi、Eric Mitchell、Lewis Tunstall 以及普林斯顿 NLP 小组成员的宝贵反馈和讨论。我们感谢 Niklas Muennighoff 在训练和复制 KTO 模型方面的建议。夏孟洲得到了 AIML 奖学金的苹果学者的支持。这项研究还得到了国家科学基金会 (IIS-2211779) 和斯隆研究奖学金的资助。

参考

[1] Alan Agresti. Categorical data analysis, volume 792. John Wiley & Sons, 2012.
[2] AI@Meta. Llama 3 model card. 2024.
[3] Afra Amini, Tim Vieira, and Ryan Cotterell. Direct preference optimization with an offset. arXiv preprint arXiv:2402.10571, 2024.
[4] Thomas Anthony, Zheng Tian, and David Barber. Thinking fast and slow with deep learning and tree search. Advances in neural information processing systems, 30, 2017.
[5] Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Benjamin Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, John Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei, Tom B. Brown, Jack Clark, Sam McCandlish, Christopher Olah, and Jared Kaplan. A general language assistant as a laboratory for alignment. ArXiv, abs/2112.00861, 2021.
[6] Mohammad Gheshlaghi Azar, Mark Rowland, Bilal Piot, Daniel Guo, Daniele Calandriello, Michal Valko, and Rémi Munos. A general theoretical paradigm to understand learning from human preferences. ArXiv, abs/2310.12036, 2023.
[7] Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022.
[8] Edward Beeching, Clémentine Fourrier, Nathan Habib, Sheon Han, Nathan Lambert, Nazneen Rajani, Omar Sanseviero, Lewis Tunstall, and Thomas Wolf. Open llm leaderboard. https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard, 2023.
[9] Bernhard E Boser, Isabelle M Guyon, and Vladimir N Vapnik. A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory, pages 144–152, 1992.
[10] Ralph Allan Bradley and Milton E. Terry. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39:324, 1952.
[11] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. In NeurIPS, 2020.
[12] Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, et al. Open problems and fundamental limitations of reinforcement learning from human feedback. arXiv preprint arXiv:2307.15217, 2023.
[13] Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, and Hongxia Jin. Alpagasus: Training a better alpaca with fewer data. In The Twelfth International Conference on Learning Representations, 2024.
[14] Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, and Bryan Catanzaro. Odin: Disentangled reward mitigates hacking in rlhf. arXiv preprint arXiv:2402.07319, 2024.
[15] Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30, 2017.
[16] Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
[17] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
[18] Mike Conover, Matt Hayes, Ankit Mathur, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, and Reynold Xin. Free dolly: Introducing the world’s first truly open instruction-tuned llm, 2023.
[19] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machine learning, 20:273–297, 1995.
[20] Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Wei Zhu, Yuan Ni, Guotong Xie, Zhiyuan Liu, and Maosong Sun. UltraFeedback: Boosting language models with high-quality feedback. In ICML, 2024.
[21] Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, and Yaodong Yang. Safe RLHF: Safe reinforcement learning from human feedback. arXiv preprint arXiv:2310.12773, 2023.
[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, and Bowen Zhou. Enhancing chat language models by scaling high-quality instructional conversations. In EMNLP, 2023.
[23] Hanze Dong, Wei Xiong, Deepanshu Goyal, Yihan Zhang, Winnie Chow, Rui Pan, Shizhe Diao, Jipeng Zhang, SHUM KaShun, and Tong Zhang. RAFT: Reward ranked finetuning for generative foundation model alignment. Transactions on Machine Learning Research, 2023.
[24] Yann Dubois, Balázs Galambosi, Percy Liang, and Tatsunori B Hashimoto. Length-controlled AlpacaEval: A simple way to debias automatic evaluators. ArXiv, abs/2404.04475, 2024.
[25] Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, and Douwe Kiela. KTO: Model alignment as prospect theoretic optimization. ArXiv, abs/2402.01306, 2024.
[26] Angela Fan, Mike Lewis, and Yann Dauphin. Hierarchical neural story generation. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 889–898, 2018.
[27] David Firth and Heather Turner. Bradley-terry models in r: the bradleyterry2 package. Journal of Statistical Software, 48(9), 2012.
[28] Leo Gao, John Schulman, and Jacob Hilton. Scaling laws for reward model overoptimization. In International Conference on Machine Learning, pages 10835–10866. PMLR, 2023.
[29] Xinyang Geng, Arnav Gudibande, Hao Liu, Eric Wallace, Pieter Abbeel, Sergey Levine, and Dawn Song. Koala: A dialogue model for academic research. Blog post, April, 1:6, 2023.
[30] Ulrich Germann. Greedy decoding for statistical machine translation in almost linear time. In NAACL, 2003.
[31] Alex Graves. Sequence transduction with recurrent neural networks. ArXiv, abs/1211.3711, 2012.
[32] Alex Havrilla, Yuqing Du, Sharath Chandra Raparthy, Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, and Roberta Raileanu. Teaching large language models to reason with reinforcement learning. arXiv preprint arXiv:2403.04642, 2024.
[33] Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, and Roberta Railneau. Glore: When, where, and how to improve llm reasoning via global and local refinements. arXiv preprint arXiv:2402.10963, 2024.
[34] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. In International Conference on Learning Representations, 2020.
[35] Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. In International Conference on Learning Representations, 2019.
[36] Ari Holtzman, Jan Buys, Maxwell Forbes, Antoine Bosselut, David Golub, and Yejin Choi. Learning to write with cooperative discriminators. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1638–1649, 2018.
[37] Ari Holtzman, Peter West, Vered Shwartz, Yejin Choi, and Luke Zettlemoyer. Surface form competition: Why the highest probability answer isn’t always right. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 7038–7051, 2021.
[38] Jiwoo Hong, Noah Lee, and James Thorne. ORPO: Monolithic preference optimization without reference model. ArXiv, abs/2403.07691, 2024.
[39] Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Ruiyang Sun, Yizhou Wang, and Yaodong Yang. BeaverTails: Towards improved safety alignment of LLM via a human-preference dataset. ArXiv, abs/2307.04657, 2023.
[40] Albert Qiaochu Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de Las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, L’elio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed. Mistral 7B. ArXiv, abs/2310.06825, 2023.
[41] Dongfu Jiang, Xiang Ren, and Bill Yuchen Lin. LLM-Blender: Ensembling large language models with pairwise ranking and generative fusion. In ACL, 2023.
[42] Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, and Chanjun Park. sDPO: Don’t use your data all at once. ArXiv, abs/2403.19270, 2024.
[43] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
[44] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi Rui Tam, Keith Stevens, Abdullah Barhoum, Duc Minh Nguyen, Oliver Stanley, Richárd Nagyfi, et al. Openassistant conversations-democratizing large language model alignment. In Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2023.
[45] Tomasz Korbak, Kejian Shi, Angelica Chen, Rasika Vinayak Bhalerao, Christopher Buckley, Jason Phang, Samuel R Bowman, and Ethan Perez. Pretraining language models with human preferences. In International Conference on Machine Learning, pages 17506–17533. PMLR, 2023.
[46] Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, and Hannaneh Hajishirzi. Rewardbench: Evaluating reward models for language modeling, 2024.
[47] Jan Leike, David Krueger, Tom Everitt, Miljan Martic, Vishal Maini, and Shane Legg. Scalable agent alignment via reward modeling: a research direction. arXiv preprint arXiv:1811.07871, 2018.
[48] Hector Levesque, Ernest Davis, and Leora Morgenstern. The winograd schema challenge. In Thirteenth international conference on the principles of knowledge representation and reasoning, 2012.
[49] Jiwei Li, Will Monroe, Alan Ritter, Dan Jurafsky, Michel Galley, and Jianfeng Gao. Deep reinforcement learning for dialogue generation. In Jian Su, Kevin Duh, and Xavier Carreras, editors, Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1192–1202, Austin, Texas, November 2016. Association for Computational Linguistics.
[50] Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Banghua Zhu, Joseph E. Gonzalez, and Ion Stoica. From live data to high-quality benchmarks: The Arena-Hard pipeline, April 2024.
[51] Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. AlpacaEval: An automatic evaluator of instruction-following models. https://github.com/tatsu-lab/alpaca_eval, 2023.
[52] Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe. Let’s verify step by step. arXiv preprint arXiv:2305.20050, 2023.
[53] Stephanie Lin, Jacob Hilton, and Owain Evans. Truthfulqa: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, 2022.
[54] Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, et al. LiPO: Listwise preference optimization through learning-to-rank. arXiv preprint arXiv:2402.01878, 2024.
[55] Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J Liu, and Jialu Liu. Statistical rejection sampling improves preference optimization. In The Twelfth International Conference on Learning Representations, 2024.
[56] Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, and Dongmei Zhang. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct. arXiv preprint arXiv:2308.09583, 2023.
[57] Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332, 2021.
[58] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Francis Christiano, Jan Leike, and Ryan J. Lowe. Training language models to follow instructions with human feedback. In NeurIPS, 2022.
[59] Arka Pal, Deep Karkhanis, Samuel Dooley, Manley Roberts, Siddartha Naidu, and Colin White. Smaug: Fixing failure modes of preference optimisation with dpo-positive. arXiv preprint arXiv:2402.13228, 2024.
[60] Ryan Park, Rafael Rafailov, Stefano Ermon, and Chelsea Finn. Disentangling length from quality in direct preference optimization. ArXiv, abs/2403.19159, 2024.
[61] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
[62] Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. In NeurIPS, 2023.
[63] Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, and Tengyang Xie. Direct nash optimization: Teaching language models to self-improve with general preferences. ArXiv, abs/2404.03715, 2024.
[64] Sebastian Ruder. An overview of gradient descent optimization algorithms. arXiv preprint arXiv:1609.04747, 2016.
[65] Michael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, and Yelong Shen. Efficient RLHF: Reducing the memory usage of PPO. arXiv preprint arXiv:2309.00754, 2023.
[66] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
[67] Prasann Singhal, Tanya Goyal, Jiacheng Xu, and Greg Durrett. A long way to go: Investigating length correlations in RLHF. arXiv preprint arXiv:2310.03716, 2023.
[68] Feifan Song, Bowen Yu, Minghao Li, Haiyang Yu, Fei Huang, Yongbin Li, and Houfeng Wang. Preference ranking optimization for human alignment. In AAAI, 2024.
[69] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.
[70] Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, et al. Understanding the performance gap between online and offline alignment algorithms. arXiv preprint arXiv:2405.08448, 2024.
[71] Yunhao Tang, Zhaohan Daniel Guo, Zeyu Zheng, Daniele Calandriello, Rémi Munos, Mark Rowland, Pierre Harvey Richemond, Michal Valko, Bernardo Ávila Pires, and Bilal Piot. Generalized preference optimization: A unified approach to offline alignment. arXiv preprint arXiv:2402.05749, 2024.
[72] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B Hashimoto. Stanford alpaca: An instruction-following llama model, 2023.
[73] Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D Manning, and Chelsea Finn. Fine-tuning language models for factuality. In The Twelfth International Conference on Learning Representations, 2024.
[74] Hoang Tran, Chris Glaze, and Braden Hancock. Iterative DPO alignment. Technical report, Snorkel AI, 2023.
[75] Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Clémentine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, and Thomas Wolf. Zephyr: Direct distillation of LM alignment. ArXiv, abs/2310.16944, 2023.
[76] Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zi-Han Lin, Yuk-Kit Cheng, Sanmi Koyejo, Dawn Xiaodong Song, and Bo Li. DecodingTrust: A comprehensive assessment of trustworthiness in gpt models. In NeurIPS, 2023.
[77] Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, and Yang Liu. OpenChat: Advancing open-source language models with mixed-quality data. In ICLR, 2024.
[78] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Chandu, David Wadden, Kelsey MacMillan, Noah A Smith, Iz Beltagy, et al. How far can camels go? exploring the state of instruction tuning on open resources. In Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2023.
[79] Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, and Danqi Chen. LESS: Selecting influential data for targeted instruction tuning. In ICML, 2024.
[80] Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, and Young Jin Kim. Contrastive preference optimization: Pushing the boundaries of llm performance in machine translation. arXiv preprint arXiv:2401.08417, 2024.
[81] Jing Xu, Andrew Lee, Sainbayar Sukhbaatar, and Jason Weston. Some things are more cringe than others: Preference optimization with the pairwise cringe loss. arXiv preprint arXiv:2312.16682, 2023.
[82] Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, and Yi Wu. Is DPO superior to PPO for llm alignment? a comprehensive study. arXiv preprint arXiv:2404.10719, 2024.
[83] Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, and Fei Huang. RRHF: Rank responses to align language models with human feedback. In NeurIPS, 2023.
[84] Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, and Jason Weston. Self-rewarding language models. arXiv preprint arXiv:2401.10020, 2024.
[85] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. HellaSwag: Can a machine really finish your sentence? In Anna Korhonen, David Traum, and Lluís Màrquez, editors, Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4791–4800, Florence, Italy, July 2019. Association for Computational Linguistics.
[86] Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, and Yuntian Deng. Wildchat: 1m chatGPT interaction logs in the wild. In The Twelfth International Conference on Learning Representations, 2024.
[87] Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, and Peter J. Liu. SLiC-HF: Sequence likelihood calibration with human feedback. ArXiv, abs/2305.10425, 2023.
[88] Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al. Judging llm-as-a-judge with mt-bench and chatbot arena. In Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2023.
[89] Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, et al. Secrets of RLHF in large language models part I: PPO. arXiv preprint arXiv:2307.04964, 2023.
[90] Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, et al. LIMA: Less is more for alignment. NeurIPS, 2023.
[91] Daniel M Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593, 2019.

附录A实施细节

我们发现超参数调整对于实现偏好优化方法的最佳性能至关重要。然而，在之前的研究中，仔细调整超参数的重要性可能被低估，可能导致基线结果不理想。为了确保公平的比较，我们对实验中比较的所有方法进行了彻底的超参数调整。

一般训练超参数。

表7：各种偏好优化目标和超参数搜索范围。

Method	Objective	Hyperparameter
DPO [62]	$-\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}(y_{w}\|% x)}-\beta\log\frac{\pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}\right)$	$\beta\in[0.01,0.05,0.1]$
IPO [6]	$\left(\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}(y_{w}\|x)}-\log\frac{% \pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}-\frac{1}{2\tau}\right)^{2}$	$\tau\in[0.01,0.1,0.5,1.0]$
KTO [25]	$-\lambda_{w}\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}% (y_{w}\|x)}-z_{\text{ref}}\right)+\lambda_{l}\sigma\left(z_{\text{ref}}-\beta% \log\frac{\pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}\right),\,$	$\lambda_{l}=\lambda_{w}=1$
	$\text{where}\,\,z_{\text{ref}}=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\beta% \text{KL}\left(\pi_{\theta}(y\|x)\|\|\pi_{\text{ref}}(y\|x)\right)\right]$	$\beta\in[0.01,0.05,0.1]$
ORPO [38]	$-\log p_{\theta}(y_{w}\|x)-\lambda\log\sigma\left(\log\frac{p_{\theta}(y_{w}\|x)% }{1-p_{\theta}(y_{w}\|x)}-\log\frac{p_{\theta}(y_{l}\|x)}{1-p_{\theta}(y_{l}\|x)}% \right),\,$	$\lambda\in[0.1,0.5,1.0,2.0]$
	$\text{where}\,\,p_{\theta}(y\|x)=\exp\left(\frac{1}{\|y\|}\log\pi_{\theta}(y\|x)\right)$
R-DPO [60]	$-\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\|x)}{\pi_{\text{ref}}(y_{w}\|% x)}-\beta\log\frac{\pi_{\theta}(y_{l}\|x)}{\pi_{\text{ref}}(y_{l}\|x)}-\left(% \alpha\|y_{w}\|-\alpha\|y_{l}\|\right)\right)$	$\alpha\in[0.05,0.1,0.5,1.0]$
R-DPO [60]		$\beta\in[0.01,0.05,0.1]$
SimPO	$-\log\sigma\left(\frac{\beta}{\|y_{w}\|}\log\pi_{\theta}(y_{w}\|x)-\frac{\beta}{\|% y_{l}\|}\log\pi_{\theta}(y_{l}\|x)-\gamma\right)$	$\beta\in[2.0,2.5]$
SimPO		$\gamma\in[0.3,0.5,1.0,1.2,1.4,1.6]$

表8： SimPO 中用于每个训练设置的超参数值。

Setting	$\beta$	$\gamma$	Learning rate
Mistral-Base	2.0	1.6	3e-7
Mistral-Instruct	2.5	0.3	5e-7
Llama3-Base	2.0	1.0	6e-7
Llama3-Instruct	2.5	1.4	1e-6

对于基本训练设置，我们使用 UltraChat-200k 数据集 [22] 以及以下超参数来训练 SFT 模型：学习率为 2e-5，批量大小为128，最大序列长度为 2048，余弦学习率计划在 1 个时期内具有 10% 的预热步骤。所有模型均使用 Adam 优化器[43]进行训练。

对于偏好优化阶段，我们进行了预备知识实验来搜索[32,64,128]中的批量大小和[1,2,3]中的训练周期。我们发现批量大小为 128 和单个训练周期通常会在所有方法中产生最佳结果。因此，我们为所有偏好优化实验修复这些值。此外，我们将最大序列长度设置为 2048，并在偏好优化数据集上应用具有 10% 预热步骤的余弦学习率计划。

特定于方法的训练超参数。

我们注意到，不同偏好优化方法的最佳学习率有所不同，并且极大地影响基准性能。因此，我们在[3e-7, 5e-7, 6e-7, 1e-6]范围内为每种方法单独搜索学习率。表 7 显示有关基线的特定于方法的超参数搜索范围的详细信息。⁷⁷7KTO 运行与原始论文中存在差异，原始运行使用 RMSProp 优化器[64]。我们对所有实验都使用 Adam 优化器 [43]。表 8显示了每种设置下使用的 SimPO 超参数。

解码超参数。

对于 AlpacaEval 2，我们使用采样解码策略来生成响应，Mistral-Base 设置的温度为 0.7，遵循 zephyr-7b-beta、⁸ ⁸8https://github.com/tatsu-lab/alpaca_eval/blob/main/src/alpaca_eval/models_configs/zephyr-7b-beta/configs.yaml Snorkel-Mistral-PairRM-DPO 之后的 Mistral-Instruct 设置的温度为 0.5，两者的温度均为 0.9骆驼3设置。⁹⁹9我们在 ${0.1,0.3,0.5,0.7,0.9}$ 上使用 DPO 对 Llama3-Base 设置的温度超参数进行网格搜索，并针对所有不同的方法进行修复。对于 Arena-Hard，我们对所有设置和方法使用默认的贪婪解码。对于MT-Bench，我们遵循官方解码配置，该配置为不同类别定义了不同的采样温度。

计算环境。

本文的所有训练实验均基于对齐手册存储库在 8×H100 GPU 上进行。¹⁰¹⁰10https://github.com/huggingface/alignment-handbook

附录B下游任务评估

为了研究偏好优化方法如何影响下游任务性能，我们评估了在 Huggingface Open Leaderboard [8] 上列出的各种任务上使用不同方法训练的模型。这些任务包括 MMLU [34]、ARC [16]、HellaSwag [85]、TruthfulQA [53] 、Winograd [48] 和 GSM8K [17]。我们遵循既定的评估协议，并在表9中展示所有模型的结果。一般来说，我们发现偏好优化的效果因任务而异。

知识大部分被保留，但损失很小。

与 SFT 检查点相比，我们发现所有偏好优化方法通常都保持 MMLU 性能下降最小。在这方面，SimPO 与 DPO 大致相当。

阅读理解和常识推理能力得到提高。

对于 ARC 和 HellaSwag，与 SFT 检查点相比，偏好优化方法通常可以提高性能。一种假设是偏好优化数据集包含与这些任务类似的提示，这有助于模型更好地理解上下文并提高阅读理解和常识推理能力。

诚实度有所提高。

令人惊讶的是，我们发现与 SFT 检查点相比，偏好优化方法持续提高了 TruthfulQA 的性能，并且在某些情况下提升幅度可能高达 10% 以上。同样，我们假设偏好数据集包含强调真实性的实例，这有助于模型更好地理解上下文并生成更真实的响应。

数学成绩下降。

GSM8K 是显示各种方法波动性最大的基准。值得注意的是，除了 ORPO 之外，几乎所有方法都会在一种或多种设置中导致一致的下降。我们假设 ORPO 保持绩效很大程度上是由于其监管微调损失。 [59]在偏好优化目标中添加了参考模型校准的监督微调损失，发现它有效地解决了问题并保持了数学任务的性能。

总体而言，确定下游绩效模式具有挑战性。由于使用不同的预训练模型、偏好优化数据集和目标，综合分析很困难。最近的研究表明，基于梯度的方法可以有效地找到下游任务的相关数据[79]，并且可以扩展到理解偏好优化的效果。我们相信，关于偏好优化如何影响下游性能的彻底研究是有价值的，并需要在未来的工作中进行严格和更全面的分析。

表9： Huggingface开放排行榜上任务的下游任务评估结果。

	MMLU (5)	ARC (25)	HellaSwag (10)	TruthfulQA (0)	Winograd (5)	GSM8K (5)	Average
Mistral-Base
SFT	60.10	58.28	80.76	40.35	76.40	28.13	57.34
DPO	58.48	61.26	83.59	53.06	76.80	21.76	59.16
IPO	60.23	60.84	83.30	45.44	77.58	27.14	59.09
KTO	60.90	62.37	84.88	56.60	77.27	38.51	63.42
ORPO	63.20	61.01	84.09	47.91	78.61	42.15	62.83
R-DPO	59.58	61.35	84.29	46.12	76.56	18.12	57.67
SimPO	59.21	62.63	83.60	50.68	77.27	22.21	59.27
Mistral-Instruct
SFT	60.40	63.57	84.79	66.81	76.64	40.49	65.45
DPO	60.53	65.36	85.86	66.71	76.80	40.33	65.93
IPO	60.20	63.31	84.88	67.36	75.85	39.42	65.17
KTO	60.52	65.78	85.49	68.45	75.93	38.82	65.83
ORPO	60.43	61.43	84.32	66.33	76.80	36.85	64.36
R-DPO	60.71	66.30	86.01	68.22	76.72	37.00	65.82
SimPO	60.53	66.89	85.95	68.40	76.32	35.25	65.56
Llama3-Base
SFT	64.88	60.15	81.37	45.33	75.77	46.32	62.30
DPO	64.31	64.42	83.87	53.48	76.32	38.67	63.51
IPO	64.40	62.88	80.46	54.20	72.22	22.67	59.47
KTO	64.42	63.14	83.55	55.76	76.09	38.97	63.65
ORPO	64.44	61.69	82.24	56.11	77.51	50.04	65.34
R-DPO	64.19	64.59	83.90	53.41	75.93	39.27	63.55
SimPO	64.00	65.19	83.09	59.46	77.19	31.54	63.41
Llama3-Instruct
SFT	67.06	61.01	78.57	51.66	74.35	68.69	66.89
DPO	66.88	63.99	80.78	59.01	74.66	49.81	65.86
IPO	66.52	61.95	77.90	54.64	73.09	58.23	65.39
KTO	66.38	63.57	79.51	58.15	73.40	57.01	66.34
ORPO	66.41	61.01	79.38	54.37	75.77	64.59	66.92
R-DPO	66.74	64.33	80.97	60.32	74.82	43.90	65.18
SimPO	65.63	62.80	78.33	60.70	73.32	50.72	65.25

表10： AlpacaEval 2 和 Arena-Hard 的详细结果。 LC 表示长度控制胜率，WR 表示原始胜率，STD 表示胜率标准差。长度是平均世代长度。对于 Arena-Hard，我们报告胜率和 95% 置信区间。

	AlpacaEval 2				Arena-Hard
Models	LC (%)	WR (%)	STD (%)	Length	WR	95 CI high	95 CI low	Length
Mistral-Base
SFT	8.4	6.2	1.1	914	1.3	1.8	0.9	521
DPO	15.1	12.5	1.0	1477	10.4	11.7	9.4	628
IPO	11.8	9.4	0.9	1380	7.5	8.5	6.5	674
KTO	13.1	9.1	0.9	1144	5.6	6.6	4.7	475
ORPO	14.7	12.2	1.0	1475	7.0	7.9	5.9	764
R-DPO	17.4	12.8	1.0	1335	9.9	11.1	8.4	528
SimPO	21.4	20.8	1.2	1868	16.6	18.0	15.1	699
Mistral-Instruct
SFT	17.1	14.7	1.1	1676	12.6	14.1	11.1	486
DPO	26.8	24.9	1.3	1808	16.3	18.0	15.2	518
IPO	20.3	20.3	1.2	2024	16.2	17.9	14.4	740
KTO	24.5	23.6	1.3	1901	17.9	20.3	16.1	496
ORPO	24.5	24.9	1.3	2022	20.8	22.5	19.1	527
R-DPO	27.3	24.5	1.3	1784	16.1	18.0	14.6	495
SimPO	32.1	34.8	1.4	2193	21.0	22.7	18.8	539
Llama3-Base
SFT	6.2	4.6	0.7	1082	3.3	4.0	2.6	437
DPO	18.2	15.5	1.1	1585	15.9	18.1	14.1	563
IPO	14.4	14.2	1.1	1856	17.8	19.5	16.0	608
KTO	14.2	12.4	1.0	1646	12.5	14.2	10.9	519
ORPO	12.2	10.6	0.9	1628	10.8	12.3	9.6	639
R-DPO	17.6	14.4	1.1	1529	17.2	18.5	15.7	527
SimPO	22.0	20.3	1.2	1795	23.4	25.4	21.6	704
Llama3-Instrct
SFT	26.0	25.3	1.3	1920	22.3	23.9	20.3	596
DPO	40.3	37.9	1.4	1883	32.6	34.8	30.3	528
IPO	35.6	35.6	1.4	1983	30.5	32.8	28.4	554
KTO	33.1	31.8	1.4	1909	26.4	28.7	24.3	536
ORPO	28.5	27.4	1.3	1888	25.8	27.4	23.8	535
R-DPO	41.1	37.8	1.4	1854	33.1	35.3	30.9	522
SimPO	44.7	40.5	1.4	1825	33.8	35.9	32.0	504

附录CAlpacaEval 2 和 Arena-Hard 的标准偏差

我们在表10中列出了AlpacaEval 2的标准差和Arena-Hard的95%置信区间。所有这些指标都是合理的，没有表现出任何明显的异常值或不稳定性。

附录D世代长度分析

长度归一化可减少生成长度并提高生成质量。

从 SimPO 目标中删除长度归一化会产生类似于对比偏好优化 (CPO)[80] 的方法，该方法通过监督微调损失插入奖励最大化，并在机器翻译中表现出强大的性能。然而，如果没有监督微调损失，没有长度归一化的奖励最大化目标在偏好优化中是次优的。

我们分析了在 AlpacaEval 2 和 Arena-Hard 上训练有或没有长度归一化的模型的生成长度。如图图 5所示，与大多数情况下不使用长度归一化相比，长度归一化可显着减少生成长度高达 25%。然而，即使生成长度较短，具有长度归一化的模型在两个基准上始终实现更高的获胜率。这表明长度归一化可以有效控制生成响应的冗长程度，同时提高生成质量。

长度并不是生成质量的可靠指标。

我们进一步分析了在AlpacaEval 2和Arena-Hard上使用不同方法训练的模型的生成长度，如Table10所示。一般来说，我们发现没有一种方法能够在所有设置下一致地生成更长或更短的响应。此外，尽管某些方法可能会生成更长的响应，但它们不一定能在基准测试中获得更好的胜率。这表明生成的响应的长度并不是生成质量的可靠指标。

SimPO 展示了对响应长度的最小利用。

我们观察到，在 Llalam3-Instruct 情况下，SimPO 的生成长度比 DPO 更短，但在其他设置中表现出更高的生成长度，在 AlpacaEval 2 上的响应延长了 26%。相反，与 DPO 相比，SimPO 在 Arena-Hard 上仅增加了 5% 左右的长度。可以说，生成长度在很大程度上取决于评估基准。更强有力的指标是，与原始获胜率相比，SimPO 在 AlpacaEval 2 上始终实现了更高的长度控制获胜率，这表明对响应长度的利用最小。

表11：使用 Mistral-Base 或 Mistral-Instruct 训练的 AlpacaEval 2 和 Arena-Hard 上的平均响应长度。

Model	AlpacaEval 2				Arena-Hard
	Mistral-Base		Mistral-Instruct		Mistral-Base		Mistral-Instruct
	LC (%)	Length	LC (%)	Length	WR (%)	Length	WR (%)	Length
SimPO	21.5	1868	32.1	2193	16.6	699	21.0	539
SimPO w/o LN	11.9	2345	19.1	2067	9.4	851	16.3	679

附录E梯度分析

我们检查 SimPO 和 DPO 的梯度，以了解它们对训练过程的不同影响。

\displaystyle\begin{split}\nabla_{\theta}\mathcal{L}_{\text{SimPO}}(\pi_{% \theta})&=-\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[s_{\theta}% \cdot\left(\underbrace{\frac{1}{|y_{w}|}\nabla_{\theta}\log\pi_{\theta}(y_{w}|% x)}_{\text{increase likelihood on $y_{w}$}}-\underbrace{\frac{1}{|y_{l}|}% \nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease likelihood on $y_{l}% $}}\right)\right],\\ \nabla_{\theta}\mathcal{L}_{\text{DPO}}(\pi_{\theta})&=-\beta\mathbb{E}_{(x,y_% {w},y_{l})\sim\mathcal{D}}\left[d_{\theta}\cdot\left(\underbrace{\nabla_{% \theta}\log\pi_{\theta}(y_{w}|x)}_{\text{increase likelihood on $y_{w}$}}-% \underbrace{\nabla_{\theta}\log\pi_{\theta}(y_{l}|x)}_{\text{decrease % likelihood on $y_{l}$}}\right)\right],\end{split}

(7)

在哪里

s_{\theta}=\sigma\left(\frac{\beta}{|y_{l}|}\log\pi_{\theta}(y_{l}|x)-\frac{% \beta}{|y_{w}|}\log\pi_{\theta}(y_{w}|x)+\delta\right),\quad d_{\theta}=\sigma% \left(\beta\log\frac{\pi_{\theta}(y_{l}|x)}{\pi_{\text{ref}}(y_{l}|x)}-\beta% \log\frac{\pi_{\theta}(y_{w}|x)}{\pi_{\text{ref}}(y_{w}|x)}\right)

分别表示 SimPO 和 DPO 中的梯度权重。可以看出，差异有两点：（1）对比梯度权重 $s_{\theta}$ 和 $d_{\theta}$ ，SimPO的梯度权重 $s_{\theta}$ 不涉及参考模型，有一个简单的解释：对于策略模型错误地为 $y_{l}$ 分配比 $y_{w}$ 更高的可能性的样本，权重会更高；（2）比较梯度更新，SimPO在 $y_{l}$ 和 $y_{w}$ 上的梯度是长度归一化的，而DPO则没有。这对应于 DPO 可能利用长度偏差的经验发现[60]：具有更多标记的较长序列将在 DPO 中接收更大的梯度更新，从而主导训练过程。

附录F定性分析

我们在图 6 和图 7 中分别展示了 Mistral-Base 和 Mistral-Instruct 在 AlpacaEval 2 和 Arena-Hard 上的胜率热图。基于此分析，我们提供了 SimPO 模型、DPO 模型和 AlpacaEval 2 上的基线模型 GPT-4-Preview-1106 生成的响应的定性示例。

SimPO 与 DPO 的比较。

在图8和图9中，我们提供一个示例，其中与 Mistral-Base-DPO 相比，Mistral-Base-SimPO 生成结构更好的答案。考虑到“如何确定一个人是真正对对话感兴趣还是只是出于礼貌？”的问题，DPO 模型会生成包含一长串要点的响应，这使得理解不同要点之间的关系变得困难。相比之下，SimPO 模型会生成结构良好的答案，对不同行为进行高级分类，然后针对每个类别提供详细建议。这使得答案更具可读性和更容易理解。

使用 SimPO 训练时，将 Instruct 模型与 Base 模型进行比较。

在图10中，我们展示了一个示例，其中与基线模型相比，Llama3-Instruct 生成了更详细且格式良好的答案，如下所示以及 Llama3-Base-SimPO 模型。鉴于问题：阿根廷人说什么语言？ Llama3-Base-SimPO 仅给出了非常简短的答案。 GPT-4-Preview-1106 给出了更详细的答案，解释了阿根廷西班牙语与标准西班牙语的不同之处。然而，答案的格式不太好，而且有点难以解析。 Llama3-Instruct-SimPO 给出了详细且格式良好的答案，更易于阅读和理解，并提供了足够的细节。

图8：经过 DPO 训练后，来自 MistralBase 模型的 AlpacaEval 2 代。

Input $\to$	Q: How can you determine if a person is genuinely interested in a conversation or simply being polite?
Mistral-Base DPO $\to$	As an AI, I dont́ have access to contextual information or nonverbal cues, but here are some general signs that may indicate whether someone is genuinely interested in a conversation or being polite:
	1. Active listening: A genuinely interested person will actively listen to what youŕe saying, ask questions, and provide feedback or comments. They may also maintain eye contact, nod, or use verbal cues like "uh-huh" or "I see" to show theyŕe engaged.
	2. Follow-up questions: A genuine interest in the conversation often leads to follow-up questions. If someone is asking questions that show theyŕe interested in learning more about the topic, itś a good sign theyŕe engaged.
	3. Body language: Nonverbal cues like leaning in, smiling, and mirroring your body language can indicate genuine interest. However, note that some people may have different body language styles, so this may not always be a reliable indicator.
	4. Topic continuation: If the conversation flows naturally, and both parties are contributing equally, itś a sign of mutual interest. If one person dominates the conversation or keeps steering it back to their own interests, it may indicate a lack of genuine interest.
	5. Time spent: If the conversation lasts longer than expected or planned, itś a sign that both parties are engaged and interested.
	6. Follow-up actions: If someone shows genuine interest, they may follow up with you after the conversation, whether itś through a message, email, or phone call.
	Remember, however, that sometimes people may be polite or professional, even if theyŕe not genuinely interested. Itś essential to consider the context and the relationship you have with the person to determine their level of interest accurately.

图9：使用 SimPO 训练后，来自 Mistral-Base 模型的 AlpacaEval 2 代。与DPO模型生成的输出相比，如图图8所示，SimPO的生成具有更好的结构化和层次化讨论，使得信息更清晰地呈现和可读。

Input $\to$	Q: How can you determine if a person is genuinely interested in a conversation or simply being polite?
Mistral-Base SimPO $\to$	Here are some indicators to consider:
	1. Engagement:
	- Active listening: Does the person maintain eye contact, nod, ask follow-up questions, and respond thoughtfully to what you say? Engaged individuals tend to show genuine interest by demonstrating attentiveness and participation in the conversation.
	- Initiative: Does the person take the lead in steering the conversation, expressing enthusiasm, sharing personal experiences, or asking questions beyond polite small talk? Someone who genuinely cares about the topic or connection may show initiative in keeping the discussion engaging.
	- Body language: Observe nonverbal cues such as leaning in, mirroring posture, facial expressions, and gestures that convey enthusiasm, curiosity, or openness. These signals suggest a deeper level of interest beyond mere politeness.
	2. Content and depth:
	- Topic selection: Does the person show genuine curiosity or passion about the subject matter, asking relevant questions, sharing insights, or expressing opinions? If they seem invested in exploring the topic’s nuances, it indicates a genuine interest beyond mere politeness.
	- Level of detail: Does the person provide specific examples, personal anecdotes, or elaborate on their thoughts, indicating a deeper level of engagement and investment in the conversation?
	3. Follow-up actions:
	- Continued communication: Does the person initiate further conversations, send follow-up messages, or suggest meeting up outside the initial interaction? Such actions suggest a genuine desire to maintain the connection and explore further topics, indicating a genuine interest beyond mere politeness.
	- Personalization: Does the person remember details discussed earlier, reference shared interests, or show interest in learning more about your life or experiences? Personalized interactions indicate a genuine interest in building a relationship beyond mere politeness.
	Overall, genuine interest in a conversation involves active participation, enthusiasm, depth, and follow-up actions that demonstrate a genuine desire to connect and engage beyond mere politeness.

图10： AlpacaEval 2 的案例研究表明，使用 SimPO 训练的 Llama3-Instruct 提供了比同样使用 SimPO 训练的 Llama3-Base 和基线模型 GPT-4-1106-Preview 格式更好、更详细的答案。这说明了指令设置通常如何优于基本设置。

Input $\to$	Q: what language does argentina people speak
Llama3-Base SimPO $\to$	The official language spoken in Argentina is Spanish, specifically Argentine Spanish, which shares similarities with other varieties of Spanish spoken in neighboring countries like Uruguay, Chile, and Paraguay.
Llama3-Instruct SimPO $\to$	In Argentina, the official language is Spanish. Specifically, the dialect spoken in Argentina is known as Rioplatense Spanish, which is a variation of Spanish with some unique characteristics and influences from Italian, German, and other immigrant languages.
	Rioplatense Spanish is distinguished by:
	1. Voseo: Instead of using tú (you) as the informal singular pronoun, Argentines use vos and its associated verb conjugations.
	2. Lunfardo: A slang vocabulary derived from Italian, Corsican, and other immigrant languages, which has been incorporated into everyday speech.
	3. Accent and pronunciation: Argentines tend to pronounce the "c" and "z" sounds with a soft "s" or "sh" sound, rather than a hard "th" sound like in standard Spanish.
	Overall, Argentine Spanish is known for its distinctive flavor and is widely understood throughout the Spanish-speaking world. However, it’s worth noting that there may be regional variations within Argentina, and some dialects may differ slightly from the standard Rioplatense variety.
gpt4-turbo-1106-preview $\to$	The primary language spoken in Argentina is Spanish. Specifically, the variety of Spanish spoken there is known as Rioplatense Spanish, which is characterized by its unique accent and the use of the pronoun "vos" instead of "tú" for the second person singular. Additionally, there are various indigenous languages spoken in different regions of the country, as well as immigrant languages such as Italian, German, and English, but these are much less widespread than Spanish.

SimPO：简单的偏好优化与无参考奖励

摘要

1简介