基本信息 - sDPO: Don't Use Your Data All at Once

arxiv sDPO: Don't Use Your Data All at Once

阅读

Star 1

名称: sDPO: Don't Use Your Data All at Once

首页: https://yiyibooks.cn/arxiv/2403.19270v1/index.html

原始地址: https://arxiv.org/abs/2403.19270

描述

随着大型语言模型 (LLM) 开发的进展，使其与人类偏好保持一致变得越来越重要。我们提出了逐步 DPO (sDPO)，这是最近流行的用于对齐调整的直接偏好优化 (DPO) 的扩展。这种方法涉及划分可用的偏好数据集并逐步使用它们，而不是一次性使用它们 ...