arxiv sDPO: Don't Use Your Data All at Once

名称
sDPO: Don't Use Your Data All at Once
首页
https://yiyibooks.cn/arxiv/2403.19270v1/index.html
原始地址
https://arxiv.org/abs/2403.19270
描述
随着大型语言模型 (LLM) 开发的进展,使其与人类偏好保持一致变得越来越重要。我们提出了逐步 DPO (sDPO),这是最近流行的用于对齐调整的直接偏好优化 (DPO) 的扩展。这种方法涉及划分可用的偏好数据集并逐步使用它们,而不是一次性使用它们 ...