基本信息

文件基本信息

名称

Constraint Back-translation Improves Complex Instruction Following of Large Language Models

首页

https://yiyibooks.cn/arxiv/2410.24175v2/index.html

原始地址

https://arxiv.org/pdf/2410.24175

描述

大型语言模型（LLM）很难遵循格式、长度等方面具有复杂约束的指令。按照传统的指令调优实践，以前的工作对通过向高级 LLM 提供复杂指令而生成的复杂指令-响应对进行后训练。然而，即使是高级 LLM 也无法很好地遵循复杂的指令，从而限制了生成数据的质量。在这项工作中，我们发现现有数据集本质上包含隐式复杂约束，并提出了一种新颖的数据生成技术，即约束反向翻译。具体来说，我们采用现有数据集中的高质量指令-响应对，并且仅采用高级 LLM 来添加指令响应已满足的复杂约束，这自然会降低成本和数据噪声。在实验中，我们采用 Llama3-70B-Instruct 来反向翻译约束并创建一个高质量的复杂指令响应数据集，命名为 CRAB。我们提出，CRAB 的后培训提高了多个骨干 LLM 的复杂指令跟踪能力，并在广泛的指令跟踪基准上进行了评估。我们进一步发现约束反向翻译也可以作为后训练中有用的辅助训练目标。我们的代码、数据和模型将被发布，以方便未来的研究 ...