有监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 是两个基本过程,用于增强预训练后语言模型 (LM) 的能力,使其更好地符合人类偏好。尽管 SFT 在训练效率方面取得了进步,但 RLHF 提供了更好的对齐能力,因此它们经常被结合起来。然而,常见的做法只是简单地按顺序应用它们,而没有统一其优化目标,导致在适应不同目标之间进行权衡,并忽略了弥合范式差距并汲取两者优势的机会 ...
直接偏好优化 (DPO) 是一种广泛使用的离线偏好优化算法,可根据人类反馈 (RLHF) 重新参数化强化学习中的奖励函数,以增强简单性和训练稳定性。在这项工作中,我们提出了 SimPO,这是一种更简单但更有效的方法。 SimPO 的有效性归功于一个关键设计:使用序列的平均对数概率作为隐式奖励 ...
有效利用 GPU 内存对于高吞吐量 LLM 推理至关重要。之前的系统提前为 KV 缓存保留内存,导致内部碎片导致容量浪费。受基于操作系统的虚拟内存系统的启发,vLLM 提出了 PagedAttention 来实现 KV 缓存的动态内存分配 ...
最近大型模型的突破凸显了数据规模、标签和模式的关键意义。在本文中,我们介绍了 MS MARCO Web 搜索,这是第一个大规模信息丰富的 Web 数据集,具有数百万个真实点击的查询文档标签。该数据集密切模仿现实世界的网络文档和查询分布,为各种下游任务提供丰富的信息,并鼓励各个领域的研究,例如通用端到端神经索引器模型、通用嵌入模型和下一代信息访问具有大型语言模型的系统 ...
生成拥有语义信息的口语词嵌入是一个令人着迷的话题。与基于文本的嵌入相比,它们涵盖了语音和语义特征,可以提供更丰富的信息,并且可能有助于改进 ASR 和语音翻译系统。在本文中,我们回顾并检验了该领域一项开创性工作的真实性:Speech2Vec ...
这项工作提出了 BAdam,这是一种优化器,它利用以 Adam 作为内部求解器的块坐标优化框架。 BAdam 提供了一种内存有效的方法来对大型语言模型进行全参数微调,并由于链式规则属性而减少了后向过程的运行时间。实验上,我们使用 BAdam 使用单个 RTX3090-24GB GPU 在 Alpaca-GPT4 数据集上对 Llama 2-7B 模型进行指令调整 ...
对长文本进行建模一直是自然语言处理(NLP)领域的一项重要技术。随着长文档数量的不断增加,开发能够处理和分析此类文本的有效建模方法非常重要。然而,长文本具有更复杂的语义和特殊的特征,对现有文本模型提出了重要的研究挑战 ...
随着 LLM 参数的扩展,微调整个模型的计算成本变得令人望而却步。为了应对这一挑战,我们引入了 PEFT 方法、主奇异值和奇异向量自适应(PiSSA),它可以优化显着减小的参数空间,同时实现或超越全参数微调的性能。 PiSSA 受到 Intrinsic SAID 的启发,它表明预先训练的、过度参数化的模型存在于低内在维度的空间中 ...
我们提出了 QLoRA,这是一种高效的调整方法,可减少内存使用量,要求在单个 48GB GPU 上调整 65B 参数模型,同时保留完整的 16 位调整任务性能。 QLoRA 通过冻结的 4 位量化预训练语言模型将瞬时逆向传播到低阶骆驼(LoRA)中。我们最好的模型系列(我们将其命名为guanaco)在Vicuna基准测试中的表现堪比所有之前公开发布的模型,达到99 ... ...
高效的微调对于使大型语言模型 (LLM) 适应下游任务至关重要。然而,在不同的模型上实现这些方法需要付出很大的努力。我们推出了 LlamaFactory,一个集成了一套尖端高效训练方法的统一框架 ...