本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一整套基础和指令调整的语言模型,参数范围从 0.5 到 720 亿,具有密集模型和专家混合模型 ...
我们推出 TacoBot,这是一种以用户为中心、面向任务的数字助理,旨在引导用户通过多个步骤完成复杂的现实任务。我们涵盖广泛的烹饪和操作方法任务,旨在提供协作且引人入胜的对话体验。 TacoBot 配备了由强大的搜索引擎支持的语言理解、对话管理和响应生成组件,可确保高效的任务协助 ...
大型语言模型(LLM)已应用于各个领域的许多研究问题。 LLM 的应用之一是提供迎合不同领域用户的问答系统。基于 LLM 的问答系统的有效性已经达到了可接受的水平,可供用户在流行和公共领域(例如琐事和文学)提出问题 ...
大型语言模型预训练的数据混合会显着影响性能,但如何确定有效的混合仍不清楚。我们建议 RegMix 通过将其制定为回归任务来自动识别高性能数据混合物。 RegMix 涉及使用不同的数据混合训练一组小模型,并拟合回归模型以预测它们各自混合的性能 ...
当代推荐系统主要依赖于协同过滤技术,利用 ID 嵌入来捕获用户和项目之间的潜在关联。然而,这种方法忽略了项目文本描述中嵌入的丰富语义信息,导致冷启动场景和长尾用户推荐中的性能不佳。利用在海量文本语料库上预训练的大型语言模型 (LLM) 的功能,为通过集成开放世界领域知识来增强推荐系统提供了一条有前途的途径 ...
将大型语言模型 (LLM) 与人类目标保持一致对于实际应用至关重要。然而,微调 LLM 以进行对齐通常会受到训练不稳定的影响,并且需要大量的计算资源。测试时对齐技术(例如提示和引导解码)不会修改底层模型,并且它们的性能仍然依赖于原始模型的功能 ...
随着 LLM 参数的扩展,微调整个模型的计算成本变得令人望而却步。为了应对这一挑战,我们引入了 PEFT 方法、主奇异值和奇异向量自适应(PiSSA),它可以优化显着减小的参数空间,同时实现或超越全参数微调的性能。 PiSSA 受到 Intrinsic SAID 的启发,它表明预先训练的、过度参数化的模型存在于低内在维度的空间中 ...
有监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 是两个基本过程,用于增强预训练后语言模型 (LM) 的能力,使其更好地符合人类偏好。尽管 SFT 在训练效率方面取得了进步,但 RLHF 提供了更好的对齐能力,因此它们经常被结合起来。然而,常见的做法只是简单地按顺序应用它们,而没有统一其优化目标,导致在适应不同目标之间进行权衡,并忽略了弥合范式差距并汲取两者优势的机会 ...
直接偏好优化 (DPO) 是一种广泛使用的离线偏好优化算法,可根据人类反馈 (RLHF) 重新参数化强化学习中的奖励函数,以增强简单性和训练稳定性。在这项工作中,我们提出了 SimPO,这是一种更简单但更有效的方法。 SimPO 的有效性归功于一个关键设计:使用序列的平均对数概率作为隐式奖励 ...
有效利用 GPU 内存对于高吞吐量 LLM 推理至关重要。之前的系统提前为 KV 缓存保留内存,导致内部碎片导致容量浪费。受基于操作系统的虚拟内存系统的启发,vLLM 提出了 PagedAttention 来实现 KV 缓存的动态内存分配 ...