作为最具代表性的深度学习技术之一,Transformer架构赋能了众多先进模型,尤其是包含数十亿参数的大型语言模型(LLM),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers 仍然面临着固有的局限性,特别是注意力计算的二次计算复杂性导致的耗时推理。最近,一种名为 Mamba 的新颖架构从经典状态空间模型 (SSM) 中汲取灵感,已成为构建基础模型的有前途的替代方案,提供与 Transformer 相当的建模能力,同时保留有关序列长度的近线性可扩展性 ...

0 0 0 0 2024/08/27 arXiv:2408.01129v3 oscarhscc

就计算和内存成本而言,微调大规模预训练模型的成本极其昂贵。 LoRA 作为最流行的参数高效微调(PEFT)方法之一,通过微调参数少得多的辅助低秩模型,提供了一种经济高效的替代方案。尽管 LoRA 在每次迭代中显着降低了计算和内存需求,但大量的经验证据表明,与完全微调相比,它的收敛速度要慢得多,最终导致整体计算量增加,并且测试性能往往更差 ...

0 0 0 0 2024/08/05 arXiv:2407.05000v2 oscarhscc

本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一整套基础和指令调整的语言模型,参数范围从 0.5 到 720 亿,具有密集模型和专家混合模型 ...

0 0 0 0 2024/07/17 arXiv:2407.10671v2 oscarhscc

我们推出 TacoBot,这是一种以用户为中心、面向任务的数字助理,旨在引导用户通过多个步骤完成复杂的现实任务。我们涵盖广泛的烹饪和操作方法任务,旨在提供协作且引人入胜的对话体验。 TacoBot 配备了由强大的搜索引擎支持的语言理解、对话管理和响应生成组件,可确保高效的任务协助 ...

0 0 0 0 2024/07/16 arXiv:2307.16081v1 oscarhscc

大型语言模型(LLM)已应用于各个领域的许多研究问题。 LLM 的应用之一是提供迎合不同领域用户的问答系统。基于 LLM 的问答系统的有效性已经达到了可接受的水平,可供用户在流行和公共领域(例如琐事和文学)提出问题 ...

0 0 0 0 2024/07/16 arXiv:2407.07321v1 oscarhscc

大型语言模型预训练的数据混合会显着影响性能,但如何确定有效的混合仍不清楚。我们建议 RegMix 通过将其制定为回归任务来自动识别高性能数据混合物。 RegMix 涉及使用不同的数据混合训练一组小模型,并拟合回归模型以预测它们各自混合的性能 ...

0 0 0 0 2024/07/05 arXiv:2407.01492v1 oscarhscc

当代推荐系统主要依赖于协同过滤技术,利用 ID 嵌入来捕获用户和项目之间的潜在关联。然而,这种方法忽略了项目文本描述中嵌入的丰富语义信息,导致冷启动场景和长尾用户推荐中的性能不佳。利用在海量文本语料库上预训练的大型语言模型 (LLM) 的功能,为通过集成开放世界领域知识来增强推荐系统提供了一条有前途的途径 ...

0 0 0 0 2024/06/27 arXiv:2405.03988v1 oscarhscc

将大型语言模型 (LLM) 与人类目标保持一致对于实际应用至关重要。然而,微调 LLM 以进行对齐通常会受到训练不稳定的影响,并且需要大量的计算资源。测试时对齐技术(例如提示和引导解码)不会修改底层模型,并且它们的性能仍然依赖于原始模型的功能 ...

0 0 0 0 2024/06/25 arXiv:2406.05954v2 oscarhscc

随着 LLM 参数的扩展,微调整个模型的计算成本变得令人望而却步。为了应对这一挑战,我们引入了 PEFT 方法、主奇异值和奇异向量自适应(PiSSA),它可以优化显着减小的参数空间,同时实现或超越全参数微调的性能。 PiSSA 受到 Intrinsic SAID 的启发,它表明预先训练的、过度参数化的模型存在于低内在维度的空间中 ...

0 0 0 0 2024/06/20 arXiv:2404.02948v3 oscarhscc

有监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 是两个基本过程,用于增强预训练后语言模型 (LM) 的能力,使其更好地符合人类偏好。尽管 SFT 在训练效率方面取得了进步,但 RLHF 提供了更好的对齐能力,因此它们经常被结合起来。然而,常见的做法只是简单地按顺序应用它们,而没有统一其优化目标,导致在适应不同目标之间进行权衡,并忽略了弥合范式差距并汲取两者优势的机会 ...

0 1 0 0 2024/05/29 arXiv:2405.11870v2 oscarhscc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)