低精度训练和推理会影响语言模型的质量和成本,但当前的缩放法则并未考虑到这一点。在这项工作中,我们为训练和推理设计了“精确感知”的缩放法则。我们建议,较低精度的训练会减少模型的“有效参数计数”,使我们能够预测低精度训练和训练后量化所产生的额外损失 ...
在本文中,我们介绍了Hunyuan-Large,它是目前最大的开源的基于Transformer的专家混合模型,总共有3890亿个参数和520亿个激活参数,能够处理多达256K个 Token 。我们对Hunyuan-Large在语言理解和生成、逻辑推理、数学问题解决、编码、长上下文和聚合任务等各种基准测试中的卓越性能进行了全面评估,其性能优于LLama3.1-70B并表现出可比的性能与更大的 LLama3 相比 ...
作为最经典的深度学习技术之一,Transformer架构赋能了大规模先进模型,尤其是包含存储亿参数的大型语言模型(LLM),成为深度学习的基石。虽然取得了令人惊叹的成就,Transformers 仍然面临着固有的局限性,特别是注意力计算的二次计算复杂性导致的运行推理。最近,一种名为 Mamba 的新颖架构从经典状态空间模型 (SSM) 中汲取灵感,已成为构建基础模型的有前景的替代方案,提供与 Transformer 相当的建模能力,同时保留相关序列长度的近线性可扩展性... ...
就计算和内存成本而言,微调大规模预训练模型的成本极其昂贵。 LoRA 作为最流行的参数高效微调(PEFT)方法之一,通过微调参数少得多的辅助低秩模型,提供了一种经济高效的替代方案。尽管 LoRA 在每次迭代中显着降低了计算和内存需求,但大量的经验证据表明,与完全微调相比,它的收敛速度要慢得多,最终导致整体计算量增加,并且测试性能往往更差 ...
我们推出 TacoBot,这是一种以用户为中心、面向任务的数字助理,旨在引导用户通过多个步骤完成复杂的现实任务。我们涵盖广泛的烹饪和操作方法任务,旨在提供协作且引人入胜的对话体验。 TacoBot 配备了由强大的搜索引擎支持的语言理解、对话管理和响应生成组件,可确保高效的任务协助 ...
大型语言模型(LLM)已应用于各个领域的许多研究问题。 LLM 的应用之一是提供迎合不同领域用户的问答系统。基于 LLM 的问答系统的有效性已经达到了可接受的水平,可供用户在流行和公共领域(例如琐事和文学)提出问题 ...
大型语言模型预训练的数据混合会对性能产生显着影响,但如何确定有效的混合仍然是雅典娜。我们建议RegMix通过将其制定的回归任务来自动识别数据混合。RegMix涉及使用不同的数据混合训练一组小模型,并返回回归模型以预测它们各自混合的性能... ...
当代主要推荐系统依赖于良好的过滤技术,利用ID嵌入来捕获用户和项目之间的潜在关联。然而,这种方法忽略了项目文本描述中嵌入的丰富语义信息,导致冷启动场景和长尾用户推荐利用在海量语言料库上预训练的大型语言模型(LLM)的功能,为通过集成开放世界领域知识来增强推荐系统提供了一条有前景的途径... ...
将大型语言模型(LLM)与人类目标保持一致对于实际应用至关重要。然而,LLM以进行校准通常会受到训练不稳定的影响,并且需要大量的计算资源。测试时校准技术(例如提示和)引导解码)不会修改底层模型,并且它们的性能仍然依赖于原始模型的功能... ...
随着 LLM 参数的扩展,微调整个模型的计算成本变得令人望而却步。为了应对这一挑战,我们引入了 PEFT 方法、主奇异值和奇异向量自适应(PiSSA),它可以优化显着减小的参数空间,同时实现或超越全参数微调的性能。 PiSSA 受到 Intrinsic SAID 的启发,它表明预先训练的、过度参数化的模型存在于低内在维度的空间中 ...