在本文中,我们研究了潜在增强大型语言模型(LLM)数学推理能力的潜在因素。我们认为,现代 LLM 数学推理能力的数据缩放定律远未达到饱和,这凸显了模型的质量如何随着数据量的增加而提高。为了支持这一说法,我们引入了 Skywork-Math 模型系列,使用我们提出的 2 对常见 7B LLM 进行监督微调 (SFT) ...

0 0 0 0 2024/07/15 arXiv:2407.08348v1 mlp

大多数语言模型预训练框架将多个文档连接成固定长度的序列,并使用因果屏蔽来计算每个标记在给定上下文的情况下的可能性;该策略因其简单和高效而被广泛采用。然而,迄今为止,预训练序列组成策略对模型泛化特性的影响仍未得到充分探索。在这项工作中,我们发现应用因果屏蔽可能会导致在预训练期间包含来自先前文档的干扰信息,这会对模型在语言建模和下游任务上的性能产生负面影响 ...

0 0 0 0 2024/05/22 arXiv:2402.13991v1 mlp

将大型语言模型 (LLM) 与人类结合起来是在各种语言任务中有效利用其预先训练的能力的关键一步。当前的指令调优实践通常依赖于扩展数据集大小,而没有明确的策略来确保数据质量,这可能会无意中引入噪声并降低模型性能。为了应对这一挑战,我们引入了 Nuggets,这是一种新颖且高效的方法,它采用一次性学习从广泛的数据集中选择高质量的指令数据 ...

0 0 0 0 2024/05/04 arXiv:2312.10302v3 mlp

与人类偏好保持一致可以防止大型语言模型 (LLM) 生成误导性或有毒内容,同时需要高成本的人类反馈。假设人类注释资源有限,有两种不同的分配方式可供考虑:更多样化的提示或更多样化的待标记响应。尽管如此,它们的影响之间还没有直接的比较 ...

0 1 0 0 2024/05/03 arXiv:2403.11124v2 mlp

Mixtral是一种代表性的稀疏专家混合(SMoE)语言模型,由于其独特的模型设计和优越的性能而受到广泛关注。在Mixtral-8x7B-v0.1的基础上,本文提出了Chinese-Mixtral和Chinese-Mixtral-Instruct,通过进一步的预训练和指令微调,提高了汉语能力 ...

0 0 0 0 2024/05/03 arXiv:2403.01851v1 mlp

指令调优有潜力激发或增强大型语言模型(LLM)的特定功能。然而,实现数据的正确平衡对于防止灾难性遗忘和任务之间的干扰至关重要。为了解决这些限制并提高训练灵活性,我们提出了-Loras(MOA)的混合物架构 ...

0 0 0 0 2025/04/14 arXiv:2403.03432v1 mlp

“越大越好”是最近大型语言模型(LLM)开发的主要趋势。然而,LLM 不太适合需要设备上处理、能源效率、低内存占用和响应效率的场景。这些必要条件对于隐私、安全和可持续部署至关重要 ...

0 0 0 0 2024/05/03 arXiv:2402.16840v1 mlp

随着大型语言模型(LLM)的使用不断增长,使用这些模型进行高效推理变得越来越重要。虽然推测解码最近已成为加速推理的一个有前景的方向,但现有方法在聚类更大的推测预算以及适应不同的超参数和硬件方面的能力获得。 本文介绍了 Sequoia,一种可扩展、坚固且硬件设备的推测算法 ... ...

0 0 0 0 2025/01/07 arXiv:2402.12374v2 mlp

最近,大型语言模型(LLM)表现出了非凡的能力,包括理解上下文、进行逻辑推理和生成响应。然而,这是以严格的计算和内存要求为代价实现的,阻碍了它们有效支持长输入序列的能力。这项调查对旨在延长 LLM 序列长度的最新技术和方法进行了包容性回顾,从而增强了他们的长上下文理解能力 ...

0 1 0 0 2024/05/03 arXiv:2402.02244v1 mlp

虽然从头开始训练大型语言模型(LLM)可以生成具有独特功能和优势的模型,但其成本很高,并且可能会导致功能发音。或者,一种经济有效且引人注目的方法足以显现有的预训练LLM合并到更有效的模型中。然而,由于这些LLM的架构不同,直接混合它们的权重是不切实际的... ...

0 0 0 0 2024/11/28 arXiv:2401.10491v2 mlp

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)