专家(MOE)模型的稀疏激活混合物为传统密集激活(致密)模型提供了有希望的替代品,从而提高了质量和计算效率。但是,从头开始培训MOE模型需要大量的数据和计算资源。此外,像蒂姆(Timm)这样的公共存储库主要提供预先训练的密集检查站,缺乏类似的MOE模型资源,从而阻碍了其采用 ...

0 0 0 0 2025/05/27 arXiv:2406.04801v1 jingxi

随着人工智能的进步,Experts(MOE)的组合已成为大型语言模型(LLM)的主要形式,其对模型压缩的需求正在增加。量化是一种有效的方法,不仅可以压缩模型,而且可以显着加速其性能。现有的量化方法已逐渐将重点从参数缩放转移到数据分布的分析 ...

0 0 0 0 2025/05/23 arXiv:2503.21135v2 jingxi

FP4精度中的训练前 Transformer 正在成为一种有前途的方法,以获得大幅加速,但准确性丧失。显微镜(MX)数据格式提供了一种细粒度的每组量化方法,以提高FP4格式的表示能力,并由下一代Blackwell GPU体系结构支持。但是,使用MXFP4数据格式的培训仍然会导致大量降级,并且缺乏对原因的系统研究 ...

0 0 0 0 2025/05/10 arXiv:2502.20853v1 jingxi

最近,大型语言模型(LLM)能够处理越来越长的上下文。但是,时间太长可能会导致不宽容的推理潜伏期和GPU内存使用量。现有方法将基于 Token 粒度的LLMS中的键值(KV)缓存提出了混合精确量化,该粒度在搜索过程中耗时,计算过程中的硬件效率低下 ...

0 0 0 0 2025/04/03 arXiv:2503.23294v1 jingxi

量化和混合精确方法的最新进展为提高神经网络(NN)的速度和能源效率提供了大量机会。研究表明,精确度较低的各个参数可以达到与全精度相当的准确性。但是,现代嵌入式的微处理器为混合精液NNS提供了非常有限的支持,即有关指令集架构(ISA)扩展及其硬件设计,以有效执行混合精液操作,即 ...

0 0 0 0 2025/03/26 arXiv:2407.14274v2 jingxi

FP8 训练已成为一种有前途的提高训练效率的方法。现有框架通过将 FP8 计算应用于线性层来加速训练,同时使优化器状态和激活保持更高精度,但这无法完全优化内存使用。本文介绍了 COAT(FP8 训练的压缩优化器状态和激活),这是一种新颖的 FP8 训练框架,旨在在训练大型模型时显着减少内存占用 ...

0 0 0 0 2025/03/07 arXiv:2410.19313v3 jingxi

在大型语言模型(LLM)的复杂领域中,在计算效率和维持模型质量之间达到平衡是一个巨大的挑战。这项研究涉及统一量化的固有局限性,尤其是在与异常值打交道时,并由NVIDIA的H100硬件推出时,该研究深入研究了浮点(FP)量化的可行性,尤其是针对FP8和FP4的可行性。我们的全面调查表明,对于LLM,FP8激活始终超过其整数(INT8)等效物,并且性能边缘在具有超过十亿亿以上参数的模型中变得越来越明显 ...

0 0 0 0 2025/02/28 arXiv:2307.09782v2 jingxi

低精度培训被认为是减少培训和下游推理成本的有效策略。先前的缩放定律的精确定律主要集中于整数量化,在浮点量化中,对成分的关注较少,因此在这种情况下不能很好地适应LLM损失。相比之下,虽然浮点量化训练在生产中更常见,但对其的研究却相对表面 ...

0 0 0 0 2025/02/28 arXiv:2501.02423v1 jingxi

有效的大型语言模型(LLMS)需要低位量化以最大程度地减少模型大小和推理成本。而低位整数格式(例如 ...

0 0 0 0 2025/02/28 arXiv:2305.12356v1 jingxi

随着大型语言模型 (LLM) 的快速扩展,结构化剪枝已成为一种广泛使用的技术,可以从较大的模型中学习高效、较小的模型,与从头开始训练类似大小的模型相比,可以提供卓越的性能。在本文中,我们超越了为模型确定固定剪枝掩模的传统静态剪枝方法,并提出了一种动态的结构化剪枝方法。在我们的方法中,修剪掩码依赖于输入,并根据用户指令中描述的信息动态调整 ...

0 0 0 0 2025/01/08 arXiv:2501.02086v1 jingxi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)