优化大型语言模型(LLMS)的长篇小说推理的主要挑战之一在于键值(KV)缓存的高内存消耗。现有的方法(例如量化)已经证明了减少记忆使用情况的有希望的结果。但是,当前的量化方法不能同时考虑有效性和效率 ...

0 0 0 0 2025/06/24 arXiv:2506.07533v1 jingxi

大型的多模式混合物(MOE)有效地扩展了模型大小,以增强性能,同时保持固定的活动参数。但是,以前的作品主要在稀疏的上循环期间利用完整精确的专家。尽管他们在最终任务上表现出卓越的性能,但大量专家仍引入了更高的内存足迹,这对边缘设备上的部署构成了重大挑战 ...

0 0 0 0 2025/06/24 arXiv:2506.14435v1 jingxi

大型语言模型~(LLM)已成为自然语言处理领域的基础,随着模型大小的增加,性能得到提高。 Mixture-of-Experts~(MoE) 方法提供了一种有前途的方法,通过稀疏激活使用更少的计算 FLOP,更有效地扩展 LLM。然而,它会产生大量的内存开销,因此需要模型压缩技术 ...

0 0 0 0 2025/06/24 arXiv:2406.08155v2 jingxi

专家(MOE)模型的混合物已通过有效分发计算和增强性能来成为大规模深度学习的基石。但是,它们的独特体系结构通过稀疏的专家激活和动态路由机制引入了引入固有的复杂性,这些复杂性挑战了常规量化技术。现有的训练后量化(PTQ)方法难以解决激活异常值,路由器一致性和稀疏专家校准,从而导致绩效降低 ...

0 0 0 0 2025/06/23 arXiv:2506.13329v1 jingxi

专家(MOE)模型的稀疏激活混合物为传统密集激活(致密)模型提供了有希望的替代品,从而提高了质量和计算效率。但是,从头开始培训MOE模型需要大量的数据和计算资源。此外,像蒂姆(Timm)这样的公共存储库主要提供预先训练的密集检查站,缺乏类似的MOE模型资源,从而阻碍了其采用 ...

0 0 0 0 2025/05/27 arXiv:2406.04801v1 jingxi

随着人工智能的进步,Experts(MOE)的组合已成为大型语言模型(LLM)的主要形式,其对模型压缩的需求正在增加。量化是一种有效的方法,不仅可以压缩模型,而且可以显着加速其性能。现有的量化方法已逐渐将重点从参数缩放转移到数据分布的分析 ...

0 0 0 0 2025/05/23 arXiv:2503.21135v2 jingxi

FP4精度中的训练前 Transformer 正在成为一种有前途的方法,以获得大幅加速,但准确性丧失。显微镜(MX)数据格式提供了一种细粒度的每组量化方法,以提高FP4格式的表示能力,并由下一代Blackwell GPU体系结构支持。但是,使用MXFP4数据格式的培训仍然会导致大量降级,并且缺乏对原因的系统研究 ...

0 0 0 0 2025/05/10 arXiv:2502.20853v1 jingxi

最近,大型语言模型(LLM)能够处理越来越长的上下文。但是,时间太长可能会导致不宽容的推理潜伏期和GPU内存使用量。现有方法将基于 Token 粒度的LLMS中的键值(KV)缓存提出了混合精确量化,该粒度在搜索过程中耗时,计算过程中的硬件效率低下 ...

0 0 0 0 2025/04/03 arXiv:2503.23294v1 jingxi

量化和混合精确方法的最新进展为提高神经网络(NN)的速度和能源效率提供了大量机会。研究表明,精确度较低的各个参数可以达到与全精度相当的准确性。但是,现代嵌入式的微处理器为混合精液NNS提供了非常有限的支持,即有关指令集架构(ISA)扩展及其硬件设计,以有效执行混合精液操作,即 ...

0 0 0 0 2025/03/26 arXiv:2407.14274v2 jingxi

FP8 训练已成为一种有前途的提高训练效率的方法。现有框架通过将 FP8 计算应用于线性层来加速训练,同时使优化器状态和激活保持更高精度,但这无法完全优化内存使用。本文介绍了 COAT(FP8 训练的压缩优化器状态和激活),这是一种新颖的 FP8 训练框架,旨在在训练大型模型时显着减少内存占用 ...

0 0 0 0 2025/03/07 arXiv:2410.19313v3 jingxi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)