这项工作将各向异性参数分布确定为具有低位量化的大型语言模型(LLMS)的基本障碍:一些主要的奇异值会产生与块量化固定质量固有偏见相冲突的宽数值范围。这种偏见不成比例地保留了高磁性值,同时丢弃较小的值,从而导致训练不稳定和模型性能较低。这项工作引入了METIS,这是一个训练框架,将光谱分解与随机嵌入结合在一起,以有效地将巨大的长尾组件占主导地位,从而将广泛的分布压缩为量化范围的狭窄范围; (ii)光谱领域中的自适应学习率,以扩大代表性不足的方向,并更好地捕获对性能至关重要的多种功能; (iii)一个双范围的正常化程序,共同约束数值精度和参数范围分布,确保稳定,无偏置的低位训练 ...

0 0 0 0 2025/09/03 arXiv:2509.00404v1 felixslu

基于 Transformer 的架构的最新进展表明,在视频生成任务中取得了巨大的成功。但是,全部注意机制的二次复杂性仍然是关键的瓶颈,尤其是对于高分辨率和长期视频序列。在本文中,我们提出了Nabla,Nabla是一种新型的邻域自适应块层的注意机制,该机制动态适应了视频扩散 Transformer (DITS)中的稀疏模式 ...

0 0 0 0 2025/08/20 arXiv:2507.13546v1 felixslu

自我发项机制的计算需求对基于 Transformer 的视频生成构成了关键挑战,尤其是在综合超长序列方面。当前的方法,例如分解的注意力和固定的稀疏模式,无法完全利用视频数据中固有的时空冗余。通过对视频扩散 Transformer (DIT)的系统分析,我们发现了一个关键的见解:注意矩阵展示了结构化但异质的稀疏模式,其中专业的头部动态地进入不同的时空区域(e ...

0 0 0 0 2025/08/20 arXiv:2508.12969v1 felixslu

量化感知培训(QAT)将量化整合到训练环中,使LLMS能够学习强大的低位表示,并被广泛认为是最有前途的研究方向之一。当前的所有QAT研究都侧重于最大程度地减少全精度模型上的量化误差,在该模型中,完整精度充当上限(精度天花板)。现有的方法甚至没有试图超越此天花板 ...

0 0 0 0 2025/08/08 arXiv:2508.05571v1 felixslu

随着大型语言模型(LLMS)的快速缩放对在资源受限设备上的部署提出了重大挑战,因此对极低位量化(例如2位)的兴趣越来越大。尽管先前的作品表明,在精度和延迟方面,2位大型模型在其4位较小的较小对应物上是最佳的,但这些进步仅限于预先训练的LLMS,并且尚未扩展到指令调整模型。为了弥合这一差距,我们提出了统一的渐进量量化(UPQ)$ - $一种新型的渐进量化框架(FP16 $ \ rightArow $ int4 $ \ rightarrow $ int2),该框架将基于基于蒸馏的量化后量化培训(PTQ)统一限制的块培训后量化(PTQ),以实用量化量化的量化量化量化量化(Distrization-QAT),以实现Int2指导量化量化2量化 ...

0 0 0 0 2025/08/06 arXiv:2506.09104v1 felixslu

我们介绍了两种多语言的多式联运基础语言模型,这些模型为Apple Intelligence提供了跨苹果设备和服务的功能:我是通过建筑创新(例如KV-CACHE共享和2位量化量化的培训)为Apple Silicon优化的3B参数的启动式车型模型; II以新型的并行轨道混合物为PT-MOE Transformer 建立的可扩展服务器模型,结合了轨道并行性,Experters稀疏计算的混合物以及相互交织的全球位置关注,以在Apple的私有云计算平台上提供高质量的质量,并具有竞争力的成本。这两种模型均经过大规模多语言和多模式数据集的培训,这些数据集是通过负责任的网络爬行,许可的语料库和高质量合成数据来源的,然后在新的异步平台上通过有监督的微调和增强学习进一步完善。最终的模型支持几种其他语言,同时了解图像和执行工具调用 ...

0 0 0 0 2025/08/06 arXiv:2507.13575v1 felixslu

大型语言模型(LLM)在各个领域都取得了令人兴奋的成就,但是它们在资源受限的个人设备上的部署仍然受到了特定于任务特定的微调的过度计算和内存需求的阻碍。虽然量化提供了效率的途径,但现有的方法难以平衡性能和间接费用,要么产生高计算/记忆成本,要么无法解决激活异常值,这是量化微调的关键瓶颈。为了应对这些挑战,我们提出了离群的空间稳定性假设(OSSH):在微调期间,某些激活离群值渠道在训练迭代中保留稳定的空间位置 ...

0 0 0 0 2025/07/30 arXiv:2505.14742v2 felixslu

将大语模型(LLM)的权重量化从16位到较低的位宽是事实上,将大量 Transformer 部署到更实惠的加速器上。 GPTQ成为以LLM量表进行一次训练后培训量化的标准方法之一。然而,它的内部工作被描述为一系列临时代数更新,这些更新掩盖了任何几何含义或最差的保证 ...

0 0 0 0 2025/07/28 arXiv:2507.18553v1 felixslu

部署大型语言模型(LLM)由于其大量参数和高计算成本而具有挑战性。超低位量化可以显着降低存储和加速推理,但极端压缩(即 ...

0 0 0 0 2025/07/28 arXiv:2507.18073v1 felixslu

训练后量化(PTQ)通过将完整的精度重量映射到低位重量而无需昂贵的重新训练的情况下,可以减少模型的内存足迹,但可以降低其下游性能,尤其是在低2到3位设置中。我们开发了一种新的混合精液PTQ方法,即任务电路量化(TACQ),该方法与自动化电路发现相似,将量化过程直接调节到特定的重量电路上 - 我们将其定义为与下游任务性能相关的一组权重。这些权重保持为16位的权重,而其他权重进行量化,保持性能,同时仅增加了边际记忆成本 ...

0 0 0 0 2025/07/23 arXiv:2504.07389v2 felixslu