随着大型语言模型 (LLM) 的不断扩展,部署越来越受到内存墙的瓶颈,从而促使向极低位量化的转变。然而,大多数量化感知训练(QAT)方法从训练开始就应用硬舍入和直通估计器(STE),这会过早地离散化优化景观,并导致潜在权重和量化权重之间持续的梯度不匹配,从而阻碍量化模型的有效优化。为了解决这个问题,我们提出了 Hestia,一种用于极低位 LLM 的 Hessian 引导的可微 QAT 框架,它用温度控制的 Softmax 松弛代替了刚性阶跃函数,以在训练早期保持梯度流,同时逐渐强化量化。此外,Hestia 利用张量 Hessian 迹度量作为轻量级曲率信号来驱动细粒度温度退火,从而实现整个模型的灵敏度感知离散化。对 Llama-3.2 的评估表明,Hestia 始终优于现有的三元 QAT 基线,1B 和 3B 模型的平均零样本改进为 5.39% 和 4.34%。这些结果表明 Hessian 引导的松弛有效地恢复了表征能力,为 1.58 位 LLM 建立了更稳健的训练路径。该代码可从此 https URL 获取 ...

0 0 0 0 2026/02/09 arXiv:2601.20745v1 felixslu

Diffusion Transformer,特别是用于视频生成的,实现了卓越的质量,但受到二次注意力复杂性的影响,导致令人望而却步的延迟。现有的加速方法面临着一个基本的权衡:在每个去噪步骤中动态估计稀疏注意力模式会产生高计算开销和估计误差,而静态稀疏模式在整个去噪过程中保持固定并且通常不是最优的。我们确定了扩散注意力的一个关键结构特性,即其稀疏模式在去噪步骤中表现出很强的时间一致性。在步骤 $t$ 中被视为非必需的图块通常在步骤 $t+\delta$ 中仍然如此。利用这一观察结果,我们引入了 LiteAttention,一种利用时间相干性使进化计算能够跳过去噪序列的方法。通过尽早标记非必要的图块并向前传播跳过决策,LiteAttention 消除了冗余的注意力计算,而无需重复的分析开销,将动态方法的适应性与静态方法的效率结合起来。我们在 FlashAttention 之上实现了高度优化的 LiteAttention 内核,并展示了生产视频扩散模型的显着加速,而质量没有下降。代码和实施细节将公开发布 ...

0 0 0 0 2025/11/17 arXiv:2511.11062v1 felixslu

对计算效率的追求推动了训练 Transformer 模型采用低精度格式。然而,这种进步常常受到臭名昭著的训练不稳定的阻碍。本文为一个长期存在且未解决的故障案例提供了第一个机制解释,即在低精度设置中进行闪光注意力训练会导致灾难性的损失爆炸 ...

0 0 0 0 2025/10/31 arXiv:2510.04212v2 felixslu

量化是降低大型语言模型(LLM)部署成本的有效技术,训练后量化(PTQ)由于其效率而得到了广泛的研究。然而,现有的 PTQ 方法由于无法微调模型参数而受到限制,并且在低位场景下常常会遭受显着的精度损失。量化感知训练 (QAT) 提供了一种更有原则性的解决方案,但它对反向传播的依赖会产生过高的内存成本,限制了它在 LLM 部署中的实用性 ...

0 0 0 0 2025/10/27 arXiv:2509.00031v2 felixslu

当使用模拟量化训练神经网络时,我们观察到量化权重可能会出人意料地在两个网格点之间振荡。这种效应的重要性及其对量化感知训练(QAT)的影响尚未得到充分理解或在文献中进行研究。在本文中,我们深入研究了权重振荡现象,并表明,由于推理过程中错误估计的批量归一化统计数据以及训练过程中噪声的增加,它可能会导致准确度显着下降 ...

0 0 0 0 2025/10/17 arXiv:2203.11086v2 felixslu

针对量化目标优化神经网络从根本上来说是具有挑战性的,因为量化器是分段常数,除了导数未定义的量化阈值外,到处都会产生零梯度。大多数现有方法通过使用直通估计器(STE)等技术来放松梯度计算来解决这个问题,并且不提供任何收敛保证。在这项工作中,受到 Nesterov 平滑的启发,我们用连续损失表面来近似量化损失表面 ...

0 0 0 0 2025/10/14 arXiv:2510.08757v1 felixslu

量化感知培训(QAT)和知识蒸馏(KD)结合在一起,以在创建低位深度学习模型中实现竞争性能。但是,将KD应用于QAT的现有作品需要乏味的超参数调整,以平衡不同损失条款的权重,假设标记的培训数据的可用性,并且需要复杂的计算强度培训程序才能良好的表现。为了解决这些局限性,本文提出了一种新颖的自我监督量化知识蒸馏(SQAKD)框架 ...

0 0 0 0 2025/09/16 arXiv:2403.11106v1 felixslu

在本文中,我们提出了一种称为Q-Vit的视觉 Transformer (VIT)的完全可区分的量化方法,其中两个量级尺度和位宽度都是可学习的参数。具体而言,根据我们的观察,即VIT显示出不同的量化鲁棒性,我们利用头部宽度的位宽度来挤压Q-Vit的大小,同时保持性能。此外,我们提出了一种名为“可切换量表”的新技术,以解决量级和位宽度的联合训练中的收敛问题 ...

0 0 0 0 2025/09/10 arXiv:2201.07703v2 felixslu

尽管《 Transformer 》在语言和视觉任务中都表现出色,但扩大的计算和模型大小已增加了对有效部署的需求。为了解决重度计算和参数缺点,在社区中经常研究量化作为代表性模型压缩技术,并在Convnets上进行了广泛使用。但是,由于 Transformer 的独特属性,低位量化应用程序仍然受到限制且毫无疑问 ...

0 0 0 0 2025/09/10 arXiv:2307.00331v2 felixslu

量化是通过降低记忆足迹和提高计算效率来加速LLM推断LLM的关键技术。在各种方案中,4位重量和8位激活量化(W4A8)在准确性和性能之间提供了很强的平衡。但是,由于CUDA核心的效率低下,现有的W4A8 GEMM内核在实践中缺乏,这无法与张量核心的高吞吐量保持同步 ...

0 0 0 0 2025/09/03 arXiv:2509.01229v1 felixslu