felixslu的文档

HESTIA: A Hessian-Guided Differentiable Quantization-Aware Training Framework for Extremely Low-Bit LLMs

随着大型语言模型 (LLM) 的不断扩展，部署越来越受到内存墙的瓶颈，从而促使向极低位量化的转变。然而，大多数量化感知训练（QAT）方法从训练开始就应用硬舍入和直通估计器（STE），这会过早地离散化优化景观，并导致潜在权重和量化权重之间持续的梯度不匹配，从而阻碍量化模型的有效优化。为了解决这个问题，我们提出了 Hestia，一种用于极低位 LLM 的 Hessian 引导的可微 QAT 框架，它用温度控制的 Softmax 松弛代替了刚性阶跃函数，以在训练早期保持梯度流，同时逐渐强化量化。此外，Hestia 利用张量 Hessian 迹度量作为轻量级曲率信号来驱动细粒度温度退火，从而实现整个模型的灵敏度感知离散化。对 Llama-3.2 的评估表明，Hestia 始终优于现有的三元 QAT 基线，1B 和 3B 模型的平均零样本改进为 5.39% 和 4.34%。这些结果表明 Hessian 引导的松弛有效地恢复了表征能力，为 1.58 位 LLM 建立了更稳健的训练路径。该代码可从此 https URL 获取 ...

0 0 0 0 2026/02/09 arXiv:2601.20745v1 felixslu

LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

Diffusion Transformer，特别是用于视频生成的，实现了卓越的质量，但受到二次注意力复杂性的影响，导致令人望而却步的延迟。现有的加速方法面临着一个基本的权衡：在每个去噪步骤中动态估计稀疏注意力模式会产生高计算开销和估计误差，而静态稀疏模式在整个去噪过程中保持固定并且通常不是最优的。我们确定了扩散注意力的一个关键结构特性，即其稀疏模式在去噪步骤中表现出很强的时间一致性。在步骤 $t$ 中被视为非必需的图块通常在步骤 $t+\delta$ 中仍然如此。利用这一观察结果，我们引入了 LiteAttention，一种利用时间相干性使进化计算能够跳过去噪序列的方法。通过尽早标记非必要的图块并向前传播跳过决策，LiteAttention 消除了冗余的注意力计算，而无需重复的分析开销，将动态方法的适应性与静态方法的效率结合起来。我们在 FlashAttention 之上实现了高度优化的 LiteAttention 内核，并展示了生产视频扩散模型的显着加速，而质量没有下降。代码和实施细节将公开发布 ...

0 0 0 0 2025/11/17 arXiv:2511.11062v1 felixslu

HESTIA: A Hessian-Guided Differentiable Quantization-Aware Training Framework for Extremely Low-Bit LLMs

LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost

Overcoming Oscillations in Quantization-Aware Training

LOTION: Smoothing the Optimization Landscape for Quantized Training

Self-Supervised Quantization-Aware Knowledge Distillation

Q-ViT: Fully Differentiable Quantization for Vision Transformer

Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision

LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving