训练后量化 (PTQ) 已成为一种有效的技术,通过压缩权重和激活而无需重新训练整个模型,从而减轻视觉语言模型 (VLM) 的大量计算和内存开销。现有的PTQ方法主要依赖于敏感或离群通道的静态识别和全局补偿,但它们往往忽略了这些重要通道在输入之间的分布差异,导致量化效果不理想。在这项工作中,我们观察到重要通道的分布和出现频率在不同模态和标记之间存在显着差异,即使在同一模态内也是如此。因此,我们提出 \textbf{Quant Experts (QE)},这是一种用于 VLM 量化的 Token 感知自适应误差补偿,具有混合专家。 QE 将重要渠道分为与 Token 无关和与 Token 相关的两类。对于前者,为大多数 Token 设计了共享专家,以使用低阶适配器补偿全局量化误差。对于后者,精心设计了包括多个路由低阶适配器的路由专家,以补偿与特定 Token 相关的局部量化误差。大量实验表明,QE 能够持续提高各种量化设置和模型规模(从 2B 到 70B 参数)的任务准确性,同时保持与全精度模型相当的性能 ...

0 0 0 0 2026/03/02 arXiv:2602.24059v1 ldm

多模式的大型语言模型(MLLM)由于能够理解多模式输入的能力而引起了广泛的关注。但是,它们的较大参数大小和大量的计算要求严重阻碍了其实际部署,而此HTTP URL量化是减少模型大小和推理潜伏期的有效方法,其在MLLMS上的应用仍未得到充分驱动。在本文中,我们提出了Mquant,这是一种训练后量化(PTQ)框架,旨在应对多模式大型语言模型(MLLM)的独特挑战 ...

0 0 0 0 2026/02/03 arXiv:2502.00425v2 ldm

KV缓存量化可以在长篇小说和大批量大小的场景中改善大型语言模型(LLMS)推理吞吐量和延迟,同时保持LLMS有效性。但是,当前方法有三个未解决的问题:忽略对KV缓存量化的层次敏感性,在线细粒度决策的高间接开销以及对不同LLM和约束的灵活性较低。因此,我们从理论上分析了层 Transformer 注意模式与KV缓存量化误差的固有相关性,并研究为什么关键缓存通常比降低量化误差的值更重要 ...

0 0 0 0 2026/01/22 arXiv:2502.04420v5 ldm

最近的大型视觉语言模型 (LVLM) 在处理扩展的多模态序列方面表现出了卓越的能力,但由此产生的键值 (KV) 缓存扩展造成了关键的内存瓶颈,从根本上限制了部署的可扩展性。虽然现有的 KV 缓存压缩方法侧重于保留高重要性的 KV 对以最小化存储,但它们经常忽略多模态 KV 缓存中明显出现的特定于模态的语义冗余模式。在这项工作中,我们首先分析了除了简单的重要性之外,LVLM 中的 KV 缓存如何在注意力头之间表现出不同级别的冗余。我们表明,仅仅依赖重要性只能覆盖完整 KV 缓存信息分布的子集,导致语义覆盖的潜在损失。为了解决这个问题,我们提出了 \texttt{MixKV},这是一种将重要性与多样性相结合的新颖方法,以优化 LVLM 中的 KV 缓存压缩。 MixKV 适应 head-wise 语义冗余,在压缩 KV 对时选择性地平衡多样性和重要性。大量实验表明,\texttt{MixKV} 一致地增强了跨多个 LVLM 的现有方法。在极端压缩(预算=64)下,\texttt{MixKV} 在五个多模态理解基准测试中平均将基线方法改进了 \textbf{5.1\%},并在 GUI 基础任务上为 SnapKV 和 AdaKV 实现了 \textbf{8.0\%} 和 \textbf{9.0\%} 的显着增益,同时保持了相当的推理效率。此外,\texttt{MixKV} 可以无缝扩展到 LLM ,并具有相当的性能提升。我们的代码可在 \href{this https URL}{\textcolor{citeblue}{this https URL}} 获取 ...

0 0 0 0 2026/01/19 arXiv:2510.20707v1 ldm

对于大型语言模型 (LLM) 的极低位量化,双二进制分解 (DBF) 很有吸引力,因为它可以在不牺牲准确性的情况下实现高效推理。然而,DBF的缩放参数限制太大;分解出符号后,所有等级分量共享相同的幅度分布,导致性能饱和。我们提出多包络 DBF (MDBF),它保留一对共享的 1 位符号基数,但用等级 $l$ 包络替换单个包络。通过在包络分量之间共享符号矩阵,MDBF 有效地维护了二进制载波,并利用有限的内存预算来表达幅度。我们还引入了封闭式初始化和交替细化方法来优化 MDBF。在 LLaMA 和 Qwen 系列中,MDBF 比以前的二进制格式以匹配的每权重位数增强了困惑度和零样本精度,同时保留了相同的易于部署的推理原语 ...

0 0 0 0 2026/01/11 arXiv:2512.24545v1 ldm

我们推出了 LogQuant,这是一种用于大语言模型 (LLM) 推理中 KV 缓存的突破性 2 位量化技术,可在保持卓越性能的同时节省大量内存。以前的方法要么假设后面的标记更重要,要么尝试根据早期的注意力模式来预测重要的标记。然而,这两种方法都可能导致性能瓶颈或频繁的错误预测。 LogQuant 采用了不同的方法。通过应用基于日志的过滤机制,它有选择地压缩整个上下文中的 KV Cache,与现有方法相比,在相同甚至减少的内存占用量下实现更好的性能。在基准测试中,它在不增加内存消耗的情况下将吞吐量提高了 25%,将批量大小提高了 60%。对于数学和代码完成等具有挑战性的任务,LogQuant 在相同的压缩比下将准确性提高了 40% 到 200%,优于同类。此 http URL 可以轻松地与流行的推理框架(如 Python 的 Transformers 库)集成。可以在此 https URL 中实现 ...

0 0 0 0 2026/01/05 arXiv:2503.19950v1 ldm

训练后量化 (PTQ) 是压缩大型语言模型 (LLM) 的有效技术。然而,虽然统一精度量化在计算上是高效的,但它通常会损害模型性能。为了解决这个问题,我们提出了 SliM-LLM,这是一种显着性驱动的混合精度量化框架,可以按组分配位宽。我们的方法利用了重要权重遵循结构化分布的观察结果,并引入了两个关键组件: \textbf{1)} \textit{显着性确定的位分配} 根据显着性,自适应地将位宽分配给每层内的组;和 \textbf{2)} \textit{显着性加权量化器校准} 通过合并元素级显着性来优化量化器参数。 With its structured partitioning, SliM-LLM provides a hardware-friendly solution that matches the efficiency of uniform quantization methods while improving accuracy.实验表明,SliM-LLM 在低位宽下在各种 LLM 中实现了卓越的性能。例如,与浮点基线相比,2 位量化的 LLaMA-7B 模型将内存使用量减少了近 6 倍,与最先进的无梯度 PTQ 方法相比,困惑度降低了 48%,并保持了 GPU 推理速度。此外,扩展版本 SliM-LLM$^+$ 结合了基于梯度的量化,进一步将困惑度降低了 35.1%。我们的代码可在此 https URL 获取 ...

0 0 0 0 2025/12/29 arXiv:2405.14917v2 ldm

量化已成为一种有效且轻量级的解决方案,可减少大型语言模型中 KV 缓存的内存占用。尽管如此,最大限度地减少超低位 KV 缓存量化造成的精度下降仍然是一个重大挑战。虽然标量量化受到 1 位界限的限制,但矢量量化利用矢量内相关性并启用子位机制,使其更适合超低位量化。为了进一步减轻量化引起的退化,我们发现各个 Token 的注意力质量退化非常不均匀。为了研究这种不均匀性,我们引入锚分数来测量每个标记对量化的敏感度。我们的分析和实验表明,保留具有最高 Anchor Score 的标记的一小部分 (1\%) 可以显着减轻激进量化下的准确性损失。我们提出了 AnTKV,这是一个双阶段框架,利用锚标记感知向量量化来压缩 KV 缓存。它结合了离线标记感知质心学习和在线锚定标记选择来平衡压缩和准确性。为了实现高效部署,我们设计了一个与 FlashAttention 兼容的在线锚定 Token 选择内核。它允许 LLaMA3-8B 在单个 80GB A100 上扩展到 840K Token ,同时提供比 FP16 基线高出 3.5 美元\倍的解码吞吐量。实验表明,AnTKV 在 4 位上匹配或超越了现有方法,并显着降低了超低位量化下的困惑度,在 Mistral-7B 上达到 1 位 6.32,而 CQ 为 7.25,KVQuant 为 15.36 ...

0 0 0 0 2025/12/04 arXiv:2506.19505v2 ldm

由于键值 (KV) 缓存较大,大型语言模型 (LLM) 推理通常会占用大量内存,尤其是在处理大批量和长序列时。最近采用矢量量化(VQ)来缓解这个问题,但我们发现现有方法由于依赖校准数据集而容易受到分布偏移的影响。为了解决这个限制,我们引入了 NSNQuant,这是一种免校准矢量量化 (VQ) 技术,专为 KV 缓存的低位压缩而设计。通过应用哈达玛变换的三步变换 - 1)标记方式归一化(Normalize),2)通道方式居中(Shift),3)第二个标记方式归一化(Normalize),NSNQuant 有效地将标记分布与标准正态分布对齐。这种对齐方式使用单个可重复使用的码本实现稳健、免校准的矢量量化。大量实验表明,NSNQuant 在 1 位和 2 位设置中始终优于先前的方法,提供了强大的泛化能力,并且比全精度基线提高了高达 3 美元\倍的吞吐量 ...

0 0 0 0 2025/12/04 arXiv:2505.18231v1 ldm

仅权重训练后量化 (PTQ) 将大型语言模型 (LLM) 的权重压缩为低精度表示,以减少内存占用并加速推理。然而,权重和激活中异常值的存在通常会导致较大的量化误差和严重的准确性下降,特别是在最近的推理 LLM 中,错误在长思想链中累积。现有的 PTQ 方法要么无法充分抑制异常值,要么在推理过程中引入大量开销。在本文中,我们提出了成对旋转量化(ParoQuant),这是一种仅权重 PTQ 方法,它将硬件高效且可优化的独立吉文斯旋转与通道缩放相结合,以平衡通道间的幅度并缩小每个量化组内的动态范围。我们进一步共同设计推理内核,以充分利用 GPU 并行性,并在运行时保持旋转和缩放的轻量级。在推理任务上,ParoQuant 比 AWQ 的准确度平均提高了 2.4%,而开销不到 10%。这为更高效、更准确地部署推理 LLM 铺平了道路 ...

0 0 0 0 2025/11/24 arXiv:2511.10645v1 ldm