ldm的文档

InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management

基于 Transformer 的大型语言模型 (LLM) 在各种自然语言处理任务中展示了令人印象深刻的性能。然而，由于瞬态（称为键值 (KV) 缓存）的巨大内存占用量，为生成长内容的 LLM 推理提供服务会带来挑战，它会随着序列长度和批量大小而扩展。在本文中，我们提出了 InfiniGen，这是一种专为长文本生成而定制的新型 KV 缓存管理框架，它与现代基于卸载的推理系统协同工作。 InfiniGen 利用了这样的关键见解：通过对当前层的输入以及后续层的部分查询权重和密钥缓存执行最小的演练，可以推测出对于计算 Transformer 中的后续注意力层至关重要的一些重要标记。这允许我们仅预取必要的 KV 缓存条目（而不获取全部），从而减轻基于卸载的 LLM 服务系统中从主机内存获取的开销。我们对几个具有代表性的 LLM 的评估表明，与之前的 KV 缓存管理方法相比，InfiniGen 将现代基于卸载的系统的整体性能提高了 3.00 倍，同时提供了更好的模型精度 ...

0 0 0 0 2025/11/24 arXiv:2406.19707v1 ldm

SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization

在边缘设备（例如智能手机和机器人）上部署视觉语言模型 (VLM) 对于实现低延迟和保护隐私的智能应用程序至关重要。考虑到这些设备的资源限制，量化通过提高内存效率和降低带宽需求提供了一种有前途的解决方案，从而促进了 VLM 的部署。然而，现有研究很少探索 VLM 的激进量化，特别是对于 1B 到 2B 参数范围的模型，这些模型更适合资源受限的边缘设备。在本文中，我们提出了 SPEED-Q，一种用于 VLM 低位仅权重量化的新型分级处理和增强蒸馏框架，系统地解决了以下两个关键障碍：（1）VLM 中视觉（ViT）和语言（LLM）组件之间的量化灵敏度存在显着差异； (2) 由于低位量化固有的数值精度降低而导致训练不稳定。在 SPEED-Q 中，引入了分阶段灵敏度自适应机制，以有效协调不同模式的性能。我们进一步提出了一种蒸馏增强量化策略来稳定训练过程并减少数据依赖性。 SPEED-Q 共同实现了复杂 VLM 的准确、稳定和数据高效的量化。 SPEED-Q 是第一个专为将整个小规模十亿参数 VLM 量化为低位而定制的框架。跨多个基准的大量实验表明，SPEED-Q 在 2 位设置下的精度比现有量化方法高出 6 倍，并且在 2 位和 4 位设置下始终优于先前的设备上 VLM。我们的代码和模型可从此 https URL 获取 ...

0 0 0 0 2025/11/17 arXiv:2511.08914v1 ldm

InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management

SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization

MBQ: Modality-Balanced Quantization for Large Vision-Language Models

XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression

Accurate KV Cache Quantization with Outlier Tokens Tracing

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

KVCrush: Key value cache size-reduction using similarity in head-behaviour

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression

Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation