基于 Transformer 的大型语言模型 (LLM) 在各种自然语言处理任务中展示了令人印象深刻的性能。然而,由于瞬态(称为键值 (KV) 缓存)的巨大内存占用量,为生成长内容的 LLM 推理提供服务会带来挑战,它会随着序列长度和批量大小而扩展。在本文中,我们提出了 InfiniGen,这是一种专为长文本生成而定制的新型 KV 缓存管理框架,它与现代基于卸载的推理系统协同工作。 InfiniGen 利用了这样的关键见解:通过对当前层的输入以及后续层的部分查询权重和密钥缓存执行最小的演练,可以推测出对于计算 Transformer 中的后续注意力层至关重要的一些重要标记。这允许我们仅预取必要的 KV 缓存条目(而不获取全部),从而减轻基于卸载的 LLM 服务系统中从主机内存获取的开销。我们对几个具有代表性的 LLM 的评估表明,与之前的 KV 缓存管理方法相比,InfiniGen 将现代基于卸载的系统的整体性能提高了 3.00 倍,同时提供了更好的模型精度 ...
在边缘设备(例如智能手机和机器人)上部署视觉语言模型 (VLM) 对于实现低延迟和保护隐私的智能应用程序至关重要。考虑到这些设备的资源限制,量化通过提高内存效率和降低带宽需求提供了一种有前途的解决方案,从而促进了 VLM 的部署。然而,现有研究很少探索 VLM 的激进量化,特别是对于 1B 到 2B 参数范围的模型,这些模型更适合资源受限的边缘设备。在本文中,我们提出了 SPEED-Q,一种用于 VLM 低位仅权重量化的新型分级处理和增强蒸馏框架,系统地解决了以下两个关键障碍:(1)VLM 中视觉(ViT)和语言(LLM)组件之间的量化灵敏度存在显着差异; (2) 由于低位量化固有的数值精度降低而导致训练不稳定。在 SPEED-Q 中,引入了分阶段灵敏度自适应机制,以有效协调不同模式的性能。我们进一步提出了一种蒸馏增强量化策略来稳定训练过程并减少数据依赖性。 SPEED-Q 共同实现了复杂 VLM 的准确、稳定和数据高效的量化。 SPEED-Q 是第一个专为将整个小规模十亿参数 VLM 量化为低位而定制的框架。跨多个基准的大量实验表明,SPEED-Q 在 2 位设置下的精度比现有量化方法高出 6 倍,并且在 2 位和 4 位设置下始终优于先前的设备上 VLM。我们的代码和模型可从此 https URL 获取 ...
视觉语言模型 (VLM) 已经实现了各种现实世界的应用程序。 VLM 的参数规模较大,带来较大的内存和计算开销,这给部署带来了巨大的挑战。训练后量化(PTQ)是一种减少内存和计算开销的有效技术 ...
大型语言模型 (LLM) 在各种自然语言处理任务中表现出了卓越的能力。然而,它们大量的内存需求,特别是由于长文本理解和生成过程中 KV 缓存的增长,给资源受限环境中的部署带来了重大挑战。量化已成为一种有前途的解决方案,可以在保留历史信息的同时减少内存消耗 ...
大型语言模型(LLMS)的令人印象深刻的功能以部署期间的大量计算资源为代价。尽管KV缓存可以在推理过程中显着减少重新计算,但它也引入了其他内存开销。 KV缓存量化提出了一个有希望的解决方案,在内存使用和准确性之间达到了良好的平衡 ...
大型语言模型(LLMS)的规模迅速增长,为在资源受限的硬件上有效部署带来了重大挑战。在本文中,我们引入了动态长度浮点(DFLOAT11),这是一个无损压缩框架,可将LLM大小降低30%,同时保留与原始模型相同的输出。 DFLOAT11是由LLMS的BFLOAT16重量表示中的低熵激励的,这揭示了现有的存储格式的效率显着效率 ...
钥匙值(KV)缓存已成为一种至关重要的优化技术,用于加速大型语言模型(LLMS)。通过允许注意力运行线性地扩展而不是二次地缩放,KV缓存显着增强了生成吞吐量。但是,由于现代LLM中的上下文长度较大,KV的内存足迹是直接影响模型批次大小的模型部署的巨大瓶颈,阻碍了其提供高通量的能力 ...
视频大语言模型(视频学)已经证明了处理更长的视频输入并实现复杂的推理和分析的能力。但是,由于视频帧的数千个视觉 Token ,键值(KV)缓存可以显着增加内存需求,成为推理速度和内存使用情况的瓶颈。 KV缓存量化是一种解决此问题的广泛使用方法 ...
基于 Transformer 的大型语言模型批判性地依靠KV缓存来在解码阶段有效处理扩展上下文。然而,KV缓存的大小随输入长度的成比例增长,随着解码的进展,内存带宽和容量都会为内存带宽和容量负担。为了应对这一挑战,我们提出了RocketKV,这是一种专门旨在减少DECODE阶段中KV CACHE的内存带宽和容量需求的无训练KV缓存策略 ...
模型合并将多个模型的参数集成到统一模型中,结合了它们的各种功能。现有的模型合并方法通常受固定参数合并比率的约束。在这项研究中,我们提出了混合模型合并(M $^3 $),这是一种受混合数据增强技术启发的创新方法 ...