多模式的大语言模型(MLLM)一直在迅速发展,从而实现了跨模式的理解和产生,并将人工智能推向了人工通用智能。但是,现有的MLLM推理系统通常是基于语言模型的架构设计,将图像处理和语言处理作为单个调度单元进行集成。在计算资源,内存访问模式和服务级别的目标(SLO)方面,这种设计努力满足不同阶段的异质需求,导致资源利用率较低和高请求延迟,最终无法满足各种推论方案的服务要求 ...
大规模语言模型(LLMS)在语言处理任务中表现出色,但由于高内存和计算需求而面临部署挑战。虽然低位量化(例如4位技术)提供了潜在的解决方案,但这些方法通常会遭受明显的准确性损失或需要大量努力来实施,例如重新排序,旋转等。要解决这些挑战,我们提出了一种简单而有效的量化方案,这是一种可实现重量,激活和基于transformer基于transformer的LLMS中的4位量化量化的量子 ...
KV缓存量化可以在长篇小说和大批量大小的场景中改善大型语言模型(LLMS)推理吞吐量和延迟,同时保持LLMS有效性。但是,当前方法有三个未解决的问题:忽略对KV缓存量化的层次敏感性,在线细粒度决策的高间接开销以及对不同LLM和约束的灵活性较低。因此,我们从理论上分析了层 Transformer 注意模式与KV缓存量化误差的固有相关性,并研究为什么关键缓存通常比降低量化误差的值更重要 ...
在处理较长的上下文时,大型语言模型面临着重大的计算和内存挑战。在推断过程中,对钥匙值(KV)缓存的有效管理(存储自回归产生的中间激活)对于减少内存开销和提高计算效率至关重要。传统的 Token 级有效的KV缓存方法忽略了语义信息,独立对待 Token 而不考虑其语义关系 ...
最近在超低量化中取得了许多进展,有望在边缘设备上的潜伏期,内存足迹和能源消耗得到显着改善。诸如学习的步长量化之类的量化方法可以实现与完全精确的浮点基线相媲美的模型精度,即使使用子字节量化。但是,在主流CPU设备上部署这些超低量化模型是极其挑战的,因为商品SIMD(单个指令,多个数据)硬件通常支持不少于8位精度 ...
随着大型语言模型(LLM)处理不断增加的上下文窗口,KV 缓存的内存使用已成为推理过程中的关键瓶颈。主流的KV压缩方法,包括KV剪枝和KV量化,主要关注token维度或精度维度,很少探索它们组合的效率。在本文中,我们全面研究了 KV 缓存压缩中的 Token 精度权衡 ...
利用大型语言模型 (LLM) 的长上下文文本应用程序的出现带来了重大的可扩展性挑战,特别是在内存占用方面。负责存储注意力键和值以最大程度地减少冗余计算的键值 (KV) 缓存的线性增长可能会导致内存消耗大幅增加,从而可能导致模型无法在有限的内存资源下提供服务。为了解决这个问题,我们提出了一种称为缓存稀疏表示(CSR)的新方法,该方法通过将密集的键值缓存张量转换为稀疏索引和权重来转换 KV 缓存,从而在 LLM 推理期间提供更节省内存的表示 ...
缩放输入图像分辨率对于增强视觉语言模型(VLM)的性能至关重要,特别是在文本丰富的图像理解任务中。然而,由于堆叠的自注意力层导致大量标记和高编码延迟,ViT 等流行的视觉编码器在高分辨率下变得效率低下。在不同的操作分辨率下,VLM 的视觉编码器可以沿着两个轴进行优化:减少编码延迟并最大限度地减少传递到 LLM 的视觉标记数量,从而降低总体延迟 ...
通过增加测试时的计算来增强推理的技术最近引起了人们的关注。在本次调查中,我们从三个不同的角度调查了LLM推理时间自我改进的现状:独立自我改进,重点是通过解码或采样方法进行增强;情境感知自我改进,利用额外的情境或数据存储;模型辅助自我改进,通过模型协作实现改进。我们对最近的相关研究进行了全面的回顾,提供了深入的分类,并讨论了挑战和局限性,为未来的研究提供了见解 ...
利用多语言 LLM 的零样本跨语言迁移已成为无标记训练数据的低资源语言的流行学习范例。然而,对于涉及单词和短语的细粒度预测的 NLP 任务,零样本跨语言迁移学习的性能远远落后于监督微调方法。因此,通常利用翻译和标签投影来进一步提高性能,方法是:(1) 翻译以高资源语言(例如,语言)提供的训练数据 ...