大型语言模型(LLMS)已经证明了通过高级推理,长形成内容生成和工具使用来解决日益复杂的任务的能力。解决这些任务通常涉及长时间的推理时间计算。在人类问题解决中,加快工作的共同策略是协作:将问题分为子任务,同时探索不同的策略,等等 ...
多模式的大语言模型(MLLM)一直在迅速发展,从而实现了跨模式的理解和产生,并将人工智能推向了人工通用智能。但是,现有的MLLM推理系统通常是基于语言模型的架构设计,将图像处理和语言处理作为单个调度单元进行集成。在计算资源,内存访问模式和服务级别的目标(SLO)方面,这种设计努力满足不同阶段的异质需求,导致资源利用率较低和高请求延迟,最终无法满足各种推论方案的服务要求 ...
大规模语言模型(LLMS)在语言处理任务中表现出色,但由于高内存和计算需求而面临部署挑战。虽然低位量化(例如4位技术)提供了潜在的解决方案,但这些方法通常会遭受明显的准确性损失或需要大量努力来实施,例如重新排序,旋转等。要解决这些挑战,我们提出了一种简单而有效的量化方案,这是一种可实现重量,激活和基于transformer基于transformer的LLMS中的4位量化量化的量子 ...
KV缓存量化可以在长篇小说和大批量大小的场景中改善大型语言模型(LLMS)推理吞吐量和延迟,同时保持LLMS有效性。但是,当前方法有三个未解决的问题:忽略对KV缓存量化的层次敏感性,在线细粒度决策的高间接开销以及对不同LLM和约束的灵活性较低。因此,我们从理论上分析了层 Transformer 注意模式与KV缓存量化误差的固有相关性,并研究为什么关键缓存通常比降低量化误差的值更重要 ...
在处理较长的上下文时,大型语言模型面临着重大的计算和内存挑战。在推断过程中,对钥匙值(KV)缓存的有效管理(存储自回归产生的中间激活)对于减少内存开销和提高计算效率至关重要。传统的 Token 级有效的KV缓存方法忽略了语义信息,独立对待 Token 而不考虑其语义关系 ...
最近在超低量化中取得了许多进展,有望在边缘设备上的潜伏期,内存足迹和能源消耗得到显着改善。诸如学习的步长量化之类的量化方法可以实现与完全精确的浮点基线相媲美的模型精度,即使使用子字节量化。但是,在主流CPU设备上部署这些超低量化模型是极其挑战的,因为商品SIMD(单个指令,多个数据)硬件通常支持不少于8位精度 ...