通过提高内存效率和推理速度,量化对于部署大型语言模型 (LLM) 至关重要。现有的激活量化方法主要解决通道方面的异常值,通常忽略 Token 方面的异常值,导致依赖于昂贵的每个 Token 动态量化。为了解决这个问题,我们引入了 PrefixQuant,这是一种新颖的技术,可以离线隔离异常标记,而无需重新训练 ...
应用于权重、激活和 KV 缓存的训练后量化 (PTQ) 技术极大地减少了大型语言模型 (LLM) 的内存使用、延迟和功耗,但在存在异常值时可能会导致较大的量化误差。旋转激活或权重矩阵有助于消除异常值并有利于量化。在这项工作中,我们确定了一系列适用的旋转参数化,这些旋转参数化可以在全精度 Transformer 架构中产生相同的输出,同时提高量化精度 ...
大型语言模型 (LLM) 通常在推理过程中采用自回归生成,导致内存带宽需求较高,从而导致延迟延长。为了缓解这种低效率,我们提出了无损加速双向调整 (BiTA),这是一种通过简化的半自回归生成和草稿验证来加速 LLM 的创新方法。受即时调优概念的启发,我们通过称为双向调优的参数高效设计增强了 LLM 的半自回归生成能力 ...
在边缘设备上部署大型语言模型(LLM)对于增强设备上的智能变得越来越重要。权重化对于减少LLM在设备上的内存占用至关重要。然而,低位LLM需要在推理过程中进行低位精度权重和前置激活的混合精度矩阵乘法 (mpGEMM) ... ...
llm(llm)的成功,llm中以构建视觉语言基础模型最近引起了越来越多的兴趣。然而,llm 的大型多模式模型(例如 ...
视力对于语言来说足够好吗?多模态模型的最新进展主要源于大型语言模型(LLM)强大的推理能力。然而,视觉组件通常仅依赖于实例级对比语言图像预训练(CLIP)。我们的研究表明,最近多模式 LLM (MLLM)的视觉能力仍然表现出系统性缺陷 ...