我们发现,低位量化有利于训练不足的大型语言模型(LLM),通过观察,在应用低位量化时,具有较大尺寸或较少训练标记的模型会经历较少的量化引起的退化(QiD),而具有大量训练标记的较小模型会受到影响显着的QiD。为了更深入地了解这一趋势,我们在受控环境中研究了 1500 多个不同规模和不同训练水平(训练不足或完全训练)的量化 LLM 检查点,推导出缩放法则,以了解 QiD 与因素(例如,QiD 的数量)之间的关系。训练 Token 、模型大小和位宽。根据推导的缩放定律,我们提出了一种新颖的视角,即我们可以使用 QiD 来衡量 LLM 的培训水平,并确定完全训练各种规模的 LLM 所需的训练 Token 数量 ...
通过提高内存效率和推理速度,量化对于部署大型语言模型 (LLM) 至关重要。现有的激活量化方法主要解决通道方面的异常值,通常忽略 Token 方面的异常值,导致依赖于昂贵的每个 Token 动态量化。为了解决这个问题,我们引入了 PrefixQuant,这是一种新颖的技术,可以离线隔离异常标记,而无需重新训练 ...
应用于权重、激活和 KV 缓存的训练后量化 (PTQ) 技术极大地减少了大型语言模型 (LLM) 的内存使用、延迟和功耗,但在存在异常值时可能会导致较大的量化误差。旋转激活或权重矩阵有助于消除异常值并有利于量化。在这项工作中,我们确定了一系列适用的旋转参数化,这些旋转参数化可以在全精度 Transformer 架构中产生相同的输出,同时提高量化精度 ...
大型语言模型 (LLM) 通常在推理过程中采用自回归生成,导致内存带宽需求较高,从而导致延迟延长。为了缓解这种低效率,我们提出了无损加速双向调整 (BiTA),这是一种通过简化的半自回归生成和草稿验证来加速 LLM 的创新方法。受即时调优概念的启发,我们通过称为双向调优的参数高效设计增强了 LLM 的半自回归生成能力 ...
在边缘设备上部署大型语言模型(LLM)对于增强设备上的智能变得越来越重要。权重化对于减少LLM在设备上的内存占用至关重要。然而,低位LLM需要在推理过程中进行低位精度权重和前置激活的混合精度矩阵乘法 (mpGEMM) ... ...
随着大型语言模型(LLM)的成功,将视觉模型集成到 LLM 中以构建视觉语言基础模型最近引起了越来越多的兴趣。然而,现有的基于 LLM 的大型多模式模型(例如 ...
视力对于语言来说足够好吗?多模态模型的最新进展主要源于大型语言模型(LLM)强大的推理能力。然而,视觉组件通常仅依赖于实例级对比语言图像预训练(CLIP)。我们的研究表明,最近多模式 LLM (MLLM)的视觉能力仍然表现出系统性缺陷 ...