最近,视觉变形金刚变得非常流行。然而,在许多应用程序中部署它们的计算成本很高,部分原因是注意力模块中存在 Softmax 层。我们引入了一个简单但有效的、无 Softmax 的注意力块 SimA,它使用简单的 $\ell_1$-norm 来标准化查询和关键矩阵,而不是使用 Softmax 层。然后,SimA中的注意力块是三个矩阵的简单乘法,因此SimA可以在测试时动态改变计算的顺序,以实现对 Token 数量或通道数量的线性计算。我们凭经验表明,SimA 应用于 Transformer 的三种 SOTA 变体 DeiT、XCiT 和 CvT,与 SOTA 模型相比,其精度达到了同等水平,并且不需要 Softmax 层。有趣的是,将 SimA 从多头更改为单头对准确性的影响很小,这进一步简化了注意力模块。代码可在此处获取:此 https URL ...
大型语言模型 (LLM) 在现代自然语言处理和人工智能中至关重要。然而,他们在管理巨大的内存需求方面面临着挑战。尽管量化感知训练 (QAT) 提供了一种解决方案,通过低位表示来减少内存消耗,同时将精度损失降至最低,但由于训练资源庞大,该方法不切实际。为了解决这个问题,我们提出了高效量化感知训练(EfficientQAT),这是一种更可行的 QAT 算法。 EfficientQAT 涉及两个连续的阶段:所有参数的分块训练 (Block-AP) 和量化参数的端到端训练 (E2E-QP)。据我们所知,Block-AP 是第一种能够以分块方式直接训练所有参数的方法,通过在优化期间增强解空间来减少低位场景中的精度损失。然后,E2E-QP 仅端到端训练量化参数(步长),通过考虑所有子模块之间的交互来进一步提高量化模型的性能。大量实验表明,EfficientQAT 在一系列模型中均优于以前的量化方法,包括基础 LLM、指令调整的 LLM 和多模态 LLM,在各种量化位上参数范围从 7B 到 70B。例如,EfficientQAT 在 41 小时内在单个 A100-80GB GPU 上获得了 2 位 Llama-2-70B 模型,与全精度相比,精度下降了不到 3 个点(69.48 vs. 72.41)。代码可从此 https URL 获取 ...