xuesong的文档

xuesong

个性签名 ...

SimA: Simple Softmax-free Attention for Vision Transformers

最近，视觉变形金刚变得非常流行。然而，在许多应用程序中部署它们的计算成本很高，部分原因是注意力模块中存在 Softmax 层。我们引入了一个简单但有效的、无 Softmax 的注意力块 SimA，它使用简单的 $\ell_1$-norm 来标准化查询和关键矩阵，而不是使用 Softmax 层。然后，SimA中的注意力块是三个矩阵的简单乘法，因此SimA可以在测试时动态改变计算的顺序，以实现对 Token 数量或通道数量的线性计算。我们凭经验表明，SimA 应用于 Transformer 的三种 SOTA 变体 DeiT、XCiT 和 CvT，与 SOTA 模型相比，其精度达到了同等水平，并且不需要 Softmax 层。有趣的是，将 SimA 从多头更改为单头对准确性的影响很小，这进一步简化了注意力模块。代码可在此处获取：此 https URL ...

0 0 0 0 2026/02/09 arXiv:2206.08898v2 xuesong

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

大型语言模型 (LLM) 在现代自然语言处理和人工智能中至关重要。然而，他们在管理巨大的内存需求方面面临着挑战。尽管量化感知训练 (QAT) 提供了一种解决方案，通过低位表示来减少内存消耗，同时将精度损失降至最低，但由于训练资源庞大，该方法不切实际。为了解决这个问题，我们提出了高效量化感知训练（EfficientQAT），这是一种更可行的 QAT 算法。 EfficientQAT 涉及两个连续的阶段：所有参数的分块训练 (Block-AP) 和量化参数的端到端训练 (E2E-QP)。据我们所知，Block-AP 是第一种能够以分块方式直接训练所有参数的方法，通过在优化期间增强解空间来减少低位场景中的精度损失。然后，E2E-QP 仅端到端训练量化参数（步长），通过考虑所有子模块之间的交互来进一步提高量化模型的性能。大量实验表明，EfficientQAT 在一系列模型中均优于以前的量化方法，包括基础 LLM、指令调整的 LLM 和多模态 LLM，在各种量化位上参数范围从 7B 到 70B。例如，EfficientQAT 在 41 小时内在单个 A100-80GB GPU 上获得了 2 位 Llama-2-70B 模型，与全精度相比，精度下降了不到 3 个点（69.48 vs. 72.41）。代码可从此 https URL 获取 ...

0 0 0 0 2026/01/04 arXiv:2407.11062v3 xuesong