jingxi的文档

jingxi

个性签名 ...

ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats

在大型语言模型（LLM）的复杂领域中，在计算效率和维持模型质量之间达到平衡是一个巨大的挑战。这项研究涉及统一量化的固有局限性，尤其是在与异常值打交道时，并由NVIDIA的H100硬件推出时，该研究深入研究了浮点（FP）量化的可行性，尤其是针对FP8和FP4的可行性。我们的全面调查表明，对于LLM，FP8激活始终超过其整数（INT8）等效物，并且性能边缘在具有超过十亿亿以上参数的模型中变得越来越明显 ...

0 0 0 0 2025/02/28 arXiv:2307.09782v2 jingxi

Scaling Laws for Floating Point Quantization Training

低精度培训被认为是减少培训和下游推理成本的有效策略。先前的缩放定律的精确定律主要集中于整数量化，在浮点量化中，对成分的关注较少，因此在这种情况下不能很好地适应LLM损失。相比之下，虽然浮点量化训练在生产中更常见，但对其的研究却相对表面 ...

0 0 0 0 2025/02/28 arXiv:2501.02423v1 jingxi

Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models

有效的大型语言模型（LLMS）需要低位量化以最大程度地减少模型大小和推理成本。而低位整数格式（例如 ...

0 0 0 0 2025/02/28 arXiv:2305.12356v1 jingxi

Instruction-Following Pruning for Large Language Models

随着大型语言模型 (LLM) 的快速扩展，结构化剪枝已成为一种广泛使用的技术，可以从较大的模型中学习高效、较小的模型，与从头开始训练类似大小的模型相比，可以提供卓越的性能。在本文中，我们超越了为模型确定固定剪枝掩模的传统静态剪枝方法，并提出了一种动态的结构化剪枝方法。在我们的方法中，修剪掩码依赖于输入，并根据用户指令中描述的信息动态调整 ...

0 0 0 0 2025/01/08 arXiv:2501.02086v1 jingxi

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

激活稀疏性是指激活输出中存在相当多的贡献元素。作为使用ReLU激活函数的模型的通用属性，激活稀疏性已被证明是提高模型推理效率的有前景的范例。然而，大多数大型语言模型（LLM）采用没有内部激活稀疏性的激活函数（例如... ...

0 0 0 0 2025/01/07 arXiv:2402.13516v6 jingxi

Efficient Sparse Attention needs Adaptive Token Release

近年来，大型语言模型 (LLM) 在各种以文本为中心的任务中表现出了卓越的能力。然而，它们的“大”规模带来了巨大的计算和存储挑战，特别是在管理 Transformer 的键值状态方面，这限制了它们更广泛的适用性。因此，我们建议自适应地从缓存中释放资源并重建必要的键值状态 ...

0 0 0 0 2024/12/12 arXiv:2407.02328v1 jingxi

CoreInfer: Accelerating Large Language Model Inference with Semantics-Inspired Adaptive Sparse Activation

具有数十亿参数的大型语言模型 (LLM) 引发了新一轮令人兴奋的人工智能应用浪潮。然而，它们在推理过程中的高计算成本和内存需求带来了重大挑战。自适应稀疏激活推理仅激活每个标记的少量神经元，提供了一种在不降低性能的情况下加速模型推理的新颖方法，为资源受限的硬件设备展示了巨大的潜力 ...

0 0 0 0 2024/12/12 arXiv:2410.18311v1 jingxi

Achieving Sparse Activation in Small Language Models

稀疏激活在推理中选择性地仅激活一组依赖于输入的神经元，是一种有用的技术，可以降低大型语言模型 (LLM) 的计算成本，而无需重新训练或适应工作。然而，它是否可以应用于最近出现的小语言模型（SLM）仍然值得怀疑，因为 SLM 通常比 LLM 更少过度参数化。在本文中，我们的目标是在 SLM 中实现稀疏激活 ...

0 0 1 1 2024/12/10 arXiv:2406.06562v1 jingxi