本文提供了与量化大规模神经网络模型相关的原理,挑战和方法的全面概述。随着神经网络已发展为更大,更复杂的架构以解决越来越复杂的任务,计算和能源成本已经大大升级。我们探讨了模型大小增长的必要性和影响,突出了性能益处以及计算挑战和环境考虑 ...
矩阵量化需要以更高的形式代表矩阵元素以减少存储使用情况,而取消定量恢复了原始矩阵供使用。在量化矩阵占据相同的存储空间的情况下,我们将量化误差最小化(QEM)问题提出最小化矩阵之间的距离。在各种应用中,矩阵量化至关重要,包括大语言模型(LLMS)权重量化,向量数据库,KV缓存量化,图形压缩和图像压缩 ...
大型语言模型(LLMS)具有明显的高级自然语言处理任务,例如机器翻译,文本生成和情感分析。但是,它们的大尺寸通常由数十亿个参数组成,对存储,计算和部署构成了挑战,尤其是在资源受限的环境中,例如移动设备和边缘计算平台。有效的压缩和量化技术对于解决这些问题,减少记忆足迹和计算要求至关重要,而不会显着损害性能 ...
作为大型语言模型(LLM)的基础,自我发场模块在序列长度方面面临着二次时间和记忆复杂性的挑战。 FlashAttention通过利用GPU存储器层次结构来加速注意力计算并减少其内存使用情况。一个有希望的研究方向是将闪光注视与量化方法相结合 ...
现在,大型语言模型(LLMS)支持上下文窗口超过128K Token ,但这带有大量的内存需求和高推理延迟。量化可以减轻这些成本,但可能会降低性能。在这项工作中,我们在具有长输入(> 64K Token )和长形输出的任务上介绍了对量化LLM的第一个系统评估 ...
通过有效平滑权重和激活中的异常值,旋转对于大语言模型(LLM)的最新量化管道至关重要。但是,进一步优化旋转参数仅提供有限的性能增长并引入了重要的训练开销:由于旋转参数共享,必须同时加载全模型以实现反向传播,从而导致大量的记忆消耗和有限的实用性。在这项工作中,我们确定了当前旋转量化方法的两个基本局限性:(i)旋转无法使通道平均值对齐,从而导致更大的量化范围和增加的舍入误差; (ii)旋转使激活分布更类似高斯,从而增加了由剪辑误差引起的能量损失 ...
推理语言模型的最新进展表明,在复杂的任务中表现出色,但其扩展的经过思考的推理过程增加了推理开销。尽管已广泛采用量化以降低大语言模型的推理成本,但其对推理模型的影响仍在研究中。在这项研究中,我们对量化的推理模型进行了首次系统研究,评估了开源的DeepSeek-R1-DistildiStled Qwen和Llama家族,范围为1 ...
大型语言模型(LLM)需要在推理时进行大量计算,从而能量。虽然量化权重和激活有效提高效率,但由于幅度较大的离群值,LLM的天真量化可以显着降低性能。本文介绍了FPTQuant,它介绍了四个新颖,轻巧和表达功能的具有功能的变换(FPT),以促进变形金刚的量化:(1)可查询和钥匙的可合并的前索引变换,(2)值的值转换,(2)值的价值变换,(3)MLP块内和(4)在MLP块中的合并规模变换,并且(4)廉价的量表,动态量表 ...
我们提出Quantx:针对LLM和VLM量化的量身定制的食谱套件。它能够量化至3位分辨率,并且性能损失最小。 Quantx中的量化策略考虑了特定于硬件的约束,以在推理过程中实现有效的去量化,以确保运行时速度,内存需求和模型准确性之间的灵活权衡 ...
由于其出色的生成能力,扩散 Transformer (DIT)现在已成为构建图像生成模型的首选选择。与以前的基于卷积的UNET模型不同,DIT纯粹由一堆 Transformer 块组成,它使DIT在可伸缩性中具有出色的可扩展性,例如大语言模型。但是,增长的模型大小和多步取样范式给部署和推理带来了巨大的压力 ...