我们提出了1.58位通量,这是第一种成功量化最先进的文本对图像生成模型Flux.1-DEV的方法 ...

0 0 0 0 2025/07/23 arXiv:2412.18653v1 felixslu

注意效率至关重要,因为它的时间复杂性随序列长度四倍地增长。 SageAttention2通过利用量化来加速矩阵乘法(MATMUL)来解决此问题。为了进一步加速sageattention2,我们建议利用FP16中积累的FP8矩阵的更快指导 ...

0 0 0 0 2025/07/17 arXiv:2505.21136v3 felixslu

在视觉生成中,注意机制的二次复杂性会导致高记忆和计算成本,尤其是对于高分辨率图像或多帧视频生成中所需的更长的 Token 序列。为了解决这个问题,先前的研究探索了诸如稀疏和量化之类的技术。但是,这些技术在低密度和降低的位宽度下面临重大挑战 ...

0 0 0 0 2025/07/14 arXiv:2506.16054v1 felixslu

我们提供Any4,这是一种用于大语模型(LLM)的4位权重量化解决方案,可提供任意数字表示,而无需预处理权重或激活。与其他相关的4位数字表示类型相比,Any4的精度更高:INT4,FP4和NF4,如在一系列模型,世代和家族的评估(Llama 2,Llama 3,Mistral和Mixtral)。虽然Any4不需要对权重或激活进行预处理,但它也与需要进行预处理的正交技术具有竞争力(e ...

0 0 0 0 2025/07/08 arXiv:2507.04610v1 felixslu

本文提供了与量化大规模神经网络模型相关的原理,挑战和方法的全面概述。随着神经网络已发展为更大,更复杂的架构以解决越来越复杂的任务,计算和能源成本已经大大升级。我们探讨了模型大小增长的必要性和影响,突出了性能益处以及计算挑战和环境考虑 ...

0 0 0 0 2025/07/01 arXiv:2409.11650v1 felixslu

矩阵量化需要以更高的形式代表矩阵元素以减少存储使用情况,而取消定量恢复了原始矩阵供使用。在量化矩阵占据相同的存储空间的情况下,我们将量化误差最小化(QEM)问题提出最小化矩阵之间的距离。在各种应用中,矩阵量化至关重要,包括大语言模型(LLMS)权重量化,向量数据库,KV缓存量化,图形压缩和图像压缩 ...

0 0 0 0 2025/07/01 arXiv:2407.03637v4 felixslu

大型语言模型(LLMS)具有明显的高级自然语言处理任务,例如机器翻译,文本生成和情感分析。但是,它们的大尺寸通常由数十亿个参数组成,对存储,计算和部署构成了挑战,尤其是在资源受限的环境中,例如移动设备和边缘计算平台。有效的压缩和量化技术对于解决这些问题,减少记忆足迹和计算要求至关重要,而不会显着损害性能 ...

0 0 0 0 2025/07/01 arXiv:2405.17470v1 felixslu

作为大型语言模型(LLM)的基础,自我发场模块在序列长度方面面临着二次时间和记忆复杂性的挑战。 FlashAttention通过利用GPU存储器层次结构来加速注意力计算并减少其内存使用情况。一个有希望的研究方向是将闪光注视与量化方法相结合 ...

0 0 0 0 2025/07/01 arXiv:2409.16997v2 felixslu

现在,大型语言模型(LLMS)支持上下文窗口超过128K Token ,但这带有大量的内存需求和高推理延迟。量化可以减轻这些成本,但可能会降低性能。在这项工作中,我们在具有长输入(> 64K Token )和长形输出的任务上介绍了对量化LLM的第一个系统评估 ...

0 0 0 0 2025/06/30 arXiv:2505.20276v2 felixslu

通过有效平滑权重和激活中的异常值,旋转对于大语言模型(LLM)的最新量化管道至关重要。但是,进一步优化旋转参数仅提供有限的性能增长并引入了重要的训练开销:由于旋转参数共享,必须同时加载全模型以实现反向传播,从而导致大量的记忆消耗和有限的实用性。在这项工作中,我们确定了当前旋转量化方法的两个基本局限性:(i)旋转无法使通道平均值对齐,从而导致更大的量化范围和增加的舍入误差; (ii)旋转使激活分布更类似高斯,从而增加了由剪辑误差引起的能量损失 ...

0 0 0 0 2025/06/24 arXiv:2506.15689v1 felixslu