felixslu的文档

1.58-bit FLUX

我们提出了1.58位通量，这是第一种成功量化最先进的文本对图像生成模型Flux.1-DEV的方法 ...

0 0 0 0 2025/07/23 arXiv:2412.18653v1 felixslu

SageAttention2++: A More Efficient Implementation of SageAttention2

注意效率至关重要，因为它的时间复杂性随序列长度四倍地增长。 SageAttention2通过利用量化来加速矩阵乘法（MATMUL）来解决此问题。为了进一步加速sageattention2，我们建议利用FP16中积累的FP8矩阵的更快指导 ...

0 0 0 0 2025/07/17 arXiv:2505.21136v3 felixslu

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

在视觉生成中，注意机制的二次复杂性会导致高记忆和计算成本，尤其是对于高分辨率图像或多帧视频生成中所需的更长的 Token 序列。为了解决这个问题，先前的研究探索了诸如稀疏和量化之类的技术。但是，这些技术在低密度和降低的位宽度下面临重大挑战 ...

0 0 0 0 2025/07/14 arXiv:2506.16054v1 felixslu

any4: Learned 4-bit Numeric Representation for LLMs

我们提供Any4，这是一种用于大语模型（LLM）的4位权重量化解决方案，可提供任意数字表示，而无需预处理权重或激活。与其他相关的4位数字表示类型相比，Any4的精度更高：INT4，FP4和NF4，如在一系列模型，世代和家族的评估（Llama 2，Llama 3，Mistral和Mixtral）。虽然Any4不需要对权重或激活进行预处理，但它也与需要进行预处理的正交技术具有竞争力（e ...

0 0 0 0 2025/07/08 arXiv:2507.04610v1 felixslu

Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview

本文提供了与量化大规模神经网络模型相关的原理，挑战和方法的全面概述。随着神经网络已发展为更大，更复杂的架构以解决越来越复杂的任务，计算和能源成本已经大大升级。我们探讨了模型大小增长的必要性和影响，突出了性能益处以及计算挑战和环境考虑 ...

0 0 0 0 2025/07/01 arXiv:2409.11650v1 felixslu

QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering

矩阵量化需要以更高的形式代表矩阵元素以减少存储使用情况，而取消定量恢复了原始矩阵供使用。在量化矩阵占据相同的存储空间的情况下，我们将量化误差最小化（QEM）问题提出最小化矩阵之间的距离。在各种应用中，矩阵量化至关重要，包括大语言模型（LLMS）权重量化，向量数据库，KV缓存量化，图形压缩和图像压缩 ...

0 0 0 0 2025/07/01 arXiv:2407.03637v4 felixslu

Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information

大型语言模型（LLMS）具有明显的高级自然语言处理任务，例如机器翻译，文本生成和情感分析。但是，它们的大尺寸通常由数十亿个参数组成，对存储，计算和部署构成了挑战，尤其是在资源受限的环境中，例如移动设备和边缘计算平台。有效的压缩和量化技术对于解决这些问题，减少记忆足迹和计算要求至关重要，而不会显着损害性能 ...

0 0 0 0 2025/07/01 arXiv:2405.17470v1 felixslu