图像超分辨率(SR)的低位模型量化是一项长期的任务,以其令人惊讶的压缩和加速能力而闻名。但是,当将完整精液(FP)模型压缩为超低位宽度(2〜4位)时,准确性降解是不可避免的。在实验上,我们观察到量化的降解主要归因于激活而不是模型权重的量化 ...

0 0 0 0 2025/04/08 arXiv:2502.15478v1 felixslu

多模式的大语言模型(MLLM)在不同的应用程序中表现出了出色的性能。但是,他们在部署期间的计算开销仍然是关键的瓶颈。键值(KV)缓存有效地将内存进行计算以提高推理效率,而广泛的KV caches的记忆足迹大大减少了吞吐量,并限制了对内存约束的GPU设备的延长部署 ...

0 0 0 0 2025/04/07 arXiv:2502.14882v2 felixslu

神经网络量化方法通常涉及在训练过程中模拟量化过程,从而使受过训练的模型高度依赖于目标位宽度和精确的量化方式。强大的量化提供了一种替代方法,并提高了对不同类别的数据类型和量化策略的耐受性。它打开了新的令人兴奋的应用程序,在这些应用程序中,量化过程不是静态的,并且可以不同以满足不同的情况和实现 ...

0 0 0 0 2025/04/03 arXiv:2002.07686v3 felixslu