推理语言模型的最新进展表明,在复杂的任务中表现出色,但其扩展的经过思考的推理过程增加了推理开销。尽管已广泛采用量化以降低大语言模型的推理成本,但其对推理模型的影响仍在研究中。在这项研究中,我们对量化的推理模型进行了首次系统研究,评估了开源的DeepSeek-R1-DistildiStled Qwen和Llama家族,范围为1 ...

0 0 0 0 2025/06/16 arXiv:2504.04823v1 felixslu

大型语言模型(LLM)需要在推理时进行大量计算,从而能量。虽然量化权重和激活有效提高效率,但由于幅度较大的离群值,LLM的天真量化可以显着降低性能。本文介绍了FPTQuant,它介绍了四个新颖,轻巧和表达功能的具有功能的变换(FPT),以促进变形金刚的量化:(1)可查询和钥匙的可合并的前索引变换,(2)值的值转换,(2)值的价值变换,(3)MLP块内和(4)在MLP块中的合并规模变换,并且(4)廉价的量表,动态量表 ...

0 0 0 0 2025/06/06 arXiv:2506.04985v1 felixslu

我们提出Quantx:针对LLM和VLM量化的量身定制的食谱套件。它能够量化至3位分辨率,并且性能损失最小。 Quantx中的量化策略考虑了特定于硬件的约束,以在推理过程中实现有效的去量化,以确保运行时速度,内存需求和模型准确性之间的灵活权衡 ...

0 0 0 0 2025/05/28 arXiv:2505.07531v1 felixslu

由于其出色的生成能力,扩散 Transformer (DIT)现在已成为构建图像生成模型的首选选择。与以前的基于卷积的UNET模型不同,DIT纯粹由一堆 Transformer 块组成,它使DIT在可伸缩性中具有出色的可扩展性,例如大语言模型。但是,增长的模型大小和多步取样范式给部署和推理带来了巨大的压力 ...

0 0 0 0 2025/05/23 arXiv:2503.06930v2 felixslu

大型语言模型(LLMS)需要大量的计算和内存资源,从而构成部署挑战。量化感知培训(QAT)通过在保持性能的同时降低模型精度来解决这些挑战。但是,尚不清楚QAT的缩放行为,尤其是在4位精度(W4A4)时的缩放行为 ...

0 0 0 0 2025/05/21 arXiv:2505.14302v1 felixslu

量化技术可以通过利用高吞吐量整数指令来减少深神网络的大小,并改善推理潜伏期和吞吐量。在本文中,我们回顾了量化参数的数学方面,并在各种神经网络模型上评估了它们的选择,以用于不同的应用领域,包括视觉,语音和语言。我们专注于具有高通量整数数学管道的处理器可以加速加速的量化技术 ...

0 0 0 0 2025/05/12 arXiv:2004.09602v1 felixslu

由BITNET B1.58领导的1位大语言模型(LLMS)的出现激发了对三元LLM的兴趣。尽管如此,着重于三元LLM的有效边缘推断的研究和实际应用仍然很少 ...

0 0 0 0 2025/04/28 arXiv:2502.11880v1 felixslu

我们以200亿个参数量表介绍了B1.58 2B4T,这是第一个开源的,本机1位大语言模型(LLM)。该模型受过4万亿 Token 的语料库的培训,对涵盖语言理解,数学推理,编码能力和对话能力的基准进行了严格评估 ...

0 0 0 0 2025/04/17 arXiv:2504.12285v1 felixslu

实现量化模型大小和准确性之间最佳权衡的最佳位宽度一直是持续辩论的主题。一些人主张进行4位量化,而另一些人则建议1.58位提供了卓越的结果 ...

0 0 0 0 2025/04/15 arXiv:2502.02631v1 felixslu

我们介绍语言模型(LLMS)的压缩法。尽管最近的缩放定律试图了解LLM在模型大小,预训练数据和计算资源方面的规模,但我们专注于了解模型压缩如何影响下游任务预先训练的LLM的性能。我们通过经验研究结构化模型压缩对LLM的影响,通过$ 1000 $的实验,尺寸为$ 0 ...

0 0 0 0 2025/04/14 arXiv:2504.04342v1 felixslu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)