大型语言模型(LLMS)需要大量的计算和内存资源,从而构成部署挑战。量化感知培训(QAT)通过在保持性能的同时降低模型精度来解决这些挑战。但是,尚不清楚QAT的缩放行为,尤其是在4位精度(W4A4)时的缩放行为 ...
量化技术可以通过利用高吞吐量整数指令来减少深神网络的大小,并改善推理潜伏期和吞吐量。在本文中,我们回顾了量化参数的数学方面,并在各种神经网络模型上评估了它们的选择,以用于不同的应用领域,包括视觉,语音和语言。我们专注于具有高通量整数数学管道的处理器可以加速加速的量化技术 ...
由BITNET B1.58领导的1位大语言模型(LLMS)的出现激发了对三元LLM的兴趣。尽管如此,着重于三元LLM的有效边缘推断的研究和实际应用仍然很少 ...
我们以200亿个参数量表介绍了B1.58 2B4T,这是第一个开源的,本机1位大语言模型(LLM)。该模型受过4万亿 Token 的语料库的培训,对涵盖语言理解,数学推理,编码能力和对话能力的基准进行了严格评估 ...
实现量化模型大小和准确性之间最佳权衡的最佳位宽度一直是持续辩论的主题。一些人主张进行4位量化,而另一些人则建议1.58位提供了卓越的结果 ...
我们介绍语言模型(LLMS)的压缩法。尽管最近的缩放定律试图了解LLM在模型大小,预训练数据和计算资源方面的规模,但我们专注于了解模型压缩如何影响下游任务预先训练的LLM的性能。我们通过经验研究结构化模型压缩对LLM的影响,通过$ 1000 $的实验,尺寸为$ 0 ...
图像超分辨率(SR)的低位模型量化是一项长期的任务,以其令人惊讶的压缩和加速能力而闻名。但是,当将完整精液(FP)模型压缩为超低位宽度(2〜4位)时,准确性降解是不可避免的。在实验上,我们观察到量化的降解主要归因于激活而不是模型权重的量化 ...
多模式的大语言模型(MLLM)在不同的应用程序中表现出了出色的性能。但是,他们在部署期间的计算开销仍然是关键的瓶颈。键值(KV)缓存有效地将内存进行计算以提高推理效率,而广泛的KV caches的记忆足迹大大减少了吞吐量,并限制了对内存约束的GPU设备的延长部署 ...
神经网络量化方法通常涉及在训练过程中模拟量化过程,从而使受过训练的模型高度依赖于目标位宽度和精确的量化方式。强大的量化提供了一种替代方法,并提高了对不同类别的数据类型和量化策略的耐受性。它打开了新的令人兴奋的应用程序,在这些应用程序中,量化过程不是静态的,并且可以不同以满足不同的情况和实现 ...
我们发现,低位量化有利于训练不足的大型语言模型(LLM),通过观察,在应用低位量化时,具有较大尺寸或较少训练标记的模型会经历较少的量化引起的退化(QiD),而具有大量训练标记的较小模型会受到影响显着的QiD。为了更深入地了解这一趋势,我们在受控环境中研究了 1500 多个不同规模和不同训练水平(训练不足或完全训练)的量化 LLM 检查点,推导出缩放法则,以了解 QiD 与因素(例如,QiD 的数量)之间的关系。训练 Token 、模型大小和位宽。根据推导的缩放定律,我们提出了一种新颖的视角,即我们可以使用 QiD 来衡量 LLM 的培训水平,并确定完全训练各种规模的 LLM 所需的训练 Token 数量 ...