训练后量化(PTQ)的主要目标是产生一个压缩模型,其输出分布尽可能接近原始模型。为了进行操作,几乎所有LLM PTQ算法都通过独立最小化即时激活误差来量化线性层。但是,这个本地化的目标忽略了后续层的效果,因此减少它并不一定会产生更紧密的模型 ...
模型合并已成为结合特定于任务的权重的强大技术,在多目标域适应性中实现了卓越的性能。但是,当应用于量化模型之类的实际情况时,会出现新的挑战。在实际情况下,量化通常应用于特定于目标的数据,但是此过程限制了感兴趣的领域并引入了离散效应,从而使模型合并高度非平凡 ...
缩放定律通过基于模型尺寸,计算和数据量实现可预测的模型性能缩放来塑造机器学习的最新进展。同时,AI的计算成本上升激发了模型压缩技术,尤其是量化和稀疏,这些技术已经出现了,这些技术已经减轻了与大规模培训和推理有关的陡峭计算需求。本文研究了缩放定律和压缩格式之间的相互作用,探索统一的缩放框架是否可以准确预测训练在各种压缩表示(例如稀疏,标量量化,稀疏,稀疏或矢量量化的格式)上进行的模型性能 ...
为了从最大程度地区分类别的高维数据中学习内在的低维结构,我们提出了最大编码率降低的原理($ \ text {mcr}^2 $),这是一种信息理论措施,该措施使整个数据集和每个类别的总和之间的编码率差异最大化。我们阐明了它与大多数现有框架的关系,例如跨凝结,信息瓶颈,信息增益,承包和对比度学习,并为学习多样化和歧视性特征提供了理论保证。可以准确地从类似于子空间的分布的有限样本中准确计算编码率,并可以 ...
测试时间扩展通常也称为缓慢思考,已被证明可以增强大语言模型(LLMS)中的多步推理。然而,尽管其广泛使用,但基本的缓慢思考方法的机制仍然很少理解。本文从理论的角度探讨了外部缓慢思考的机制 ...
以视觉为中心的自动驾驶由于其成本较低,最近引起了广泛的关注。预训练对于提取普遍表示至关重要。但是,当前以视力为中心的预训练通常依赖于2D或3D预文本任务,从而忽略自动驾驶的时间特征是4D场景理解任务 ...
在本文中,我们通过根据本文提出的框架来评估Google翻译的输出,重点介绍当前机器翻译(MT)工具的执行方式。我们根据多维质量指标(MQM)提出此评估框架,并对MT输出进行详细的误差分析。从我们的分析中,我们观察到约有50%的MT产出无法保留原始情感 ...
医学大型多模型模型(LMM)在医学数据解释中表现出了显着的功能。但是,这些模型经常产生幻觉与来源证据相矛盾,特别是由于定位推理不足。这项工作揭示了当前医学LMM的关键局限性:在响应与疾病相关的查询时,他们通常依靠语言模式或参与不相关的图像区域,而不是分析相关的病理区域 ...