本研究考察了 \emph{计算机视觉和模式识别会议} (CVPR) 研究与 Rich Sutton 提出的“惨痛教训”原则的一致性。我们使用大型语言模型 (LLM) 分析了二十年的 CVPR 摘要和标题,以评估该领域对这些原则的接受程度。我们的方法利用最先进的自然语言处理技术来系统地评估计算机视觉研究方法的演变 ...
剪枝已成为一种广泛采用的技术,用于降低大型语言模型 (LLM) 的硬件要求。为了在修剪后恢复模型性能,通常采用后训练来减轻由此产生的性能下降。虽然后期训练受益于较大的数据集,但一旦数据集大小已经很大,增加训练数据只能提供有限的性能提升 ...
众所周知,经过良好训练的大型语言模型 (LLM) 的泛化能力可以根据模型大小的函数进行可预测的扩展。与管理预训练的实际缩放法则的存在相反,训练后压缩后 LLM 的质量仍然高度不可预测,通常需要在实践中逐案验证。在这项工作中,我们试图通过对使用流行的权重量化技术量化为众多低精度张量数据类型的多个 LLM 系列进行系统的实证研究,来缩小 LLM 训练后权重量化的差距 ...
最近的研究带来了希望,即推理缩放可以让较弱的语言模型匹配或超过较强模型的准确性,例如通过重复采样编码问题的解决方案,直到它通过单元测试。本文的中心论点是,推理扩展没有免费的午餐:只有在“验证器”(在本例中为一组单元测试)完美的情况下,才能通过重采样实现无限的精度提高。当验证者不完美时,因为它几乎总是在推理或编码等领域(例如,单元测试的覆盖率不完美),则存在非零概率的误报:通过验证者的错误解决方案 ...
人类拥有视觉空间智能,可以通过连续的视觉观察来记住空间。然而,在百万级视频数据集上训练的多模态大型语言模型(MLLM)也可以从视频中“思考空间”吗?我们提出了一种新颖的基于视频的视觉空间智能基准(VSI-Bench),包含超过 5,000 个问答对,并发现 MLLM 表现出有竞争力的(尽管低于人类的)视觉空间智能。我们探索模型来表达它们在语言和视觉上如何思考空间,并发现虽然空间推理能力仍然是 MLLM 达到更高基准性能的主要瓶颈,但局部世界模型和空间意识确实出现在这些模型中 ...