大型语言模型(LLM)在广泛领域的表现令人印象深刻,但被批评是无法推论其过程和得出的结论。这是为了解释得出的结论,以及确定其方法的计划或策略。本文探讨了当前研究符号推理和LLM的研究,以及LLM是否可以固有地提供某种形式的推理或是否有必要支持组件,并且,如果有推理能力的证据,这在特定领域中是否很明显,还是这是一般能力?此外,本文旨在确定LLM解释性的当前研究差距和未来趋势,对文献进行综述,确定当前对该主题的研究,并为未来的工作提出领域 ...
实现人类水平的智能需要完善从快速,直觉系统1到较慢,更故意的系统2推理的过渡。虽然系统1在迅速的启发式决策中表现出色,但系统2依赖于逻辑推理来进行更准确的判断和减少偏见。基础大语言模型(LLM)在快速决策方面表现出色,但缺乏复杂推理的深度,因为它们尚未完全接受真正系统2思维的分步分析特征 ...
事实证明,密集的过程奖励是在大型语言模型(LLMS)的推理时间缩放中稀疏结果级奖励的更有效替代方案,尤其是在需要复杂的多步推理的任务中。尽管密集的奖励还为LLM的强化学习(RL)提供了一个吸引人的选择,因为它们的细粒度奖励有可能解决一些固有的结果奖励问题,例如培训效率和信贷分配,但这种潜力在很大程度上仍未实现。这主要归因于在线培训过程奖励模型(PRMS)的挑战,在线收集高质量的流程标签非常昂贵,使其特别容易受到奖励黑客的影响 ...
大型语言模型(LLM)已成为机器人使用常识推理生成任务计划的工具。为了使LLM经常通过地图提供可行的计划,必须提供场景上下文。最近的作品已从具有固定语义类别的明确图转变为基于能够表示任何语义类别的可查询嵌入的隐式开放词汇图 ...
多模式基础模型(MFMS)在视觉字幕,问答和图像文本检索等任务中表现出了巨大的成功。但是,这些模型由于其有限的内部能力而面临固有的局限性,这限制了它们处理扩展时间序列的能力,这是全面视频和音频分析的关键要求。为了克服这些挑战,我们引入了专门的认知模块,时间工作记忆(TWM),旨在增强MFM的时间建模功能 ...
监督的微调(SFT)和增强学习(RL)是基础模型的广泛使用的培训技术。但是,它们在增强模型概括功能中的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的差异,重点是基于文本的规则变体和视觉变体 ...
大型多模态模型 (LMM) 在一系列视觉和语言任务中取得了出色的性能。然而,他们的空间推理能力尚未得到充分研究。在本文中,我们构建了一个新颖的 VQA 数据集 Spatial-MM,以全面研究 LMM 的空间理解和推理能力 ...
事实证明,思想链 (CoT) 提示对于增强大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 中的复杂推理非常有效。然而,它在复杂的空间推理任务中表现不佳。尽管如此,人类认知超越了语言本身,具有以文字和图像进行思考的非凡能力 ...
近年来,2D 视觉语言模型 (VLM) 在图像文本理解任务中取得了重大进展。然而,它们在对体现智能至关重要的 3D 空间理解方面的表现仍然有限。最近的进展利用 3D 点云和多视图图像作为输入,产生了有希望的结果 ...
大型语言模型 (LLM) 在各种任务和领域的广泛应用使得这些模型必须与人类价值观和偏好保持一致。鉴于人类价值调整的方法多种多样,从人类反馈强化学习(RLHF)到宪法学习等,迫切需要在模型发布之前了解注入这些模型的人类价值的范围和性质 ...