大型语言模型(LLM)已成为机器人使用常识推理生成任务计划的工具。为了使LLM经常通过地图提供可行的计划,必须提供场景上下文。最近的作品已从具有固定语义类别的明确图转变为基于能够表示任何语义类别的可查询嵌入的隐式开放词汇图 ...
多模式基础模型(MFMS)在视觉字幕,问答和图像文本检索等任务中表现出了巨大的成功。但是,这些模型由于其有限的内部能力而面临固有的局限性,这限制了它们处理扩展时间序列的能力,这是全面视频和音频分析的关键要求。为了克服这些挑战,我们引入了专门的认知模块,时间工作记忆(TWM),旨在增强MFM的时间建模功能 ...
空间推理是体现AI研究的基本问题。通过补充空间数据和微调来增强空间推理能力的努力在解决复杂的体现任务时已被证明有限和无效,这在很大程度上是由于它们对基于语言的输出的依赖。尽管某些方法引入了基于点的动作空间来减轻此问题,但它们在复杂环境中管理更复杂的任务方面缺乏 ...
监督的微调(SFT)和增强学习(RL)是基础模型的广泛使用的培训技术。但是,它们在增强模型概括功能中的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的差异,重点是基于文本的规则变体和视觉变体 ...
大型多模态模型 (LMM) 在一系列视觉和语言任务中取得了出色的性能。然而,他们的空间推理能力尚未得到充分研究。在本文中,我们构建了一个新颖的 VQA 数据集 Spatial-MM,以全面研究 LMM 的空间理解和推理能力 ...
事实证明,思想链 (CoT) 提示对于增强大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 中的复杂推理非常有效。然而,它在复杂的空间推理任务中表现不佳。尽管如此,人类认知超越了语言本身,具有以文字和图像进行思考的非凡能力 ...
近年来,2D 视觉语言模型 (VLM) 在图像文本理解任务中取得了重大进展。然而,它们在对体现智能至关重要的 3D 空间理解方面的表现仍然有限。最近的进展利用 3D 点云和多视图图像作为输入,产生了有希望的结果 ...
大型语言模型 (LLM) 在各种任务和领域的广泛应用使得这些模型必须与人类价值观和偏好保持一致。鉴于人类价值调整的方法多种多样,从人类反馈强化学习(RLHF)到宪法学习等,迫切需要在模型发布之前了解注入这些模型的人类价值的范围和性质 ...
LLM 能否持续改进之前的成果以获得更好的结果?要做到这一点, LLM 需要更好地区分先前生成的替代方案,而不是生成初始响应。我们在实践中探讨了这一假设的有效性。我们首先制定一个统一的框架,使我们能够比较任何模型在任何任务上的生成和判别能力 ...
评估一致的大语言模型 (LLM) 识别和拒绝不安全用户请求的能力对于安全、符合策略的部署至关重要。然而,现有的评估工作面临三个限制,我们通过我们提出的基准 SORRY-Bench 来解决这些限制。首先,现有方法经常使用不安全主题的粗粒度分类法,并且过度代表了一些细粒度主题 ...