对于大型语言模型 (LLM) 来说,需要多步骤推理和动态重新规划的长期任务仍然具有挑战性。顺序提示方法容易出现上下文漂移、目标信息丢失和反复出现的故障循环,而分层提示方法通常会削弱跨级别的连续性或产生大量的运行时开销。我们引入了 ReCAP(递归上下文感知推理和规划),这是一个具有共享上下文的分层框架,用于 LLM 的推理和规划 ...
大型语言模型(LLM)代理依赖外部工具来解决复杂的任务,但现实世界的工具集通常包含名称和描述重叠的冗余工具,从而引入歧义并降低选择准确性。 LLM 还面临严格的输入上下文限制,阻碍了对大型工具集的有效考虑。为了应对这些挑战,我们提出了 ToolScope,其中包括:(1) ToolScopeMerger 具有自动更正功能,可自动审核和修复工具合并,减少冗余;(2) ToolScopeRetriev ...
WonderPlay 是一个新颖的框架,它将物理模拟与视频生成相结合,用于从单个图像生成动作调节的动态 3D 场景。虽然之前的作品仅限于刚体或简单的弹性动力学,但 WonderPlay 具有混合生成模拟器来合成广泛的 3D 动力学。混合生成模拟器首先使用物理解算器来模拟粗略的 3D 动态,随后调节视频生成器以生成具有更精细、更真实运动的视频 ...
分子特性预测对于药物发现和毒性评估等应用至关重要。虽然图神经网络(GNN)通过将分子建模为分子图显示了有希望的结果,但它们对数据驱动学习的依赖限制了它们的泛化能力,特别是在存在数据不平衡和不同分子子结构的情况下。现有的方法常常忽视不同子结构对分子特性的不同贡献,而对它们进行统一处理 ...
现实世界中家庭和工厂的机器人操作要求可靠性、效率和稳健性接近或超过熟练的人类操作员。我们提出了 RL-100,这是一个基于监督学习训练的扩散视觉运动策略的现实强化学习训练框架。 RL-100 引入了三级管道 ...
人脑通常被建模为感兴趣区域 (ROI) 网络及其连接,以了解大脑功能和精神障碍。最近,基于 Transformer 的模型已经在不同类型的数据(包括图形)上进行了研究,结果表明可以带来广泛的性能提升。在这项工作中,我们研究基于 Transformer 的大脑网络分析模型 ...
并行测试时间扩展 (TTS) 是增强大型语言模型 (LLM) 的关键方法,通常通过并行采样多个基于 Token 的思想链并通过投票或搜索聚合结果。潜在推理的最新进展(其中中间推理在连续向量空间中展开)为显式思维链提供了更有效的替代方案,但此类潜在模型是否能够同样从并行 TTS 中受益仍然悬而未决,这主要是由于连续空间中缺乏采样机制,并且缺乏用于高级轨迹聚合的概率信号。这项工作通过解决上述问题,为潜 ...
这项工作提出了一种名为 Cupid 的新一代 3D 重建方法,该方法可以从单个 2D 图像中准确推断出相机姿态、3D 形状和物体的纹理。 Cupid 将 3D 重建作为从学习的 3D 对象分布中进行条件采样的过程,并联合生成体素和像素-体素对应关系,从而在统一的生成框架下实现稳健的姿态和形状估计。通过将输入相机姿势和 3D 形状表示为共享 3D 潜在空间中的分布,Cupid 采用两阶段流匹配管道: ...