学习控制、大规模仿真和生成模型的最新进展加速了通用机器人控制器的进展,但该领域仍然缺乏适合在人类环境中安全、富有表现力、长期部署的平台。大多数现有的类人机器人要么是封闭的工业系统,要么是学术原型,难以在人类周围部署和操作,限制了机器人技术的进步。 We introduce Sprout, a developer platform designed to address these limitations through an emphasis on safety, expressivity, and developer accessibility. Sprout adopts a lightweight form factor with compliant control, limited joint torques, and soft exteriors to support safe operation in shared human spaces. The platform integrates whole-body control, manipulation with integrated grippers, and virtual-reality-based teleoperation within a unified hardware-software stack.富有表现力的头部进一步促进了社交互动——对于大多数功利主义类人来说,这个领域仍未得到充分探索。通过降低部署的物理和技术障碍,Sprout 扩大了对功能强大的人形平台的访问,并为在真实人类环境中开发体现智能提供了实用基础 ...
最近,思想链(CoT)的引入极大地提高了统一模型的生成能力。然而,据观察,当前生成过程中的思维过程主要关注文本与文本提示的一致性,而忽略了多模态生成(例如多参考生成)期间与视觉参考图像的\textbf{视觉上下文一致性}。缺乏这种一致性会导致无法维护关键视觉特征(如人物 ID、对象属性、风格)。为此,我们将视觉上下文一致性融入到统一模型的推理中,通过以下方式明确激励模型维持这种一致性:1)自适应视觉规划:生成结构化视觉检查列表以找出所需保持一致性的视觉元素;2)迭代视觉校正:在检查列表的指导下进行自我反思,并以迭代方式细化生成的结果。为了实现这一目标,我们使用监督微调来教导模型如何规划视觉检查、进行自我反思和自我细化,并使用 flow-GRPO 通过定制的视觉检查奖励进一步增强视觉一致性。实验表明,我们的方法在多模态生成中优于零样本统一模型和具有文本 CoT 的模型,表现出更高的视觉上下文一致性 ...
我们引入了 Green-VLA,这是一个分阶段的视觉-语言-动作 (VLA) 框架,用于在 Green 人形机器人上进行实际部署,同时保持跨不同实施例的通用性。 Green-VLA 遵循五个阶段的课程:(L0) 基础 VLM、(L1) 多模式基础、(R0) 多实施例预训练、(R1) 特定实施例适应和 (R2) 强化学习 (RL) 策略调整。我们将可扩展的数据处理管道(3,000 小时的演示)与时间对齐和质量过滤结合起来,并使用统一的、可感知实施例的操作界面,支持单一策略来控制人形机器人、移动操纵器和固定底座手臂。在推理时,VLA 控制器通过事件进展预测、分布外检测和基于联合预测的引导得到增强,以提高安全性和精确的目标选择。 Simpler BRIDGE WidowX 和 CALVIN ABC-D 上的实验以及真实机器人评估表明,RL 对齐在成功率、鲁棒性和长期效率方面具有很强的泛化性和性能增益 ...
自动音乐字幕可以为给定的音乐曲目生成自然语言描述,在增强对大量音乐数据的理解和组织方面具有巨大的潜力。尽管它很重要,但由于现有音乐语言数据集的收集过程成本高昂且耗时且规模有限,研究人员面临着挑战。为了解决这个数据稀缺问题,我们建议使用大型语言模型(LLM)从大规模标签数据集中人工生成描述句子。这会产生大约 220 万个字幕和 050 万个音频剪辑。我们将其称为基于大型语言模型的伪音乐字幕数据集,简称 LP-MusicCaps。我们使用自然语言处理和人类评估领域使用的各种定量评估指标对大规模音乐字幕数据集进行系统评估。此外,我们使用数据集训练了基于 Transformer 的音乐字幕模型,并在零样本和迁移学习设置下对其进行了评估。结果表明,我们提出的方法优于监督基线模型 ...
视觉-语言-动作(VLA)模型在机器人操作方面表现出了强大的性能,但其闭环部署受到每个时间步重复运行大型视觉语言主干的高延迟和计算成本的阻碍。我们观察到 VLA 推理在时间、空间和深度维度上表现出结构化冗余,并且大多数现有效率方法忽略了动作上下文,尽管它在具体任务中发挥着核心作用。为了解决这一差距,我们提出了 VLA 模型的动作上下文感知自适应计算(AC^2-VLA),这是一个统一的框架,可以根据当前的视觉观察、语言指令和先前的动作状态进行计算。基于这种以动作为中心的上下文,AC^2-VLA 在统一的机制内自适应地执行跨时间步长的认知重用、 Token 修剪和模型组件的选择性执行。为了训练自适应策略,我们引入了一种行动引导的自蒸馏方案,该方案保留了密集 VLA 策略的行为,同时实现了跨任务和设置传输的结构化稀疏化。对机器人操作基准的大量实验表明,AC^2-VLA 实现了高达 1.79 倍的加速,同时将 FLOP 减少到密集基线的 29.4%,并且任务成功率相当 ...
实现完全开放的语言目标并以智能方式探索开放场景始终面临着重大挑战。最近,视觉语言模型(VLM)展示了使用语言和视觉数据进行推理的卓越能力。尽管许多工作都集中在利用 VLM 在开放场景中进行导航,但它们通常需要较高的计算成本,依赖于以对象为中心的方法,或者依赖于详细的人类指令中的环境先验。我们推出了 Navigation with VLM (NavVLM),这是一个免训练框架,利用开源 VLM 使机器人能够有效导航,甚至可以实现人类友好的语言目标,例如抽象位置、动作或开放场景中的特定对象。 NavVLM以VLM为认知核心,感知环境信息,不断提供探索指导,实现智能导航,只需一个清晰的目标,而不是先有环境的详细指令。我们在模拟和现实实验中评估和验证了 NavVLM。在模拟中,我们的框架在 Matterport 3D (MP3D)、Habitat Matterport 3D (HM3D) 和 Gibson 的详细环境中的对象特定任务上,在按路径长度 (SPL) 加权的成功方面实现了最先进的性能。通过报告导航事件,NavVLM 展示了导航到任何开放集语言的功能。在现实世界的验证中,我们验证了我们的框架在室内场景的现实世界机器人中的有效性 ...
训练大型语言模型需要将计算分布在许多加速器上,但实践者通过反复试验来选择并行策略(数据、张量、管道、ZeRO),因为没有统一的系统框架可以预测它们的行为。我们引入放置语义:每个策略都通过如何使用五种模式(复制、分片、分片与收集、物化、卸载)跨设备放置四种训练状态(参数、优化器、梯度、激活)来指定。仅从放置位置而不考虑实现细节,我们就可以得出内存消耗和通信量。我们的预测与已发布的结果完全一致:如原始论文中所述,ZeRO-3 使用的内存比数据并行少 8 倍,通信成本为 1.5 倍。我们证明了分布式训练匹配单设备结果的两个条件(梯度完整性、状态一致性)是必要且充分的,并提供了安全组合策略的组合规则。该框架将 ZeRO 阶段 1-3、完全分片数据并行 (FSDP)、张量并行和管道并行统一为具有不同放置选择的实例 ...
具有抽象推理能力的强人工智能(Strong AI)或通用人工智能(AGI)是下一代人工智能的目标。大语言模型 (LLM) 的最新进展以及新兴的多模态大语言模型 (MLLM) 领域在各种多模态任务和应用程序中展示了令人印象深刻的功能。特别是,各种 MLLM 都具有不同的模型架构、训练数据和训练阶段,已在广泛的 MLLM 基准上进行了评估。这些研究在不同程度上揭示了 MLLM 当前能力的不同方面。然而,MLLM 的推理能力尚未得到系统研究。在本次调查中,我们全面回顾了现有的多模态推理评估协议,对 MLLM 的前沿进行了分类和说明,介绍了 MLLM 在推理密集型任务中应用的最新趋势,最后讨论了当前的实践和未来的方向。我们相信我们的调查为多模态推理这一重要主题奠定了坚实的基础并阐明了这一点 ...
长期以来,语言一直被认为是人类推理的重要工具。大型语言模型 (LLM) 的突破引发了人们对利用这些模型解决复杂推理任务的巨大研究兴趣。研究人员通过引入“思想”的概念(代表推理过程中的中间步骤的一系列标记),超越了简单的自回归标记生成。这种创新范式使 LLM 能够模仿复杂的人类推理过程,例如树搜索和反思性思维。最近,学习推理的新兴趋势应用强化学习(RL)来训练 LLM 掌握推理过程。这种方法可以通过试错搜索算法自动生成高质量的推理轨迹,通过提供更多的训练数据来显着扩展 LLM 的推理能力。此外,最近的研究表明,鼓励 LLM 在测试时推理期间使用更多标记“思考”可以进一步显着提高推理准确性。因此,训练时间和测试时间的缩放结合起来展示了一个新的研究前沿——通往大型推理模型的道路。 OpenAI o1系列的推出标志着该研究方向的一个重要里程碑。在本次调查中,我们对 LLM 推理的最新进展进行了全面回顾。我们首先介绍 LLM 的基础背景,然后探讨推动大型推理模型开发的关键技术组件,重点是自动化数据构建、推理学习技术和测试时间扩展。我们还分析了构建大型推理模型的流行开源项目,并总结了开放的挑战和未来的研究方向 ...
长期以来,推理一直被视为大语言模型(LLMS)的新兴属性,出现在特定规模($ \ sim $ 100B参数)上。但是,最近的研究挑战了这一假设,表明小语言模型(SLM)也可以达到竞争推理性能。 SLM越来越喜欢其效率和可部署性 ...