视觉-语言-动作(VLA)模型最近在机器人操作方面表现出了强大的泛化能力。一些现有的 VLA 方法试图通过在动作执行之前显式生成语言推理轨迹或未来的视觉观察来提高动作准确性。然而,显式推理通常会产生不可忽略的推理延迟,这限制了机器人操作所需的时间分辨率。此外,这种推理仅限于语言空间,造成了难以忠实地捕捉不可言喻的物理属性的表征瓶颈。为了缓解这些限制,我们提出了 LaST$_0$,这是一个框架,可以在通过潜在时空思维链 (CoT) 进行行动之前实现高效推理,捕获通常难以用语言表达的细粒度物理和机器人动态。具体来说,我们引入了一个 Token 有效的潜在 CoT 空间,它可以对未来的视觉动态、3D 结构信息和机器人本体感受状态进行建模,并进一步跨时间扩展这些表示,以实现时间一致的隐式推理轨迹。此外,LaST$_0$ 采用通过 Mixture-of-Transformers 设计实现的双系统架构,其中推理专家进行低频潜在推理,代理专家根据面向机器人的潜在表示生成高频动作。为了促进协调,LaST$_0$ 使用异构操作频率进行训练,从而在部署期间实现推理和动作推理速率之间的自适应切换。在 10 个模拟任务和 6 个现实世界操作任务中,LaST$_0$ 比之前的 VLA 方法分别将平均成功率提高了 8% 和 13%,同时实现了更快的推理速度。项目网站:这个https URL ...

0 0 0 0 2026/02/14 arXiv:2601.05248v2 ttts

基于可能性的策略梯度方法是通过奖励训练机器人控制策略的主要方法。这些方法依赖于可微分的行动可能性,这将政策输出限制为高斯等简单分布。在这项工作中,我们展示了流匹配策略梯度(一种绕过似然计算的最新框架)如何在具有挑战性的机器人控制设置中有效地训练和微调更具表现力的策略。我们引入了一种改进的目标,可以成功完成腿部运动、人形运动跟踪和操纵任务,以及在两个人形机器人上实现稳健的模拟到真实的传输。然后我们对训练动态进行消融和分析。结果表明,在从头开始训练时,策略如何利用流表示进行探索,以及如何提高相对于基线的微调鲁棒性 ...

0 0 0 0 2026/02/14 arXiv:2602.02481v1 ttts

人类演示自然地提供了丰富的环境多样性和规模,使其成为机器人远程操作的有吸引力的替代方案。虽然这种范例具有先进的机器人手臂操纵,但其解决更具挑战性、需要数据的人形机器人操纵问题的潜力在很大程度上仍未得到探索。我们提出了 EgoHumanoid,这是第一个使用丰富的以自我为中心的人类演示和有限的机器人数据来共同训练视觉-语言-动作策略的框架,使类人机器人能够在不同的现实世界环境中执行局部操作。为了弥合人类和机器人之间的体现差距,包括物理形态和观点的差异,我们引入了从硬件设计到数据处理的系统对准管道。开发了一种用于可扩展人类数据收集的便携式系统,并且我们建立了实用的收集协议以提高可转移性。我们的人与人之间的对齐流程的核心是两个关键组件。视图对齐减少了由相机高度和透视变化引起的视域差异。动作对齐将人体运动映射到一个统一的、运动学上可行的动作空间中,用于人形控制。广泛的现实世界实验表明,合并无机器人的自我中心数据显着优于仅机器人的基线 51%,特别是在看不见的环境中。我们的分析进一步揭示了哪些行为可以有效转移以及扩展人类数据的潜力 ...

0 0 0 0 2026/02/12 arXiv:2602.10106v1 ttts

视觉-语言-动作 (VLA) 模型在具体推理方面显示出前景,但距离真正的通才还很远——它们通常需要针对特定​​任务进行微调,会产生高昂的计算成本,并且对未见过的任务的泛化能力很差。我们提出了 MetaVLA,一个统一的、与主干无关的训练后框架,用于高效且可扩展的对齐。 MetaVLA 引入了上下文感知元协同训练,它将不同的目标任务整合到一个微调阶段,同时利用结构多样的辅助任务来提高域内泛化能力。与简单的多任务 SFT 不同,MetaVLA 集成了源自注意力神经过程的轻量级元学习机制,能够以最小的架构更改或推理开销快速适应不同的上下文。在 LIBERO 基准测试中,具有 6 个辅助任务的 MetaVLA 在长视野任务上的性能比 OpenVLA 高出 8.0%,将训练步骤从 240K 减少到 75K,并将 GPU 时间缩短约 76%。这些结果表明,可扩展的、低资源的后期训练是可以实现的,为通用的具体代理铺平了道路。代码将可用 ...

0 0 0 0 2026/02/12 arXiv:2510.05580v3 ttts

使人形机器人能够执行敏捷和自适应的交互任务长期以来一直是机器人技术的核心挑战。当前的方法受到现实交互数据的稀缺或需要细致的、特定于任务的奖励工程的瓶颈,这限制了它们的可扩展性。为了缩小这一差距,我们提出了 HumanX,这是一个全栈框架,可以将人类视频编译为类人机器人的通用的、现实世界的交互技能,而无需特定于任务的奖励。 HumanX 集成了两个共同设计的组件:XGen,一个数据生成管道,可从视频中合成多样化且物理上合理的机器人交互数据,同时支持可扩展的数据增强; XMimic,一个统一的模仿学习框架,可以学习通用的交互技能。经过五个不同领域(篮球、足球、羽毛球、货物拾取和反应性战斗)的评估,HumanX 成功获得了 10 种不同的技能,并将它们零射击转移到物理 Unitree G1 人形机器人上。学习到的能力包括复杂的动作,例如在没有任何外部感知的情况下假动作转身后仰跳投,以及交互式任务,例如超过 10 个连续周期的持续人机传球序列 - 从单个视频演示中学习。我们的实验表明,HumanX 的泛化成功率比之前的方法高出 8 倍以上,展示了一种可扩展且与任务无关的途径,用于学习多功能的、现实世界的机器人交互技能 ...

0 0 0 0 2026/02/10 arXiv:2602.02473v1 ttts

我们提出了Robomemory,这是一个以脑启发的多内存框架,用于物理体现系统中的终生学习,解决了现实世界中的关键挑战:连续学习,多模块记忆延迟,任务互相捕获和封闭环计划中的无限循环缓解。它以认知神经科学为基础,整合了四个核心模块:信息预处理器(丘脑状),终身体现的记忆系统(类似海马的记忆系统),闭环计划模块(前额叶loe叶),以及低级别的高级管理器(cerebellum light tim-light tim-light light light light Planne),以进行良好的学习和促进的学习。终身体现的内存系统是框架的中心,通过跨空间,时间,情节和语义suppoles的并行更新/检索来减轻复杂内存框架中的推理速度问题 ...

0 0 0 0 2026/02/09 arXiv:2508.01415v6 ttts

构建一个能够感知、推理和执行不同任务的多面手机器人仍然是一个公开的挑战,特别是对于灵巧的操作而言。主要瓶颈在于缺乏大规模的、带有动作注释的灵巧技能数据,因为远程操作困难且成本高昂。人类数据规模庞大、操作行为多样,为学习机器人动作提供了丰富的先验知识。虽然之前的工作已经探索利用人类演示,但它们往往受到有限的场景以及人类和机器人之间巨大的视觉差距的限制。为了消除这些限制,我们提出了 METIS,这是一种在多源自我中心数据集上进行预训练的视觉语言动作(VLA)模型,用于灵巧操作。我们首先构建 EgoAtlas,它集成了来自多个来源的大规模人类和机器人数据,所有这些数据都统一在一致的动作空间下。我们进一步提取运动感知动力学,一种紧凑且离散的运动表示,为 VLA 训练提供高效且富有表现力的监督。在此基础上,METIS 将推理和行动集成到一个统一的框架中,从而能够有效部署到下游灵巧的操作任务。我们的方法展示了卓越的灵巧操作能力,在六项现实任务中实现了最高的平均成功率。实验结果还强调了对分布外场景的卓越泛化性和鲁棒性。这些发现强调 METIS 是朝着灵巧操作的通用模型迈出的有希望的一步 ...

0 0 0 0 2026/02/09 arXiv:2511.17366v1 ttts

人形机器人需要精确的运动和灵巧的操纵来执行具有挑战性的运动操纵任务。然而,现有的模块化或端到端的方法在操纵感知运动方面存在缺陷。这将机器人限制在有限的工作空间内,使其无法执行大空间的局部操纵。我们将其归因于:(1)由于人形遥操作数据的稀缺,获取运动操纵知识的挑战;(2)由于现有强化学习控制器的精度和稳定性有限,忠实可靠地执行运动命令的困难。为了获得更丰富的局部操作知识,我们提出了一个统一的潜在学习框架,使视觉-语言-动作(VLA)系统能够从低成本的无动作的自我中心视频中学习。此外,还设计了高效的人类数据收集管道来扩充数据集并扩大效益。为了更精确地执行所需的运动命令,我们提出了一种面向运动操纵(LMO)的强化学习策略,专门针对准确且稳定的核心运动操纵运动(例如前进、转身和蹲下)而定制。在这些组件的基础上,我们引入了 WholeBodyVLA,这是一个用于人形机器人操作的统一框架。据我们所知,WholeBodyVLA 是同类产品之一,能够实现大空间人形机器人控制。它通过 AgiBot X2 人形机器人的综合实验得到验证,比之前的基线提高了 21.3%。它还在广泛的任务中表现出强大的通用性和高可扩展性 ...

0 0 0 0 2026/01/22 arXiv:2512.11047v2 ttts