由于需要无缝的策略组合和技能之间的转换,学习多阶段、长期任务(例如篮球动作)的控制策略对于强化学习方法仍然具有挑战性。长期任务通常由具有明确目标的不同子任务组成,由目标不明确但对整个任务的成功至关重要的过渡子任务分隔。现有的方法(例如专家混合和技能链)难以解决以下任务:个别策略不共享重要的共同探索的状态或在不同阶段之间缺乏明确定义的初始和最终状态。在本文中,我们介绍了一种新颖的策略集成框架,可以在具有不明确中间状态的多阶段长视野任务中组合截然不同的运动技能。在此基础上,我们进一步引入了一个高级软路由器,以实现子任务之间的无缝和稳健的转换。我们根据一系列基本篮球技能和具有挑战性的过渡来评估我们的框架。通过我们的方法训练的策略可以有效地控制模拟角色与球交互并完成实时用户命令指定的长期任务,而不依赖于球轨迹参考 ...

0 0 0 0 2025/12/04 arXiv:2509.22442v1 晚餐杀手

人形机器人预计将在以人为中心的环境中执行各种任务,需要控制器将敏捷性与稳健的平衡性结合起来。运动和全身跟踪方面的最新进展在敏捷动态技能或稳定性关键行为方面取得了令人瞩目的进步,但现有方法仍然专业化,专注于一种能力,同时损害另一种能力。在这项工作中,我们引入了 AMS(敏捷性与稳定性),这是第一个将动态运动跟踪和极端平衡维护统一在单个策略中的框架。我们的关键见解是利用异构数据源:提供丰富、敏捷行为的人体动作捕捉数据集,以及捕捉稳定性配置的物理约束的合成平衡运动。为了协调敏捷性和稳定性的不同优化目标,我们设计了一种混合奖励方案,该方案将一般跟踪目标应用于所有数据,同时仅将特定于平衡的先验注入到合成运动中。此外,具有性能驱动采样和特定运动奖励塑造的自适应学习策略可以实现跨不同运动分布的高效训练。我们在模拟和真实的 Unitree G1 人形机器人上广泛验证了 AMS。实验表明,单个策略可以执行敏捷技能,例如跳舞和跑步,同时还可以执行零射击极限平衡运动,例如叶问的深蹲,这凸显了 AMS 作为未来人形应用程序的多功能控制范例 ...

0 1 0 0 2025/11/24 arXiv:2511.17373v1 晚餐杀手

有监督微调(SFT)已成为大型视觉语言动作(VLA)模型事实上的后训练策略,但其对昂贵的人类演示的依赖限制了可扩展性和泛化性。我们提出了 Probe、Learn、Distill (PLD),这是一个三阶段即插即用框架,可通过残差强化学习 (RL) 和分布感知数据收集来改进 VLA。在第一阶段,我们训练轻量级剩余参与者来探测 VLA 通才的失败区域。在第二阶段,我们使用混合推出方案,将收集的轨迹与通才的部署分布保持一致,同时捕获恢复行为。在第 3 阶段,我们使用标准 SFT 将策划的轨迹提炼回通才。 PLD 在 LIBERO 上实现了近乎饱和的 99% 任务成功率,在 SimplerEnv 上实现了超过 50% 的增益,在现实世界的 Franka 和 YAM 手臂操作任务上实现了 100% 的成功。消融表明,残余探测和分布感知重放是收集与部署一致的数据的关键,这些数据可以改进可见和不可见的任务,从而为自我改进 VLA 模型提供可扩展的路径 ...

0 0 0 0 2025/11/20 arXiv:2511.00091v1 晚餐杀手

预计基础类人动物运动跟踪器将能够跟踪多样化,高度动态和接触良好的运动。更重要的是,它需要在现实情况下稳定运行,以防止各种动态干扰,包括地形,外部力量和物理性能变化,以供一般实际使用。为了实现这一目标,我们提出Any2Track(跟踪任何干扰下的任何动议),这是一个两阶段的RL框架,可跟踪现实世界中多次干扰下的各种动作 ...

0 1 0 0 2025/11/17 arXiv:2509.13833v3 晚餐杀手

尽管在数千个 GPU 上训练的数十亿参数基础模型不断涌现,但人形控制尚未显示出类似的缩放增益。目前的类人机器人神经控制器的尺寸仍然不大,目标行为集有限,并且需要在少数 GPU 上进行数天的训练。我们证明,扩大模型容量、数据和计算量可以产生一个通用的人形控制器,能够创建自然且强大的全身运动。具体来说,我们将运动跟踪视为人形控制的一项自然且可扩展的任务,利用来自不同运动捕捉数据的密集监督来获取人体运动先验,而无需手动奖励工程。我们通过沿三个轴扩展来构建运动跟踪的基础模型:网络大小(从 1.2M 到 42M 参数)、数据集容量(超过 100M 帧、700 小时的高质量运动数据)和计算(9k GPU 小时)。除了展示规模的好处之外,我们还通过两种机制展示了我们模型的实用性:(1) 实时通用运动规划器,将运动跟踪与下游任务执行联系起来,实现自然和交互式控制;(2) 统一的 Token 空间,支持各种运动输入接口,例如 VR 远程操作设备、人类视频和视觉语言动作 (VLA) 模型,所有这些都使用相同的策略。缩放运动跟踪表现出有利的特性:随着计算和数据多样性的增加,性能稳步提高,并且学习的表示泛化到看不见的运动,将大规模运动跟踪建立为人形控制的实用基础 ...

1 4 0 0 2025/11/13 arXiv:2511.07820v1 晚餐杀手

大规模数据推动了机器人技术的突破,从语言模型到双手操作中的视觉-语言-动作模型。然而,人形机器人缺乏同样有效的数据收集框架。现有的人形远程操作系统要么使用解耦控制,要么依赖昂贵的动作捕捉设置 ...

0 2 0 0 2025/11/05 arXiv:2511.02832v1 晚餐杀手

多面手机器人策略现在可以执行广泛的操作技能,但评估和提高其处理不熟悉的物体和指令的能力仍然是一个重大挑战。严格的评估需要大量的现实世界的推广,而系统的改进需要带有专家标签的额外纠正数据。这两个过程都很缓慢、成本高昂且难以扩展 ...

0 0 0 0 2025/11/03 arXiv:2510.10125v2 晚餐杀手

由于运动数据稀缺性和接触性丰富的性质,启用可靠的全身人形对象相互作用(HOI)仍然具有挑战性。我们提出了HDMI(类人类的互动模仿),这是一个简单而通用的框架,直接从单眼RGB视频中学习全身人形对象的相互作用技能。我们的管道(i)提取和重新定位从不受限制的视频中提取和对象轨迹,以构建结构化的运动数据集,(ii)训练增强性学习(RL)政策,以共同轨道机器人和对象状态具有三个关键设计:统一对象的设计:一个统一的对象表示,一个残留的行动空间,一个一般的互动奖励,以及(IIIIIII II)机器人的零派零零件 ...

0 0 0 0 2025/10/14 arXiv:2509.16757v3 晚餐杀手

在非结构化环境中的类人机器人操作需要紧密整合以自我为中心的感知和全身控制。但是,现有方法要么取决于外部运动捕获系统,要么无法跨越各种任务。我们介绍了VisualMimic,这是一个视觉模拟到现实的框架,该框架将以人形机器人的分层全身控制统一以自我为中心的视觉 ...

0 1 0 0 2025/09/25 arXiv:2509.20322v1 晚餐杀手

通过跟踪各种人类运动,学习多功能全身技能是迈向通用人形机器人的基本步骤。这项任务尤其具有挑战性,因为单个政策必须掌握整个运动技能的曲目,同时确保长期序列的稳定性。为此,我们提出了VM,这是一个统一的全身控制器,使人类机器人能够在单个政策中学习多种多样的动态行为 ...

0 0 0 0 2025/09/25 arXiv:2509.16638v1 晚餐杀手