/documents/74964/
基本信息
文件基本信息
名称
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
描述
尽管在数千个 GPU 上训练的数十亿参数基础模型不断涌现,但人形控制尚未显示出类似的缩放增益。目前的人形机器人神经控制器的规模仍然不大,只针对有限的行为,并且需要在少数 GPU 上进行数天的训练。我们证明,扩大模型容量、数据和计算量可以产生一个通用的人形控制器,能够创建自然且强大的全身运动。具体来说,我们将运动跟踪视为人形控制的一项自然且可扩展的任务,利用来自不同运动捕捉数据的密集监督来获取人体运动先验,而无需手动奖励工程。我们通过沿三个轴扩展来构建运动跟踪的基础模型:网络大小(从 1.2M 到 42M 参数)、数据集容量(超过 100M 帧、700 小时的高质量运动数据)和计算(9k GPU 小时)。除了展示规模的好处之外,我们还通过两种机制展示了我们模型的实用性:(1) 实时通用运动规划器,将运动跟踪与下游任务执行联系起来,实现自然和交互式控制;(2) 统一的 Token 空间,支持各种运动输入接口,例如 VR 远程操作设备、人类视频和视觉语言动作 (VLA) 模型,所有这些都使用相同的策略。缩放运动跟踪表现出有利的特性:随着计算和数据多样性的增加,性能稳步提高,并且学习的表示泛化到看不见的运动,将大规模运动跟踪建立为人形控制的实用基础 ...