我们提出了Moe-Loco,这是用于腿部机器人的多任务运动的专家(MOE)框架的混合物。我们的方法使一项政策能够处理各种地形,包括酒吧,坑,楼梯,斜坡和挡板,同时支持四足和双足步态。使用MOE,我们减轻了多任务增强学习中通常出现的梯度冲突,从而提高了训练效率和性能 ...
统一的视频和动作模型对机器人技术具有巨大的希望,其中视频为动作预测提供了丰富的场景信息,而动作为视频预测提供了动态信息。但是,有效地结合视频生成和动作预测仍然具有挑战性,而当前基于视频的方法则难以在行动准确性和推理速度中与直接策略学习的性能相匹配。为了弥合这一差距,我们介绍了统一的视频动作模型(UVA),该模型共同优化了视频和动作预测,以实现高准确性和有效的动作推断 ...
我们有兴趣在生成的视频和语言的空间中启用复杂的长马任务的视觉规划,并利用在互联网规模数据上预见的大型生成模型中的最新进展。为此,我们提出了视频语言计划(VLP),该算法由树木搜索过程组成,在该过程中,我们训练(i)视觉语言模型可以用作策略和价值功能,以及(ii)文本对视频模型作为动态模型。 VLP作为输入为长马任务指令和当前图像观察,并输出一个长期的视频计划,该计划提供了详细的多模式(视频和语言)规格,描述了如何完成最终任务 ...
对大量数据训练的大型单片生成模型已成为AI研究中日益占主导地位的方法。在本文中,我们认为我们应该通过将较小的生成模型组合在一起来构建大型生成系统。我们展示了这种组成生成方法如何使我们能够以更高的数据有效的方式学习分布,从而可以在培训时对数据分布的一部分进行概括 ...
近年来,机器人的操纵取得了巨大的进步,模仿学习政策可以成功地执行灵巧和难以模仿的任务。同时,扩展数据和模型大小导致了能力强大的语言和视觉基础模型的发展,激发了大规模创建通用机器人基础模型的大规模努力。尽管这些模型获得了巨大的热情和投资,但对现实世界绩效的有意义评估仍然是一个挑战,限制了发展的步伐并抑制了对当前能力的细微理解 ...
从图像中估算3D人类通常会产生令人难以置信的身体,这些身体倾斜,漂浮或穿透地板。这种方法忽略了一个事实,即场景通常支持身体。物理引擎可用于执行身体上的合理性,但是这些并非可区分,依靠不切实际的代理机构,并且很难将其集成到现有的优化和学习框架中 ...
在处理物理世界中的复杂任务时,人类在执行实际动作之前练习缓慢的思维。最近,这种思维范式在增强大型语言模型(LLM)方面取得了显着的进步,以解决数字域中的复杂任务。但是,对于与物理世界相互作用的机器人基础模型,缓慢思考的潜力仍然没有探索 ...
您的人形生物可以走上一杯啤酒,而不会洒了一杯啤酒吗?尽管人类生物越来越多地出现在舞蹈中,例如跳舞,交付包装,穿越崎rough的地形,在运动过程中进行细粒度的控制仍然是一个重大挑战。特别是,由于任务动力学的基本不匹配,步行远离解决方案时稳定填充的终端效应器(EE):运动需要缓慢的时间计算,稳健的控制,而EE稳定需要快速,高精度的校正。为了解决这个问题,我们提出了SoftA,这是一个慢速的两级框架,将上身和下半身控制将其分解为以不同频率和不同奖励运行的单独代理 ...
尽管它们在许多领域取得了成功,但基础模型建模和理解人类行为的潜力仍然在很大程度上尚未探索。我们介绍了此HTTP URL,这是为人类行为建模设计的第一个开放基础模型之一。该HTTP URL建立在开源大型语言模型上,并在各种行为数据上进行了微调,可用于理解和预测人类的决策 ...
无监督的零射强增强学习(RL)已成为预处理行为基础模型(BFMS)的强大范式,使代理商能够以零拍的方式(即,即没有其他测试时间学习或计划)来解决通过零摄影方式指定的广泛下游任务 ...