我们有兴趣在生成的视频和语言的空间中启用复杂的长马任务的视觉规划,并利用在互联网规模数据上预见的大型生成模型中的最新进展。为此,我们提出了视频语言计划(VLP),该算法由树木搜索过程组成,在该过程中,我们训练(i)视觉语言模型可以用作策略和价值功能,以及(ii)文本对视频模型作为动态模型。 VLP作为输入为长马任务指令和当前图像观察,并输出一个长期的视频计划,该计划提供了详细的多模式(视频和语言)规格,描述了如何完成最终任务 ...
对大量数据训练的大型单片生成模型已成为AI研究中日益占主导地位的方法。在本文中,我们认为我们应该通过将较小的生成模型组合在一起来构建大型生成系统。我们展示了这种组成生成方法如何使我们能够以更高的数据有效的方式学习分布,从而可以在培训时对数据分布的一部分进行概括 ...
近年来,机器人的操纵取得了巨大的进步,模仿学习政策可以成功地执行灵巧和难以模仿的任务。同时,扩展数据和模型大小导致了能力强大的语言和视觉基础模型的发展,激发了大规模创建通用机器人基础模型的大规模努力。尽管这些模型获得了巨大的热情和投资,但对现实世界绩效的有意义评估仍然是一个挑战,限制了发展的步伐并抑制了对当前能力的细微理解 ...
从图像中估算3D人类通常会产生令人难以置信的身体,这些身体倾斜,漂浮或穿透地板。这种方法忽略了一个事实,即场景通常支持身体。物理引擎可用于执行身体上的合理性,但是这些并非可区分,依靠不切实际的代理机构,并且很难将其集成到现有的优化和学习框架中 ...
在处理物理世界中的复杂任务时,人类在执行实际动作之前练习缓慢的思维。最近,这种思维范式在增强大型语言模型(LLM)方面取得了显着的进步,以解决数字域中的复杂任务。但是,对于与物理世界相互作用的机器人基础模型,缓慢思考的潜力仍然没有探索 ...
您的人形生物可以走上一杯啤酒,而不会洒了一杯啤酒吗?尽管人类生物越来越多地出现在舞蹈中,例如跳舞,交付包装,穿越崎rough的地形,在运动过程中进行细粒度的控制仍然是一个重大挑战。特别是,由于任务动力学的基本不匹配,步行远离解决方案时稳定填充的终端效应器(EE):运动需要缓慢的时间计算,稳健的控制,而EE稳定需要快速,高精度的校正。为了解决这个问题,我们提出了SoftA,这是一个慢速的两级框架,将上身和下半身控制将其分解为以不同频率和不同奖励运行的单独代理 ...
尽管它们在许多领域取得了成功,但基础模型建模和理解人类行为的潜力仍然在很大程度上尚未探索。我们介绍了此HTTP URL,这是为人类行为建模设计的第一个开放基础模型之一。该HTTP URL建立在开源大型语言模型上,并在各种行为数据上进行了微调,可用于理解和预测人类的决策 ...
无监督的零射强增强学习(RL)已成为预处理行为基础模型(BFMS)的强大范式,使代理商能够以零拍的方式(即,即没有其他测试时间学习或计划)来解决通过零摄影方式指定的广泛下游任务 ...
我们提出了一种控制模拟的类人动物以抓住对象并将其移动以遵循对象轨迹的方法。由于在用灵巧的手控制类人动物方面面临的挑战,先前的方法通常使用无形的手,仅考虑垂直升降机或短轨迹。这种有限的范围妨碍了对动画和模拟所需的对象操纵的适用性 ...
大规模的预培训从根本上改变了当今的机器学习研究:大型基础模型经过培训,然后可以被社区中的任何人(包括没有数据或计算资源的人使用来从头开始培训模型的人)以适应并遵守特定任务。将相同的框架应用于加固学习(RL)具有吸引力,因为它为解决RL的核心挑战提供了令人信服的途径,包括样本效率和鲁棒性。但是,在RL的背景下,预先培训的大型模型仍然存在着根本的挑战:行动具有长期的依赖性,因此训练一个基础模型,跨时间的原因很重要 ...