大型预训练模型的出现使视觉表示学习和自然语言处理都发生了范式转变。但是,将未标记的图像作为基本和经典的机器学习问题,仍然缺乏有效的解决方案,尤其是对于大型数据集而言。在本文中,我们提出了一条新型的图像聚类管道,该管道利用了大型预训练模型的强大特征表示,例如剪辑和群集图像在大规模上有效,有效 ...
现代学习框架通常会通过解决简单的借口任务,然后将表示形式用作下游任务的基础来训练大量未标记数据的深层神经网络。这些网络是经验设计的;因此,它们通常是不可解释的,它们的表示不是结构化的,并且它们的设计可能是多余的。白框深网,其中每个层都明确识别并转换数据中的结构,并提出了一个有希望的替代方案 ...
在本文中,我们争辩说,表示学习的自然目标是压缩和转换数据的分布,例如 Token ,向不一致的子空间支撑的低维高斯混合物。这种表示形式的好处可以通过原则上的度量(称为稀疏速率降低)进行评估,该测量同时最大程度地提高了学会表示的内在信息增益和外部稀疏性。从这个角度来看,包括 Transformer 在内的流行深层网络体系结构可以被视为实现迭代方案以优化此措施 ...
由于不确定性下的学习复杂性,部分可观察到的环境中的强化学习(RL)构成了重大挑战。尽管模拟中可用的其他信息可以增强培训,从而有效利用它仍然是一个开放的问题。为了解决这个问题,我们介绍了指导政策优化(GPO),该框架共同培训指导者和学习者 ...
我们提出了Moe-Loco,这是用于腿部机器人的多任务运动的专家(MOE)框架的混合物。我们的方法使一项政策能够处理各种地形,包括酒吧,坑,楼梯,斜坡和挡板,同时支持四足和双足步态。使用MOE,我们减轻了多任务增强学习中通常出现的梯度冲突,从而提高了训练效率和性能 ...
统一的视频和动作模型对机器人技术具有巨大的希望,其中视频为动作预测提供了丰富的场景信息,而动作为视频预测提供了动态信息。但是,有效地结合视频生成和动作预测仍然具有挑战性,而当前基于视频的方法则难以在行动准确性和推理速度中与直接策略学习的性能相匹配。为了弥合这一差距,我们介绍了统一的视频动作模型(UVA),该模型共同优化了视频和动作预测,以实现高准确性和有效的动作推断 ...
我们有兴趣在生成的视频和语言的空间中启用复杂的长马任务的视觉规划,并利用在互联网规模数据上预见的大型生成模型中的最新进展。为此,我们提出了视频语言计划(VLP),该算法由树木搜索过程组成,在该过程中,我们训练(i)视觉语言模型可以用作策略和价值功能,以及(ii)文本对视频模型作为动态模型。 VLP作为输入为长马任务指令和当前图像观察,并输出一个长期的视频计划,该计划提供了详细的多模式(视频和语言)规格,描述了如何完成最终任务 ...
对大量数据训练的大型单片生成模型已成为AI研究中日益占主导地位的方法。在本文中,我们认为我们应该通过将较小的生成模型组合在一起来构建大型生成系统。我们展示了这种组成生成方法如何使我们能够以更高的数据有效的方式学习分布,从而可以在培训时对数据分布的一部分进行概括 ...
近年来,机器人的操纵取得了巨大的进步,模仿学习政策可以成功地执行灵巧和难以模仿的任务。同时,扩展数据和模型大小导致了能力强大的语言和视觉基础模型的发展,激发了大规模创建通用机器人基础模型的大规模努力。尽管这些模型获得了巨大的热情和投资,但对现实世界绩效的有意义评估仍然是一个挑战,限制了发展的步伐并抑制了对当前能力的细微理解 ...
从图像中估算3D人类通常会产生令人难以置信的身体,这些身体倾斜,漂浮或穿透地板。这种方法忽略了一个事实,即场景通常支持身体。物理引擎可用于执行身体上的合理性,但是这些并非可区分,依靠不切实际的代理机构,并且很难将其集成到现有的优化和学习框架中 ...