人形机器人的全身控制(WBC)见证了技能多功能性的显着进步,从而实现了诸如运动,远程操作和运动跟踪等广泛应用。尽管取得了这些成就,但现有的WBC框架仍然很大程度上依赖于劳动密集型的奖励工程,并且在任务和技能之间证明了有限的概括。这些限制阻碍了他们对任意控制模式的反应,并限制了他们在复杂的现实世界情景中的部署 ...
本文重点介绍了机器人技术中的关键挑战:将文本驱动的人类动作转化为人形机器人的可执行动作,从而实现了对新行为的有效且具有成本效益的学习。尽管现有的文本到动作生成方法达到语言和运动之间的语义一致性,但它们通常会产生运动或物理上不适合现实世界部署的动作。为了弥合这一SIM到真实的差距,我们提出了从物理反馈(RLPF)学习的强化学习,这是一个新颖的框架,将物理意识的运动评估与文本条件的运动产生集成在一起 ...
Grenander的模式理论是一个数学框架,其中模式由代数结构随机变量上的概率模型表示。在本文中,我们回顾了三个概率模型家族,即判别模型,描述性模型和生成模型。判别模型是分类器的形式 ...
深度学习的最新进展本质上是基于“小型任务的大数据”范式,根据该范式,大量数据用于训练分类器以完成一个狭窄的任务。在本文中,我们呼吁转变将此范式颠倒。具体来说,我们提出了一个“大型任务的小数据”范式,其中挑战单个人工智能(AI)系统要开发“常识”,从而使其能够在很少的培训数据中解决广泛的任务 ...
大型预训练模型的出现使视觉表示学习和自然语言处理都发生了范式转变。但是,将未标记的图像作为基本和经典的机器学习问题,仍然缺乏有效的解决方案,尤其是对于大型数据集而言。在本文中,我们提出了一条新型的图像聚类管道,该管道利用了大型预训练模型的强大特征表示,例如剪辑和群集图像在大规模上有效,有效 ...
现代学习框架通常会通过解决简单的借口任务,然后将表示形式用作下游任务的基础来训练大量未标记数据的深层神经网络。这些网络是经验设计的;因此,它们通常是不可解释的,它们的表示不是结构化的,并且它们的设计可能是多余的。白框深网,其中每个层都明确识别并转换数据中的结构,并提出了一个有希望的替代方案 ...
在本文中,我们争辩说,表示学习的自然目标是压缩和转换数据的分布,例如 Token ,向不一致的子空间支撑的低维高斯混合物。这种表示形式的好处可以通过原则上的度量(称为稀疏速率降低)进行评估,该测量同时最大程度地提高了学会表示的内在信息增益和外部稀疏性。从这个角度来看,包括 Transformer 在内的流行深层网络体系结构可以被视为实现迭代方案以优化此措施 ...
由于不确定性下的学习复杂性,部分可观察到的环境中的强化学习(RL)构成了重大挑战。尽管模拟中可用的其他信息可以增强培训,从而有效利用它仍然是一个开放的问题。为了解决这个问题,我们介绍了指导政策优化(GPO),该框架共同培训指导者和学习者 ...
我们提出了Moe-Loco,这是用于腿部机器人的多任务运动的专家(MOE)框架的混合物。我们的方法使一项政策能够处理各种地形,包括酒吧,坑,楼梯,斜坡和挡板,同时支持四足和双足步态。使用MOE,我们减轻了多任务增强学习中通常出现的梯度冲突,从而提高了训练效率和性能 ...
统一的视频和动作模型对机器人技术具有巨大的希望,其中视频为动作预测提供了丰富的场景信息,而动作为视频预测提供了动态信息。但是,有效地结合视频生成和动作预测仍然具有挑战性,而当前基于视频的方法则难以在行动准确性和推理速度中与直接策略学习的性能相匹配。为了弥合这一差距,我们介绍了统一的视频动作模型(UVA),该模型共同优化了视频和动作预测,以实现高准确性和有效的动作推断 ...