图形神经网络(GNN)在各种图形学习任务中显示出令人鼓舞的结果,但它们通常会同性化,这可能会导致异性图的性能差。连接的节点可能来自不同的类别或异性图上具有不同特征。在本文中,我们提出了一种新颖的GNN,该GNN通过使用对流扩散方程(CDE)对节点的信息流进行建模,从而结合了异质的原理 ...
灵巧机器人最重要但具有挑战性的技能之一就是掌握各种各样的物体。先前的大部分工作都受到速度,一般性或对深度图和物体姿势的依赖的限制。在本文中,我们介绍了Dextrah-RGB,该系统可以从RGB图像输入中执行灵巧的手臂握住端到端 ...
视觉语言动作(VLA)模型在实际机器人操作中显示出很大的潜力。但是,由于有限,不一致的示威,尤其是在接触良好的环境中,通过监督学习斗争来微调这些模型,以实现稳健的表现。在本文中,我们为VLA模型提出了一种加强的微调方法,该模型名为ConRft,该方法由离线和在线微调组成,并具有基于统一的一致性培训目标,以应对这些挑战 ...
奖励功能的设计通常对增强学习的现实应用构成了重大的实际挑战。诸如逆强化学习试图克服这一挑战之类的方法,但需要专家示范,在实践中获得很难或昂贵。我们提出了与事件(VICE)的变异反控制,该反向控制(VICE)将逆增强学习方法推广到不需要完整演示的情况下,例如,只有所需目标状态的样本可用时 ...
测试时间推论已成为一种有力的范式,可以使语言模型更长地``思考''更长时间,更仔细地对复杂的挑战,就像熟练的人类专家一样。尽管增强学习(RL)可以在可验证的任务上推动语言模型中的自我完善,但一些模型表现出可观的增长,而另一些模型很快就会迅速发展。例如,我们发现QWEN-2 ...
我们提出了一种以人为中心的方法,用于对3D房间布局进行采样和合成其2D图像,以获取具有完美每像素地面真相的大规模2D/3D图像数据。提出了归因的空间和-OR图(S-AOG)代表室内场景。 S-AOG是概率的语法模型,其中终端节点是对象实体 ...
在机器人从人类示范中学习中,预测和执行一系列动作序列而没有中间重建,称为动作块。然而,其报告对学习政策的影响是不一致的:一些研究发现这对于取得强大的结果至关重要,而另一些研究则观察到绩效下降。在本文中,我们首先剖析了动作块如何影响学习者与示威者之间的差异 ...
跑酷是腿部运动的巨大挑战,即使对于四倍的机器人来说,需要积极的感知和各种动作来克服多个挑战性的障碍。现有的类人体运动方法可以优化单个跑酷轨迹的轨迹,或者训练增强型学习政策,只是以大量的运动参考来行走。在这项工作中,我们提出了一个框架,用于学习基于端到端视力的全身跑酷机器人政策,该政策针对人类机器人,该政策在没有任何动议的情况下克服了多个跑酷技能 ...
在这项工作中,我们解决了从台式设置下的点云观察中学习通用机器人灵巧抓握的问题。目的是以高质量和多样化的方式掌握和提升物体,并在数百个类别甚至看不见的类别中概括。受并行抓地力握把的成功管道的启发,我们将任务分为两个阶段:1)GRASP提案(姿势)一代和2)目标条件的GRASP执行 ...
尽管强化学习方法为自动技能获取提供了强大的框架,但对于机器人等领域中基于学习的实际控制问题,模仿学习通常提供了更方便、更容易获得的替代方案。特别是,像DAgger这样的交互式模仿学习方法,它询问近乎最优的专家在线干预以收集校正数据,以解决困扰幼稚行为克隆的分布转移挑战,可以在理论和实践中获得良好的性能,而无需手动操作指定的奖励函数和完整强化学习方法的其他组成部分。在本文中,我们探讨了离策略强化学习如何在与交互式模仿学习相似但可能更实用的假设下提高性能 ...