我们如何使用周围的环境环境教人类机器人攀登楼梯并坐在椅子上?可以说,最简单的方法是仅向他们展示人类运动视频并将其喂给人形生物。我们介绍了VideoMimic,这是一种真正到现实的管道,挖掘了日常视频,共同重建了人类和环境,并为人类机器人制定了执行相应技能的人形机器人的全身控制策略。我们展示了我们对真实类人机器人的管道的结果,显示出稳健,可重复的上下文控制,例如楼梯上升和下降,坐姿和站立,坐在椅子和 ...
自主产生,完善和从自己的经验中学习,自动发展的大型语言模型(LLM)为超级智能提供了可扩展的途径。但是,现有的培训方法仍然很大程度上依赖于庞大的人类策划的任务和标签,通常是通过微调或增强学习的,这构成了基本的瓶颈,以推动AI系统超越人类智能的能力。为了克服此限制,我们引入了R-Zero,这是一个完全自主的框架,从头开始生成自己的培训数据 ...
阴性采样方法在隐式协作过滤中普遍存在,以从大量未标记的数据中获得负标签。由于使用结构复杂并忽视虚假负面实例的风险,由于负面抽样的两个主要问题,效率和有效性仍然无法完全实现。在本文中,我们首先通过经验观察到只有少数实例对模型学习至关重要,从而对负面实例提供了一种新颖的理解,而对于许多训练迭代,虚假的否定性往往具有稳定的预测 ...
尽管最近基于流动的图像编辑模型展示了跨不同任务的通用功能,但他们经常努力专门研究挑战的场景,尤其是那些涉及大规模形状转换的场景。执行此类结构编辑时,这些方法要么无法实现预期的形状变化,要么无意中改变了非目标区域,从而导致背景质量降低。我们提出了跟随自己的形状,这是一个无训练和无面具的框架,该框架支持对象形状的精确且可控的编辑,同时严格保留非目标内容 ...
视觉效果(VFX)是现代电影制作基础的必不可少的视觉增强。尽管视频生成模型为VFX生产提供了成本效益的解决方案,但是当前方法受到每效洛拉培训的限制,该方法将生成限制为单个效果。这种基本限制阻碍了需要空间控制复合效应的应用,即 ...
本文介绍了TBAC-Uniimage,这是一种用于多模式理解和产生的新型统一模型。我们通过与多模式大语言模型(MLLM)深入整合了预训练的扩散模型,以实现生成阶梯。以前的基于扩散的统一模型面临两个主要局限性 ...
了解3D空间关系仍然是当前视觉模型(VLM)的主要局限性。先前的工作已经通过基于单个图像或室内视频创建空间问题驱动(QA)数据集来解决此问题。但是,现实世界中的AI代理(例如机器人和自动驾驶汽车)通常依赖于以自我为中心的多视图观测值 ...
计算机视觉和机器学习技术的进步导致rgb 相机、 lidar和雷达的2d和3d人体姿势估计取得了重大发展。然而,根据图像进行人体姿态估计会受到遮挡和光照的不利影响,这在许多感兴趣的场景中都很常见。另一方面,雷达和激光雷达技术需要昂贵且耗电的专用硬件... ...