能够模拟不同环境中行动的结果将彻底改变多面手智能体的大规模开发。然而,由于有限的数据覆盖范围和稀缺的动作标签,对这些世界动态进行建模,特别是对于灵巧的机器人任务,提出了重大挑战。作为实现这一目标的努力,我们引入了 DreamDojo,这是一个基础世界模型,可以从 44,000 小时以自我为中心的人类视频中学习多样化的交互和灵巧的控制。我们的数据混合代表了迄今为止用于世界模型预训练的最大视频数据集,涵盖具有不同对象和技能的广泛日常场景。为了解决动作标签的稀缺问题,我们引入连续的潜在动作作为统一的代理动作,增强未标记视频的交互知识转移。经过小规模目标机器人数据的后期训练,DreamDojo 表现出了对物理的深刻理解和精确的动作可控性。我们还设计了一个蒸馏管道,将 DreamDojo 的实时速度加速到 10.81 FPS,并进一步提高上下文一致性。我们的工作实现了基于生成世界模型的多种重要应用,包括实时远程操作、政策评估和基于模型的规划。对多个具有挑战性的分布外(OOD)基准的系统评估验证了我们的方法对于模拟开放世界、接触丰富的任务的重要性,为通用机器人世界模型铺平了道路 ...
知识图(KG)是多样化知识的结构化表示。它们广泛应用于各种智能应用中。在本文中,我们对各种类型的知识图谱(即静态知识图谱、动态知识图谱、时间知识图谱和事件知识图谱)的演变以及知识提取和推理技术进行了全面的调查。此外,我们还介绍了不同类型知识图谱的实际应用,包括财务分析的案例研究。最后,我们提出了对知识工程未来方向的看法,包括知识图谱和大型语言模型(LLM)的力量相结合的潜力,以及知识提取、推理和表示的演变 ...
分子表示学习对于各种下游应用至关重要,包括分子特性和副作用的分析和预测。虽然图神经网络(GNN)一直是分子数据建模的流行框架,但它们通常很难捕获分子表示的全部复杂性。在本文中,我们介绍了一种称为 GODE 的新方法,它解释了分子固有的双能级结构。分子拥有内在的图结构,同时充当更广泛的分子知识图谱中的节点。 GODE 将单个分子图表示与来自知识图的多域生化数据集成。通过在不同的图结构上预训练两个 GNN 并采用对比学习,GODE 有效地将分子结构与其相应的知识图子结构融合起来。这种融合产生了更强大、信息更丰富的表示,通过利用化学和生物信息来增强分子特性预测。当针对 11 项化学性质任务进行微调时,我们的模型显着优于现有基准,分类任务的平均 ROC-AUC 提高了 12.7%,回归任务的平均 RMSE/MAE 提高了 34.4%。值得注意的是,GODE 在属性预测方面超越了当前领先的模型,在分类任务中进步了 2.2%,在回归任务中进步了 7.2% ...
基于学习的全身控制器已成为人形机器人的关键驱动力,但大多数现有方法都需要针对机器人的训练。在本文中,我们研究了跨实施例人形控制问题,并表明单一策略可以通过一次性训练在各种人形机器人设计中稳健地泛化。我们介绍了 XHugWBC,一种新颖的跨实体训练框架,它通过以下方式实现通用人形控制:(1)物理一致的形态随机化,(2)跨不同人形机器人的语义对齐观察和动作空间,以及(3)建模形态和动态属性的有效策略架构。 XHugWBC 不与任何特定机器人绑定。相反,它在训练过程中内化了形态和动力学特征的广泛分布。通过从不同的随机实施例中学习运动先验,该策略获得了强大的结构偏差,支持零样本转移到以前未见过的机器人。对十二个模拟人形机器人和七个现实世界机器人的实验证明了所得到的通用控制器的强大泛化性和鲁棒性 ...
生成建模可以表述为学习映射 f,使其前推分布与数据分布相匹配。前推行为可以在推理时迭代地执行,例如在扩散和基于流的模型中。在本文中,我们提出了一种称为漂移模型的新范式,它在训练过程中演化了前推分布,并自然地允许一步推理。我们引入了一个漂移场来控制样本运动并在分布匹配时达到平衡。这导致了一个训练目标,允许神经网络优化器进化分布。在实验中,我们的一步生成器在 ImageNet 上以 256 x 256 分辨率实现了最先进的结果,潜在空间中的 FID 为 1.54,像素空间中的 FID 为 1.61。我们希望我们的工作为高质量的一步生成开辟新的机遇 ...
我们提出了稳定视频扩散 - 一种用于高分辨率、最先进的文本到视频和图像到视频生成的潜在视频扩散模型。最近,通过插入时间层并在小型高质量视频数据集上对其进行微调,为 2D 图像合成训练的潜在扩散模型已转变为生成视频模型。然而,文献中的训练方法差异很大,该领域尚未就管理视频数据的统一策略达成一致。在本文中,我们确定并评估了视频 LDM 成功训练的三个不同阶段:文本到图像预训练、视频预训练和高质量视频微调。此外,我们证明了精心策划的预训练数据集对于生成高质量视频的必要性,并提出了系统的策划流程来训练强大的基础模型,包括字幕和过滤策略。然后,我们探索微调基本模型对高质量数据的影响,并训练与闭源视频生成竞争的文本到视频模型。我们还表明,我们的基本模型为下游任务提供了强大的运动表示,例如图像到视频的生成以及对相机运动特定 LoRA 模块的适应性。最后,我们证明我们的模型提供了强大的多视图 3D 先验,并且可以作为微调多视图扩散模型的基础,该模型以前馈方式联合生成对象的多个视图,其计算预算的一小部分优于基于图像的方法。我们在此 https URL 发布代码和模型权重 ...
有效地适应大型基础模型至关重要,尤其是在计算和内存预算紧张的情况下。 LoRA 等参数高效微调 (PEFT) 方法在少参数状态下提供有限的粒度和有效性。我们提出了小波微调(WaveFT),这是一种新颖的 PEFT 方法,可以学习残差矩阵小波域中的高度稀疏更新。 WaveFT 允许精确控制可训练参数,提供细粒度的容量调整,并且具有极低的参数数量(可能远少于 LoRA 的最小值),非常适合极端参数高效的场景。使用 Stable Diffusion XL 作为基线对个性化文本到图像生成进行评估,WaveFT 显着优于 LoRA 和其他 PEFT 方法,尤其是在低参数数量下;实现卓越的主题保真度、快速对齐和图像多样性 ...
摄像机控制对于生成富有表现力的电影视频至关重要。现有的方法依赖于明确的相机参数序列作为控制条件,这对于用户来说构建起来可能很麻烦,特别是对于复杂的相机运动。为了提供更直观的相机控制方法,我们提出了 CamCloneMaster,该框架使用户能够从参考视频复制相机运动,而无需相机参数或测试时微调。 CamCloneMaster 在统一框架内无缝支持基于参考的相机控制,用于图像到视频和视频到视频任务。此外,我们还提出了相机克隆数据集,这是一个专为相机克隆学习而设计的大规模合成数据集,包含不同的场景、主题和相机运动。大量的实验和用户研究表明,CamCloneMaster 在相机可控性和视觉质量方面均优于现有方法 ...
使人形机器人能够执行敏捷和自适应的交互任务长期以来一直是机器人技术的核心挑战。当前的方法受到现实交互数据的稀缺或需要细致的、特定于任务的奖励工程的瓶颈,这限制了它们的可扩展性。为了缩小这一差距,我们提出了 HumanX,这是一个全栈框架,可以将人类视频编译为类人机器人的通用的、现实世界的交互技能,而无需特定于任务的奖励。 HumanX 集成了两个共同设计的组件:XGen,一个数据生成管道,可从视频中合成多样化且物理上合理的机器人交互数据,同时支持可扩展的数据增强; XMimic,一个统一的模仿学习框架,可以学习通用的交互技能。经过五个不同领域(篮球、足球、羽毛球、货物拾取和反应性战斗)的评估,HumanX 成功获得了 10 种不同的技能,并将它们零射击转移到物理 Unitree G1 人形机器人上。学习到的能力包括复杂的动作,例如在没有任何外部感知的情况下假动作转身后仰跳投,以及交互式任务,例如超过 10 个连续周期的持续人机传球序列 - 从单个视频演示中学习。我们的实验表明,HumanX 的泛化成功率比之前的方法高出 8 倍以上,展示了一种可扩展且与任务无关的途径,用于学习多功能的、现实世界的机器人交互技能 ...
随着多模态信息检索的快速发展,出现了日益复杂的检索任务。现有的方法主要依赖于针对特定任务的视觉语言模型的微调,通常是那些经过图像文本对比学习训练的模型。在本文中,我们探讨了重新利用生成大型多模态模型(LMM)进行检索的可能性。这种方法能够将所有检索任务统一在同一公式下,更重要的是,允许在无需额外训练的情况下推断出未见过的检索任务。我们的贡献可以概括为以下几个方面:(i)我们引入了 LamRA,这是一个多功能框架,旨在为 LMM 提供复杂的检索和重新排序功能。 (ii) 对于检索,我们采用两阶段训练策略,包括仅语言预训练和多模态指令调整,以逐步提高 LMM 的检索性能。 (iii) 对于重新排序,我们采用联合训练进行逐点和列表重新排序,提供两种不同的方法来进一步提高检索性能。 (iv)大量的实验结果强调了我们的方法在处理十多个检索任务方面的有效性,证明了在监督和零样本设置中的稳健性能,包括涉及以前未见过的检索任务的场景 ...