本文介绍了MIDI,这是一种新颖的范式,用于从单个图像中产生构图3D场景。与依赖重建或检索技术或采用多阶段对象生成对象的方法的现有方法不同,MIDI将预训练的图像到3D对象生成模型扩展到多稳态扩散模型,从而使多个3D实例同时生成具有准确的空间关系和高通用性。 MIDI的核心结合了一种新型的多构度注意机制,该机制可有效地捕获对象间的相互作用和空间连贯性,而无需复杂的多步骤过程 ...
关系分类是关系提取的重要组成部分,涉及识别两个实体之间的联系。先前的研究主要集中在将注意力机制整合到全球范围内的关系分类中,忽视了局部上下文的重要性。为了解决这一差距,本文引入了一种新颖的用于关系分类的全局,局部注意力机制 ...
拥有一个可以在不同环境中操纵任意物体的机器人的宏伟目标与机器人数据集的缺乏是不一致的。由于人工工作、运营成本和安全挑战,获取和增长此类数据集非常艰巨。通往这种通用代理的道路需要一个能够广泛泛化但在合理的数据预算内进行训练的结构化框架... ...
随着大型语言模型(LLM)的快速发展,机器人开始享受大语言模型带来的新互动方法的好处。由于Edge计算满足了快速响应,隐私和网络自治的需求,因此我们认为这有助于在各个行业的机器人导航中广泛部署大型模型。为了启用Edge设备上语言模型的本地部署,我们采用了一些模型增强方法 ...
收集匹配良好的多媒体数据集对于训练跨模式检索模型至关重要。但是,在实际情况下,从互联网中收集了大量的多模式数据,这不可避免地包含部分不匹配的对(PMP)。毫无疑问,这种语义无关的数据将极大地损害跨模式检索性能 ...
联合学习的最新进展表明了其在分散数据集中学习的有希望的能力。但是,由于参与该框架的对手可能出于对抗目的毒化全球模型的潜在风险,因此引起了大量工作。本文通过NLP模型的稀有单词嵌入来研究模型中毒对后门攻击的可行性 ...
虽然现有的根据野外图像进行3D面部整形的方法能够很好地恢复面部形状,但它们通常会错过微妙、极端、不及时或很少观察到的表情。我们使用SMIRK(基于图像的运动学重建空间构建)模)改进了这些方法,它忠实地从图像中重建了丰富的3D表现力。我们确定了现有方法的两个关键局限性:自监督训练公式的缺陷以及训练图像丰富表达多样性。 .. ...
我们提出了Flare,这是一种旨在从未校准的稀疏视图图像(即,只有2-8个输入)中推断出高质量的相机姿势和3D几何形状,这是现实世界中的一个具有挑战性但实用的环境 ...