在本文中,我们提出了场景飞溅,这是一种基于动量的范式,用于视频扩散,以从单个图像中生成通用场景。现有的方法采用视频生成模型来综合新观点,遭受视频长度和场景不一致的有限,导致在进一步重建过程中导致伪影和扭曲。为了解决这个问题,我们构建了来自原始功能的嘈杂样本作为增强视频细节并保持场景一致性的动量 ...
多模式情感分析(MSA)利用多模式数据来推断用户的情感。先前的方法着重于平等地对待每种方式或静态上使用文本作为进行互动的主要方式的贡献,这忽略了每种方式可能成为主导的情况。在本文中,我们提出了一种知识引导的动态情感注意融合框架(KUDA),以进行多模式情感分析 ...
本文介绍了多模式检索仪(M^2RAG),这是一种基准测试,旨在评估多模式大语言模型(MLLMS)在利用多模式检索文档的知识中的有效性。基准标准包括四个任务:图像字幕,多模式问答,多模式的事实验证和图像重新管理。所有任务均在开放域设置中设置,需要从多模式文档收集中检索与查询相关的信息,并将其用作抹布建模的输入上下文 ...
个性化的自然语言生成可解释的建议在证明为什么建议可能与用户的兴趣相匹配的原因中起着关键作用。现有模型通常通过方面计划控制发电过程。在有希望的同时,这些方面计划的方法难以正确地生成特定的信息,从而阻止产生的解释令人信服 ...
可控的3D场景生成在虚拟现实和室内设计中具有广泛的应用,在该设计中,生成的场景应在几何形状方面表现出很高的现实主义和可控性。场景图提供了合适的数据表示,以促进这些应用程序。但是,当前基于图的场景生成方法限制在基于文本的输入中,并且对灵活的用户输入的适应性不足,从而阻碍了精确控制对象几何形状的能力 ...
我们建议使用在大规模监督视频数据集中训练的深层三维卷积网络(3D Convnets),为时空特征学习提供了一种简单但有效的方法。我们的发现是三个方面的:1)3D Convnets与2D Convnets相比,更适合时空特征学习; 2)在所有层中具有小3x3x3卷积内核的同质建筑是3D Convnets的最佳性能架构之一; 3)我们学到的功能,即C3D(卷积3D),具有简单的线性分类器在4种不同的基 ...
本文介绍了MIDI,这是一种新颖的范式,用于从单个图像中产生构图3D场景。与依赖重建或检索技术或采用多阶段对象生成对象的方法的现有方法不同,MIDI将预训练的图像到3D对象生成模型扩展到多稳态扩散模型,从而使多个3D实例同时生成具有准确的空间关系和高通用性。 MIDI的核心结合了一种新型的多构度注意机制,该机制可有效地捕获对象间的相互作用和空间连贯性,而无需复杂的多步骤过程 ...
关系分类是关系提取的重要组成部分,涉及识别两个实体之间的联系。先前的研究主要集中在将注意力机制整合到全球范围内的关系分类中,忽视了局部上下文的重要性。为了解决这一差距,本文引入了一种新颖的用于关系分类的全局,局部注意力机制 ...