以对象为中心的多感官感知、推理和交互一直是近年来的重点研究课题。然而,这些方向的进展受到可用对象集的限制,合成对象不够真实,并且大多以几何图形为中心,而 ...
(企业文档(例如表格、发票、收据、报告、合同和其他类似记录)通常在文本和空间模态的交汇处携带丰富的语义。复杂布局提供的视觉提示对于有效理解这些文档起着至关重要的作用。在本文中,我们提出了docllm,它是传统大型语言模型(LLM)的轻量级扩展 ...
大型语言模型(LLMS)在ListWise段落排名中表现出令人兴奋的表现。由于输入长度有限,现有方法通常采用滑动窗口策略。这种策略虽然有效,但效率低下,因为它涉及重复和序列化处理,通常会多次重新评估相关段落 ...
最近,野外的面部表情识别(FER)引起了许多研究人员的关注,因为它是一个有价值的主题,可以使FER技术从实验室转移到实际应用。在本文中,我们专注于这个具有挑战性但有趣的话题,并从三个方面做出了贡献。首先,我们提出了一个新的大型“野外”动态面部表达数据库DFEW(野外动态面部表情),其中包括数千个电影的16,000多个视频剪辑 ...
扩散 Transformer (DIT)在研究中引起了极大的关注。但是,它们的收敛速度缓慢。在本文中,我们旨在加速DIT培训,而无需进行任何建筑修改 ...
在本文中,我们介绍了潜在的桥梁匹配(LBM),这是一种新的,多功能和可扩展的方法,依赖于潜在空间中的桥梁匹配来实现快速的图像到图像翻译。我们表明,该方法只能使用单个推理步骤来达到各种图像到图像任务的最新结果。除了其效率外,我们还演示了该方法在不同图像翻译任务(例如对象去除,正常和深度估计以及对象重新定义)中的多功能性 ...
扩散模型在产生高质量的文本序列方面已获得突出。然而,当前的方法主要代表连续扩散空间内的离散文本,这在训练过程中会产生大量的计算开销,并导致采样速度较慢。在本文中,我们引入了一种软吸收状态,该状态促进了基于基础高斯空间重建离散突变的扩散模型,从而增强了其恢复条件信号的能力 ...
鉴于在规范的产品视图中孤立的服装图像和一个人的单独图像,虚拟的尝试任务旨在产生穿着目标服装的人的新图像。在实现这一目标方面,事先的虚拟试验作品面临两个主要挑战:a)配对(人类,服装)培训数据的可用性有限; b)在人类上生成完美匹配的质地很困难,通常会导致文字和褪色的纹理。我们的工作探讨了通过合成数据和模型改进来解决这些问题的方法 ...