我们提出语义区域自适应归一化(SEAN),这是一种简单但有效的生成对抗网络构建块,以描述所需输出图像中语义区域的分割掩模为条件。使用 SEAN 标准化,我们可以构建一个可以单独控制每个语义区域的风格的网络架构,例如 ...

0 0 0 0 2024/08/20 arXiv:1911.12861v2 bnexx

我们提出了一个基于样本的图像翻译的通用框架,在给定样本图像的情况下,该框架根据不同域(例如语义分割掩模、边缘图或姿势关键点)中的输入合成逼真的图像 ...

0 0 0 0 2024/08/01 arXiv:2004.05571v1 bnexx

随着最近在学习深度生成模型方面取得的显着进展,开发用于从可重构输入进行可控图像合成的模型变得越来越有趣。本文重点关注最近出现的一项任务,即布局到图像,以学习能够从空间布局(即空间布局)合成照片级真实感图像的生成模型 ...

0 0 0 0 2024/08/01 arXiv:2003.11571v2 bnexx

尽管最近取得了成功,但用于语义图像合成的 GAN 模型在仅使用对抗性监督进行训练时仍然存在图像质量较差的问题。从历史上看,额外采用基于 VGG 的感知损失有助于克服这个问题,显着提高合成质量,但同时限制了 GAN 模型在语义图像合成方面的进展。在这项工作中,我们提出了一种新颖、简化的 GAN 模型,该模型只需要对抗性监督即可获得高质量的结果 ...

0 0 0 0 2024/08/01 arXiv:2012.04781v3 bnexx

我们提出了空间自适应布局,这是一个简单但有效的层,用于在给定输入语义布局的情况下合成感知真实图像。以前的方法直接将语义布局作为深度网络的输入,然后通过我们表明,这是次优的,因为规范化层往往会“冲走”语义信息... ...

0 0 0 0 2024/10/21 arXiv:1903.07291v2 bnexx

野外面部表情识别(FER)是一项极具挑战性的任务。最近,一些视觉 Transformer (ViT)被探索用于 FER,但与卷积神经网络(CNN)相比,大多数表现较差。这主要是因为新提出的模块由于缺乏归纳偏差而很难从头开始很好地收敛,并且容易集中在遮挡和噪声区域 ...

0 0 0 0 2024/07/11 arXiv:2212.05463v1 bnexx

面部表情识别(FER)在计算机视觉领域受到越来越多的关注。我们提出了 TransFER 模型,它可以学习丰富的关系感知局部表示。它主要由三个组件组成:Multi-Attention Dropping (MAD)、ViT-FER 和 Multi-head Self-Attention Dropping (MSAD) ...

0 0 0 0 2024/07/10 arXiv:2108.11116v1 bnexx

重建个性化的可动画头部头像在 AR/VR 领域具有重大意义。实现 3D 可变形模型 (3DMM) 的显式面部控制的现有方法通常依赖于单个主题的多视图图像或视频,使得重建过程变得复杂。此外,传统的渲染管道非常耗时,限制了实时动画的可能性 ...

0 0 0 0 2024/07/10 arXiv:2311.06443v1 bnexx

计算机视觉中的一个经典问题是从少量图像中推断出 3D 场景表示,这些图像可用于以交互速率渲染新颖的视图。之前的工作重点是重建预定义的 3D 表示,例如 ...

0 0 0 0 2024/07/10 arXiv:2111.13152v3 bnexx

虽然现有的根据野外图像进行3D面部整形的方法能够很好地恢复面部形状,但它们通常会错过微妙、极端、不及时或很少观察到的表情。我们使用SMIRK(基于图像的运动学重建空间构建)模)改进了这些方法,它忠实地从图像中重建了丰富的3D表现力。我们确定了现有方法的两个关键局限性:自监督训练公式的缺陷以及训练图像丰富表达多样性。 .. ...

0 0 0 0 2024/12/10 arXiv:2404.04104v1 bnexx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)