在合成逼真的、语音驱动的头部特写视频中实现高度同步是一项重大挑战。传统的生成对抗网络(GAN)很难保持一致的面部身份,而神经辐射场(NeRF)方法虽然可以解决这个问题,但通常会产生不匹配的嘴唇运动、面部表情不足和不稳定的头部姿势。栩栩如生的会说话的头部需要主体身份、嘴唇动作、面部表情和头部姿势的同步协调 ...

0 0 0 0 2024/04/29 arXiv:2311.17590v1 cocopink

使用 StyleGAN 进行面部处理的最新进展已经产生了令人印象深刻的结果。然而,StyleGAN 本质上仅限于以预先训练的固定图像分辨率裁剪对齐的脸部。在本文中,我们针对这一限制提出了一种简单有效的解决方案,即使用扩张卷积来重新调整 StyleGAN 中浅层感受野的大小,而无需更改任何模型参数 ...

0 0 0 0 2024/04/20 arXiv:2303.06146v2 cocopink

不同的人有不同的个性化说话风格。尽管现有的一次性头像方法在唇形同步、自然的面部表情和稳定的头部运动方面取得了显着的进步,但它们仍然无法在最终的头像视频中生成多样化的说话风格。为了解决这个问题,我们提出了一种一次性风格可控的说话人脸生成框架 ...

0 0 0 0 2024/04/19 arXiv:2301.01081v2 cocopink

在本文中,我们提出了一种新颖的双分支变换合成网络(TS-Net),用于视频运动重定向。给定一个主题视频和一个驾驶视频,TS-Net 可以根据主题视频的主题外观和驾驶视频的运动模式生成一个新的可信视频。 TS-Net 由基于扭曲的变换分支和无扭曲合成分支组成 ...

0 0 0 0 2024/04/15 arXiv:2210.01559v1 cocopink

随着真实文本篡改的激增,检测图像中的欺诈文本对于维护信息安全已变得越来越重要。然而,与专业文本操作和注释相关的高成本限制了现实世界数据集的可用性,大多数数据集依赖于合成篡改,这不能充分复制现实世界的篡改属性。为了解决这个问题,我们提出了真实文本操作(RTM)数据集,其中包含 14,250 个文本图像,其中包括使用各种技术创建的 5,986 个手动篡改图像和 5,258 个自动篡改图像,以及用于评估解决方案稳定性的 3,006 个未更改的文本图像 ...

0 0 0 0 2024/04/09 arXiv:2312.06934v2 cocopink

欺骗性图像可以在几秒钟内通过社交网络服务共享,从而带来巨大风险。图像操纵定位(IML)领域的大规模网络已经显着强调了篡改痕迹,例如边界伪影和高频信息。然而,它们容易进行图像后处理操作,这限制了现有方法的通用性和鲁棒性 ...

0 0 0 0 2024/04/09 arXiv:2401.00653v1 cocopink

错误信息已成为一个紧迫的问题。视觉和文本形式的虚假媒体在网络上广泛存在。虽然已经提出了各种深度伪造检测和文本假新闻检测方法,但它们仅针对基于二元分类的单模态伪造而设计,更不用说分析和推理跨不同模态的微妙伪造痕迹了 ...

0 0 1 1 2024/04/02 arXiv:2304.02556v1 cocopink

深度图像操纵定位(IML)模型面临训练数据不足的问题,因此严重依赖预训练。我们认为对比学习更适合解决 IML 的数据不足问题。制定相互排斥的积极和消极是对比学习的先决条件 ...

0 0 0 0 2024/04/02 arXiv:2309.14900v2 cocopink

舞蹈是一种重要的人类艺术形式,但创造新的舞蹈可能既困难又耗时。在这项工作中,我们介绍了可编辑舞蹈生成(EDGE),这是一种最先进的可编辑舞蹈生成方法,能够创建逼真的、物理上合理的舞蹈,同时保持对输入音乐的忠实。 EDGE 使用基于 Transformer 的扩散模型,与强大的音乐特征提取器 Jukebox 配合使用,并赋予非常适合舞蹈的强大编辑功能,包括联合调节和中间处理 ...

0 0 0 0 2024/04/01 arXiv:2211.10658v2 cocopink

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)