arxiv PersonaTalk: Bring Attention to Your Persona in Visual Dubbing

/documents/74430/

基本信息

文件基本信息

名称
PersonaTalk: Bring Attention to Your Persona in Visual Dubbing
描述
对于音频驱动的视觉配音来说,在合成准确的唇形同步的同时维护和突出演讲者的角色仍然是一个相当大的挑战。现有方法无法捕捉说话者独特的说话风格或保留面部细节。在本文中,我们提出了 PersonaTalk,一个基于注意力的两阶段框架,包括几何构造和面部渲染,用于高保真和个性化的视觉配音。在第一阶段,我们提出了一种风格感知的音频编码模块,通过交叉注意层将说话风格注入到音频特征中。然后,使用风格化的音频特征来驱动扬声器的模板几何形状以获得口型同步的几何形状。在第二阶段,引入双注意力面部渲染器来渲染目标几何形状的纹理。它由两个并行的交叉注意力层组成,即 Lip-Attention 和 Face-Attention,分别从不同的参考帧中采样纹理来渲染整个脸部。通过我们的创新设计,可以很好地保留复杂的面部细节。综合实验和用户研究证明了我们在视觉质量、口型同步准确性和角色保留方面优于其他最先进方法的优势。此外,作为一个个人通用框架,PersonaTalk 可以像最先进的个人特定方法一样实现有竞争力的表现。项目页面:此 https URL ...