基本信息 - VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

arxiv VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

阅读

Star 0

名称: VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

首页: https://yiyibooks.cn/arxiv/2404.10667v1/index.html

原始地址: https://arxiv.org/abs/2404.10667

描述

我们介绍了 VASA，这是一个框架，可以在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能 (VAS) 的逼真说话面孔。我们的首屈一指的模型 VASA-1 不仅能够产生与音频完美同步的嘴唇运动，还能捕捉大量面部细微差别和自然头部运动，有助于感知真实性和活力。核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型，以及使用视频开发这种富有表现力和解开的面部潜在空间 ...