arxiv VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

名称
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
首页
https://yiyibooks.cn/arxiv/2404.10667v1/index.html
原始地址
https://arxiv.org/abs/2404.10667
描述
我们介绍了 VASA,这是一个框架,可以在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能 (VAS) 的逼真说话面孔。我们的首屈一指的模型 VASA-1 不仅能够产生与音频完美同步的嘴唇运动,还能捕捉大量面部细微差别和自然头部运动,有助于感知真实性和活力。核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发这种富有表现力和解开的面部潜在空间 ...