我们介绍了 VASA,这是一个框架,可以在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能 (VAS) 的逼真说话面孔。我们的首屈一指的模型 VASA-1 不仅能够产生与音频完美同步的嘴唇运动,还能捕捉大量面部细微差别和自然头部运动,有助于感知真实性和活力。核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发这种富有表现力和解开的面部潜在空间 ...
这项工作提出了 AnyDoor,一种基于扩散的图像生成器,能够以和谐的方式将目标对象传送到用户指定位置的新场景。我们的模型无需调整每个对象的参数,只需训练一次,即可在推理阶段轻松推广到不同的对象场景组合。这种具有挑战性的零样本设置需要对某个对象进行充分的表征 ...