为任何人制作动画：角色动画的一致且可控的图像到视频合成

Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, Liefeng Bo
Institute for Intelligent Computing, Alibaba Group
{hooks.hl, zimu.gx, futian.zp, xisheng.sk, zhangbang.zb, liefeng.bo}@alibaba-inc.com
https://humanaigc.github.io/animate-anyone/

摘要

角色动画旨在通过驱动信号从静止图像生成角色视频。目前，扩散模型因其强大的生成能力已成为视觉生成研究的主流。然而，图像到视频领域仍然存在挑战，特别是在角色动画中，暂时保持与角色详细信息的一致性仍然是一个艰巨的问题。在本文中，我们利用扩散模型的力量，提出了一个为角色动画量身定制的新颖框架。为了保持参考图像中复杂外观特征的一致性，我们设计了 ReferenceNet 通过空间注意力来合并细节特征。为了确保可控性和连续性，我们引入了高效的姿势引导器来指导角色的运动，并采用有效的时间建模方法来确保视频帧之间平滑的帧间过渡。通过扩展训练数据，我们的方法可以为任意角色设置动画，与其他图像到视频方法相比，在角色动画方面产生更好的结果。此外，我们在图像动画基准上评估了我们的方法，取得了最先进的结果。

图1：给定参考图像（每组中最左边的图像），获得一致且可控的角色动画结果。我们的方法能够对任意角色进行动画处理，生成清晰且时间稳定的视频结果，同时保持与参考角色的外观细节的一致性。

1简介

角色动画是将源角色图像按照所需的姿势序列动画化为逼真的视频的任务，具有许多潜在的应用，例如在线零售、娱乐视频、艺术创作和虚拟角色。从 GAN[11, 1, 22] 出现开始，许多研究深入研究了图像动画和姿势转移领域[37, 39, 33, 64, 38, 61, 57, 7]。然而，生成的图像或视频仍然存在局部失真、细节模糊、语义不一致和时间不稳定等问题，阻碍了这些方法的广泛应用。

近年来，扩散模型[14] 在生成高质量图像和视频方面展现出其优越性。研究人员已经开始利用扩散模型的架构及其预先训练的强大生成能力来探索人类图像到视频的任务。 DreamPose[21] 专注于时尚图像到视频的合成，扩展了 Stable Diffusion[34] 并提出了一种适配器模块来集成图像中的 CLIP[31] 和 VAE[24] 特征。然而，DreamPose 需要对输入样本进行微调以确保结果一致，从而导致运行效率不佳。 DisCo[47] 探索人类舞蹈生成，同样修改了 Stable Diffusion，通过 CLIP 集成角色特征，并通过 ControlNet[60] 结合背景特征。然而，它在保留字符细节方面存在缺陷，并且存在帧间抖动问题。

此外，目前对角色动画的研究主要集中在特定的任务和基准上，导致泛化能力有限。最近，得益于文本到图像研究的进步[32, 29, 36, 34, 19, 2]，视频生成（例如，文本到视频，视频编辑）[12, 17, 30, 15, 23, 52, 48, 4, 10, 40, 16] 在视觉质量和多样性方面也取得了显著进展。几项研究将文本到视频的方法扩展到图像到视频[48, 8, 63, 12]。然而，这些方法无法从图像中捕获复杂的细节，提供更多多样性但缺乏精度，特别是当应用于角色动画时，导致角色外观的细粒度细节随时间变化。此外，当处理大量的角色动作时，这些方法很难产生一致稳定和连续的过程。目前，还没有观察到的同时实现通用性和一致性的角色动画方法。

在本文中，我们提出了Animate Anybody，一种能够将角色图像转换为由所需姿势序列控制的动画视频的方法。我们继承了 Stable Diffusion (SD) 的网络设计和预训练权重，并修改了去噪 UNet[35] 以适应多帧输入。为了解决保持外观一致性的挑战，我们引入了 ReferenceNet，它专门设计为对称 UNet 结构，用于捕获参考图像的空间细节。在 UNet 块的每个对应层，我们使用空间注意[46] 将 ReferenceNet 的特征集成到去噪 UNet 中。这种架构使模型能够在一致的特征空间中全面学习与参考图像的关系，这对外观细节保留的改进做出了显着贡献。为了确保姿态可控性，我们设计了一种轻量级姿态引导器，以有效地将姿态控制信号集成到去噪过程中。为了实现时间稳定性，我们引入时间层来对多个帧之间的关系进行建模，从而在模拟连续且平滑的时间运动过程的同时保留视觉质量的高分辨率细节。

我们的模型是在 5K 字符视频剪辑的内部数据集上进行训练的。图 1 显示了各种角色的动画结果。与以前的方法相比，我们的方法具有几个显着的优点。首先，它有效地保持了视频中人物外观的空间和时间一致性。其次，它生成的高清视频不会出现时间抖动或闪烁等问题。第三，它能够将任何角色图像动画化为视频，不受特定领域的限制。我们在三个特定的人类视频合成基准（UBC 时尚视频数据集[59]，TikTok 数据集[20] 和 Ted-talk 数据集[39]）上评估了我们的方法，在实验中仅使用每个基准的相应训练数据集。我们的方法取得了最先进的结果。我们还将我们的方法与在大规模数据上训练的一般图像到视频方法进行比较，我们的方法在角色动画方面展示了卓越的能力。我们设想 Animate Anybody 可以作为角色视频创作的基础解决方案，激发更多创新和创意应用程序的开发。

Refer to caption — 图2：我们的方法的概述。姿势序列最初使用 Pose Guider 进行编码，并与多帧噪声融合，然后由 Denoising UNet 进行视频生成的去噪过程。 Denoising UNet 的计算模块由 Spatial-Attention、Cross-Attention 和 Temporal-Attention 组成，如右侧虚线框所示。参考图像的集成涉及两个方面。首先，通过ReferenceNet提取详细特征并用于空间注意力。其次，通过CLIP图像编码器提取语义特征进行交叉注意力。时间注意力在时间维度上运作。最后，VAE解码器将结果解码为视频剪辑。

2相关作品

2.1 图像生成的扩散模型

在文本到图像研究中，基于扩散的方法[32, 36, 34, 29, 2, 19] 取得了明显优越的生成结果，成为研究的主流。为了降低计算复杂度，潜在扩散模型[34] 提出在潜在空间中进行去噪，在有效性和效率之间取得平衡。 ControlNet[60] 和 T2I-Adapter[27] 深入研究了视觉生成的可控性，通过结合额外的编码层，方便在各种条件下进行受控生成，例如姿势、掩码、边缘和深度。一些研究进一步研究了给定图像条件下的图像生成。 IP-Adapter[56] 使扩散模型能够生成包含给定图像提示指定内容的图像结果。 ObjectStitch[42] 和 Paint-by-Example[53] 利用 CLIP[31] 并提出基于扩散的图像编辑方法，给定图像条件。 TryonDiffusion[65] 将扩散模型应用于虚拟服装试穿任务，并引入了并行-UNet 结构。

2.2 视频生成的扩散模型

随着扩散模型在文本到图像应用中的成功，文本到视频的研究在模型结构方面广泛地从文本到图像模型中汲取了灵感。许多研究[23, 30, 17, 52, 54, 10, 26, 40, 16] 在文本到图像 (T2I) 模型的基础上探索增强帧间注意建模，以实现视频生成。一些作品通过插入时间层将预训练的 T2I 模型转变为视频生成器。 Video LDM[4] 建议首先仅在图像上预训练模型，然后在视频上训练时间层。 AnimateDiff[12] 展示了一个在大型视频数据上训练的运动模块，该模块可以在没有特定微调的情况下注入到大多数个性化的 T2I 模型中。我们的方法从此类时间建模方法中汲取灵感。

一些研究将文本到视频的功能扩展到图像到视频。 VideoComposer[48] 在训练期间将图像合并到扩散输入中作为条件控制。 AnimateDiff[12] 在去噪过程中执行图像潜在空间和随机噪声的加权混合。 VideoCrafter[8] 将来自 CLIP 的文本和视觉特征合并为交叉注意力的输入。然而，这些方法在实现稳定的人类视频生成方面仍然面临挑战，并且结合图像条件输入的探索仍然是需要进一步研究的领域。

2.3人体图像动画的扩散模型

图像动画[37, 39, 33, 64, 38, 61, 57, 7, 25, 13]，旨在根据一个或多个输入图像生成图像或视频。在最近的研究中，扩散模型提供的卓越的生成质量和稳定的可控性使其融入到人类图像动画中。 PIDM[3]提出纹理扩散块，将所需的纹理模式注入到人体姿势迁移的去噪中。 LFDM[28] 在潜在空间中合成光流序列，根据给定条件扭曲输入图像。 LEO[49] 将运动表示为一系列流映射，并采用扩散模型来合成运动代码序列。 DreamPose[21] 利用预训练的 Stable Diffusion 模型，并提出一个适配器来对 CLIP 和 VAE 图像嵌入进行建模。 DisCo[47] 从 ControlNet 中汲取灵感，将姿势和背景的控制解耦。尽管结合了扩散模型来提高生成质量，这些方法仍然难以解决结果中的纹理不一致和时间不稳定等问题。此外，没有方法可以研究和演示角色动画中更通用的功能。

3方法

我们的目标是角色动画的姿势引导图像到视频合成。给定描述角色外观和姿势序列的参考图像，我们的模型会生成该角色的动画视频。我们方法的流程如图 2 所示。在本节中，我们首先在第 3.1 节中简要介绍 Stable Diffusion，它为我们的方法奠定了基础框架和网络结构。然后，我们在第 3.1 节中详细解释设计细节。最后，我们在第 3.3 节中介绍训练过程。

3.1 初步：稳定扩散

我们的方法是稳定扩散（SD）的扩展，它是从潜在扩散模型（LDM）发展而来的。为了降低模型的计算复杂度，引入了对潜在空间中的特征分布进行建模。 SD 开发了一个自动编码器[24, 45] 来建立图像的隐式表示，它包含一个编码器 $\mathcal{E}$ 和一个解码器 $\mathcal{D}$ 。给定图像 $\mathbf{x}$ ，编码器首先将其映射到潜在表示： $\mathbf{z}$ = $\mathcal{E}$ ( $\mathbf{x}$ )，然后解码器重建它： ${\mathbf{x}}_{recon}$ = $\mathcal{D}$ ( $\mathbf{z}$ )。

SD 学习将正态分布噪声 $\epsilon$ 降噪为真实的潜在 $\mathbf{z}$ 。在训练过程中，潜在图像 $\mathbf{z}$ 以 $\mathnormal{t}$ 时间步扩散，产生潜在噪声 ${\mathbf{z}}_{t}$ 。训练去噪 UNet 来预测所应用的噪声。优化过程定义为以下目标：

{\mathbf{L}}={\mathbb{E}}_{{\mathbf{z}}_{t},c,{\epsilon},t}({||{\epsilon}-{{% \epsilon}_{\theta}}({\mathbf{z}}_{t},c,t)||}^{2}_{2})

(1)

其中 ${\epsilon}_{\theta}$ 表示去噪UNet的函数。 $\mathnormal{c}$ 表示条件信息的嵌入。在原始 SD 中，CLIP ViT-L/14[9] 文本编码器被用来将文本提示表示为文本到图像生成的符元嵌入。去噪UNet由四个下采样层、一个中间层和四个上采样层组成。层中的一个典型块包含三种类型的计算：2D 卷积、自注意力[46] 和交叉注意力（术语为 Res-Trans 块）。在文本嵌入和相应的网络特征之间进行交叉注意力。

在推断时， ${\mathbf{z}}_{T}$ 从具有初始时间步长 $\mathnormal{T}$ 的随机高斯分布中采样，并通过确定性采样过程（例如 DDPM[14]、DDIM[41]）逐步去噪和恢复为 ${\mathbf{z}}_{0}$ 。在每次迭代中，去噪 UNet 都会预测每个时间步 $\mathnormal{t}$ 对应的潜在特征上的噪声。最后， ${\mathbf{z}}_{0}$ 将被解码器 $\mathcal{D}$ 重建以获得生成图像。

3.2网络架构

概述。图 2 提供了我们方法的概述。网络的初始输入由多帧噪声组成。去噪UNet基于SD的设计进行配置，采用相同的框架和块单元，并继承了SD的训练权重。此外，我们的方法还包含三个关键组成部分：1）ReferenceNet，对参考图像中的角色的外观特征进行编码； 2）Pose Guider，编码运动控制信号，实现可控的角色动作； 3）Temporal层，对时间关系进行编码，保证角色运动的连续性。

参考网。在文本到视频的任务中，文本提示阐明了高级语义，只需要与生成的视觉内容具有语义相关性。然而，在图像到视频的任务中，图像封装了更多低级细节特征，要求生成的结果具有精确的一致性。在先前专注于图像驱动的生成的研究中，大多数方法[56, 42, 53, 21, 47, 8] 使用 CLIP 图像编码器来代替交叉注意力的文本编码器。然而，这种设计未能解决与细节一致性相关的问题。这种限制的一个原因是 CLIP 图像编码器的输入包含低分辨率 ( $224{\times}224$ ) 图像，导致大量细粒度细节信息的丢失。另一个因素是CLIP被训练来匹配文本的语义特征，强调高级特征匹配，从而导致特征编码中细节特征的缺失。

因此，我们设计了一个名为ReferenceNet的参考图像特征提取网络。我们采用与 ReferenceNet 的去噪 UNet 相同的框架，但不包括时间层。与去噪UNet类似，ReferenceNet继承了原始SD的权重，并且每个权重更新都是独立进行的。然后我们解释了将ReferenceNet中的特征集成到去噪UNet中的方法。具体而言，如图 2 所示，我们将自注意力层替换为空间注意力层。给定来自去噪 UNet 的特征图 ${x}_{1}{\in}{\mathbb{R}}^{{\mathnormal{t}}{\times}{\mathnormal{h}}{\times}{% \mathnormal{w}}{\times}{\mathnormal{c}}}$ 和来自 ReferenceNet 的 ${x}_{2}{\in}{\mathbb{R}}^{{\mathnormal{h}}{\times}{\mathnormal{w}}{\times}{% \mathnormal{c}}}$ ，我们首先将 ${x}_{2}$ 复制 $\mathnormal{t}$ 次，并将其与 ${x}_{1}$ 沿 $\mathnormal{w}$ 维度。然后我们执行自注意力并提取特征图的前半部分作为输出。这种设计有两个优点：首先，ReferenceNet 可以利用原始 SD 中预先训练的图像特征建模功能，从而产生良好初始化的特征。其次，由于ReferenceNet和去噪UNet之间本质上相同的网络结构和共享的初始化权重，去噪UNet可以选择性地从ReferenceNet中学习在同一特征空间中相关的特征。此外，使用 CLIP 图像编码器采用交叉注意力。利用与文本编码器的共享特征空间，它提供参考图像的语义特征，作为有益的初始化来加速整个网络训练过程。

ControlNet[60] 是一种类似的设计，它使用零卷积将额外的控制特征引入去噪 UNet。然而，诸如深度和边缘之类的控制信息在空间上与目标图像对齐，而参考图像和目标图像在空间上相关但未对齐。因此，ControlNet 不适合直接应用。我们将在随后的实验部分 4.4 中对此进行验证。

虽然ReferenceNet引入了与去噪UNet相当数量的参数，但在基于扩散的视频生成中，所有视频帧都经过多次去噪，而ReferenceNet在整个过程中只需要提取一次特征。因此，在推理过程中，不会导致计算开销的大幅增加。

姿势引导器。 ControlNet[60] 展示了高度鲁棒的条件生成能力，超越了文本。与这些方法不同的是，由于去噪 UNet 需要进行微调，我们选择不加入额外的控制网络，以防止计算复杂度显着增加。相反，我们采用了一个轻量级的姿势引导器。此姿势引导器使用四个卷积层（ $4{\times}4$ 核， $2{\times}2$ 步长，使用 16、32、64、128 个通道，类似于 [60] 中的条件编码器）将姿势图像与噪声潜变量的相同分辨率对齐。随后，将处理后的姿态图像添加到潜在噪声中，然后输入到去噪 UNet 中。 Pose Guider 使用高斯权重进行初始化，在最终的投影层中，我们采用零卷积。

时间层。许多研究建议将补充时间层合并到文本到图像（T2I）模型中，以捕获视频帧之间的时间依赖性。此设计有助于从基础 T2I 模型转移预训练的图像生成功能。遵循这一原则，我们的时间层集成在 Res-Trans 块内的空间注意力和交叉注意力组件之后。时间层的設計靈感來自 AnimateDiff[12]。具体来说，对于一个特征图 ${x}{\in}{\mathbb{R}}^{{\mathnormal{b}}{\times}{\mathnormal{t}}{\times}{% \mathnormal{h}}{\times}{\mathnormal{w}}{\times}{\mathnormal{c}}}$ ，我们首先将其重塑为 ${x}{\in}{\mathbb{R}}^{({\mathnormal{b}}{\times}{\mathnormal{h}}{\times}{% \mathnormal{w}}){\times}{\mathnormal{t}}{\times}{\mathnormal{c}}}$ ，然后进行时间注意力，即沿着 $\mathnormal{t}$ 维度的自注意力。来自时间层的特征通过残差连接合并到原始特征中。这种设计与我们将在下一小节中描述的两阶段训练方法相一致。时间层专门应用于去噪 UNet 的 Res-Trans 块内。对于ReferenceNet，它计算单个参考图像的特征，并且不参与时间建模。由于姿势引导器实现了连续角色运动的可控性，实验表明时间层确保了外观细节的时间平滑性和连续性，从而无需复杂的运动建模。

3.3训练策略

训练过程分为两个阶段。在第一阶段，使用单独的视频帧进行训练。在去噪 UNet 中，我们暂时排除时间层，模型将单帧噪声作为输入。 ReferenceNet 和 Pose Guider 也在这个阶段进行训练。参考图像是从整个视频剪辑中随机选择的。我们根据 SD 的预训练权重初始化去噪 UNet 和 ReferenceNet 的模型。 Pose Guider 使用高斯权重进行初始化，最终投影层除外，它使用零卷积。 VAE的编码器和解码器以及CLIP图像编码器的权重都保持固定。此阶段的优化目标是使模型在给定参考图像和目标姿态的条件下生成高质量的动画图像。在第二阶段，我们将时间层引入到先前训练的模型中，并使用 AnimateDiff[12] 的预训练权重对其进行初始化。模型的输入由 24 帧视频剪辑组成。在此阶段，我们仅训练时间层，同时固定网络其余部分的权重。

4实验

4.1实现

为了展示我们的方法在为各种角色制作动画方面的适用性，我们从互联网收集了 5K 个角色视频片段来训练我们的模型。我们使用 DWPose[55] 提取视频中角色的姿势序列，包括身体和手，并按照 OpenPose[6] 将其呈现为姿势骨骼图像。实验在 4 个 NVIDIA A100 GPU 上进行。在第一个训练阶段，对各个视频帧进行采样、调整大小并进行中心裁剪，使其分辨率为 $768{\times}768$ 。训练进行 30,000 步，批量大小为 64。在第二个训练阶段，我们使用 24 帧视频序列和批量大小 4 对时间层进行 10,000 个步骤的训练。两个学习率都设置为 1e-5。在推理过程中，我们重新调整驾驶姿势骨架的长度以近似参考图像中角色骨架的长度，并使用 DDIM 采样器进行 20 个降噪步骤。我们采用 [43] 中的时间聚合方法，将来自不同批次的結果连接起來以生成长视频。为了与其他方法进行公平比较，我们还在三个特定基准上训练了我们的模型（UBC 时尚视频数据集 [59]、TikTok 数据集 [20] 和 Ted-talk 数据集 [39]），而没有使用额外的数据，如第 4.3 节所述。

4.2定性结果

图 3 显示了我们的方法可以为任意角色制作动画，包括全身人形、半长肖像、卡通角色和人形角色。我们的方法能够生成高清且逼真的角色细节。即使在大量运动的情况下，它也能保持与参考图像的时间一致性，并表现出帧之间的时间连续性。

4.3比较

为了展示我们方法的优越性，我们在三个特定的基准上评估了它的性能：时尚视频合成、人体舞蹈生成和说话手势生成。我们还进行了一个基准测试，它结合了 Stable Diffusion、ControlNet、IP-Adapter [56] 和 AnimateDiff，名为 SD-I2V。为了定量评估图像级别的质量，我们采用了 SSIM [50]、PSNR [18] 和 LPIPS [62]。视频级别的评估使用 FVD [44] 指标。

	SSIM $\uparrow$	PSNR $\uparrow$	LPIPS $\downarrow$	FVD $\downarrow$
MRAA[39]	0.749	-	0.212	253.6
TPSMM[64]	0.746	-	0.213	247.5
BDMM[57]	0.918	24.07	0.048	148.3
DreamPose[21]	0.885	-	0.068	238.7
DreamPose*	0.879	34.75	0.111	279.6
SD-I2V	0.894	36.01	0.095	175.4
Ours	0.931	38.49	0.044	81.6

表1：时尚视频合成的定量比较。 “Dreampose*”表示没有样本微调的结果。

时尚视频合成。实验在 UBC 时尚视频数据集上进行。定量比较如表 1 所示。我们的结果优于其他方法，特别是在视频指标方面表现出显着的领先优势。定性比较如图 4 所示。为了公平比较，我们使用其开源代码在没有样本微调的情况下获得了 DreamPose 的结果。在时尚视频领域，对服装细节的精细化要求非常严格。然而，其他方法无法保持服装细节的一致性，在颜色和精细结构元素方面表现出明显的错误。相反，我们的方法产生的结果有效地保留了服装细节的一致性。

	SSIM $\uparrow$	PSNR $\uparrow$	LPIPS $\downarrow$	FVD $\downarrow$
FOMM[37]	0.648	29.01	0.335	405.2
MRAA[39]	0.672	29.39	0.296	284.8
TPSMM[64]	0.673	29.18	0.299	306.1
Disco[47]	0.668	29.03	0.292	292.8
SD-I2V	0.670	29.11	0.295	225.5
Ours	0.718	29.56	0.285	171.9

表2：人类舞蹈生成的定量比较。

人类舞蹈一代。我们在 TikTok 数据集上进行了实验。我们进行了定量比较，如表 2 所示，我们的方法取得了最佳效果。为了增强泛化能力，DisCo 结合了人类属性预训练，利用大量图像对进行模型预训练。相比之下，我们的训练完全在 TikTok 数据集上进行，产生的结果优于 DisCo。我们在图 5 中展示了与 DisCo 的定性比较。在复杂的舞蹈序列中，我们的模型在整个动作中保持了视觉上的连续性，并在处理各种角色外观方面表现出更高的鲁棒性。

	SSIM $\uparrow$	PSNR $\uparrow$	LPIPS $\downarrow$	FVD $\downarrow$
MRAA[39]	0.826	33.86	0.160	82.8
TPSMM[64]	0.830	33.81	0.157	80.7
Disco[47]	0.754	31.25	0.193	223.5
SD-I2V	0.773	32.11	0.179	158.3
Ours	0.832	33.91	0.159	80.5

表3：在 Ted-talk 数据集上的定量比较。

说话手势生成。我们还在 Ted-talk 数据集上评估了我们的方法。结果如图 6 和表 3 所示。我们的方法明显优于 DisCo 和 SD-I2V。 MRAA 和 TPSMM 使用 GT 图像作为驱动信号（视频重建），而我们仅使用姿态信息就获得了更好的结果。在另外两个评估基准（UBC，具有更复杂的服装纹理；TikTok，具有更复杂的人类动作）上，MRAA 和 TPSMM 的性能远远落后于我们的方法。

一般图像到视频的方法。目前，大量研究提出了基于大规模训练数据的具有强大生成能力的视频扩散模型。我们选择了两种最著名、最有效的图像到视频方法进行比较：AnimateDiff[12] 和 Gen-2[10]。由于这两种方法不执行姿势控制，因此我们仅比较它们保持参考图像的外观保真度的能力。如图 7 所示，当前的图像到视频方法在生成大量角色动作方面面临挑战，并且难以在视频中保持长期外观一致性，从而阻碍了对一致角色动画的有效支持。

4.4消融研究

图像条件建模。为了证明我们图像条件建模的有效性，我们探索了替代设计，包括 1）仅使用 CLIP 图像编码器来表示参考图像特征，而不集成 ReferenceNet；2）首先微调 SD，然后使用参考图像训练 ControlNet。 3）整合上述两种设计。实验在 UBC 时尚视频数据集上进行。如图 8 所示，可视化结果表明 ReferenceNet 优于其他三种设计。单纯依靠CLIP特征作为参考图像特征可以保留图像相似性，但无法充分传递细节。 ControlNet 不会增强结果，因为它的特征缺乏空间对应性，使其不适用。定量结果也如表 4 所示，证明了我们设计的优越性。

ReferenceNet 设计细节。为了证明 ReferenceNet 设计的有效性，我们进行了实验：1) 用 ResNet（ImageNet 权重）替换 UNet（SD 权重）。 2) 用特征串联替换空间注意力。定量结果如表 5 所示。我们的设计取得了最佳性能。实验 1) 表明了利用 SD 权重的必要性。 ImageNet 的图像特征与 SD 中的隐式特征之间存在一定的差距。利用 SD 的特征增强了生成过程中在同一特征空间内对调节信息的整合。实验 2) 表明了空间注意力的必要性，它使降噪 UNet 能有效地整合来自 ReferenceNet 的详细图像特征。

	SSIM $\uparrow$	PSNR $\uparrow$	LPIPS $\downarrow$	FVD $\downarrow$
CLIP	0.897	36.09	0.089	208.5
ControlNet	0.892	35.89	0.105	213.9
CLIP+ControlNet	0.898	36.03	0.086	205.4
Ours	0.931	38.49	0.044	81.6

表 4: 图像条件建模的消融研究。

	SSIM $\uparrow$	PSNR $\uparrow$	LPIPS $\downarrow$	FVD $\downarrow$
ImageNet weights	0.901	36.21	0.084	165.4
Feature-concat	0.909	36.53	0.071	132.8
Ours	0.931	38.49	0.044	81.6

表 5: ReferenceNet 设计的消融研究。

时间建模。我们进行了两个实验来评估所提出的时间建模方法的有效性： 1）不应用时间层，直接将图像在时间上连接起来以创建视频。 2）不应用两阶段训练，直接训练整个网络。定量结果如表 6 所示。缺少时间层会导致明显的纹理粘连和帧间抖动，从而导致 FVD 指标大幅下降。当不采用两阶段训练时，与图像质量相关的指标会下降。我们将此归因于以下事实：当同时优化多个帧时，网络倾向于更多地关注整体的时间视觉一致性，从而削弱了对每个单独帧细节的关注。采用两阶段训练方法可以确保生成视频帧的质量和时间平滑度。

	SSIM $\uparrow$	PSNR $\uparrow$	LPIPS $\downarrow$	FVD $\downarrow$
w/o Temporal Layer	0.925	38.28	0.049	176.7
w/o Two Stage Training	0.917	38.01	0.056	89.3
Ours	0.931	38.49	0.044	81.6

表 6: 时间建模的消融研究。

5 讨论和结论

局限性。我们的模型可能难以生成手部动作的稳定结果，有时会导致失真和运动模糊。此外，由于图像仅提供来自一个视角的信息，因此在角色移动过程中生成看不见的部分是一个病态问题，可能会遇到潜在的不稳定性。第三，由于使用了 DDPM，与基于非扩散模型的方法相比，我们的模型表现出较低的运行效率。

潜在影响。提出的方法可用于制作个人的假视频，可以使用一些人脸反欺骗技术[5, 51, 58]检测到。

结论。在本文中，我们提出了Animate Anyone，一个能够将人物照片转化为由所需姿势序列控制的动画视频的框架。我们提出了 ReferenceNet，它真正保留了复杂的角色外观，并且我们还实现了高效的姿势可控性和时间连续性。我们的方法不仅适用于一般的人物动画，而且优于现有的方法。

参考

Arjovsky et al. [2017] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. In International conference on machine learning, pages 214–223. PMLR, 2017.
Balaji et al. [2022] Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, et al. ediffi: Text-to-image diffusion models with an ensemble of expert denoisers. arXiv preprint arXiv:2211.01324, 2022.
Bhunia et al. [2023] Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Jorma Laaksonen, Mubarak Shah, and Fahad Shahbaz Khan. Person image synthesis via denoising diffusion model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5968–5976, 2023.
Blattmann et al. [2023] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22563–22575, 2023.
Boulkenafet et al. [2015] Zinelabidine Boulkenafet, Jukka Komulainen, and Abdenour Hadid. Face anti-spoofing based on color texture analysis. In 2015 IEEE international conference on image processing (ICIP), pages 2636–2640. IEEE, 2015.
Cao et al. [2017] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7291–7299, 2017.
Chan et al. [2019] Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei A Efros. Everybody dance now. In Proceedings of the IEEE/CVF international conference on computer vision, pages 5933–5942, 2019.
Chen et al. [2023] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, et al. Videocrafter1: Open diffusion models for high-quality video generation. arXiv preprint arXiv:2310.19512, 2023.
Dosovitskiy et al. [2021] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net, 2021.
Esser et al. [2023] Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, and Anastasis Germanidis. Structure and content-guided video synthesis with diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7346–7356, 2023.
Goodfellow et al. [2014] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. Advances in neural information processing systems, 27, 2014.
Guo et al. [2023] Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, and Bo Dai. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725, 2023.
Ho et al. [2023] Hsuan-I Ho, Lixin Xue, Jie Song, and Otmar Hilliges. Learning locally editable virtual humans. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 21024–21035, 2023.
Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
Ho et al. [2022a] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022a.
Ho et al. [2022b] Jonathan Ho, Tim Salimans, Alexey A. Gritsenko, William Chan, Mohammad Norouzi, and David J. Fleet. Video diffusion models. In NeurIPS, 2022b.
Hong et al. [2023] Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, and Jie Tang. Cogvideo: Large-scale pretraining for text-to-video generation via transformers. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023.
Hore and Ziou [2010] Alain Hore and Djemel Ziou. Image quality metrics: Psnr vs. ssim. In 2010 20th international conference on pattern recognition, pages 2366–2369. IEEE, 2010.
Huang et al. [2023] Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, and Jingren Zhou. Composer: Creative and controllable image synthesis with composable conditions. In International Conference on Machine Learning, 2023.
Jafarian and Park [2021] Yasamin Jafarian and Hyun Soo Park. Learning high fidelity depths of dressed humans by watching social media dance videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12753–12762, 2021.
Karras et al. [2023] Johanna Karras, Aleksander Holynski, Ting-Chun Wang, and Ira Kemelmacher-Shlizerman. Dreampose: Fashion video synthesis with stable diffusion. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 22680–22690, 2023.
Karras et al. [2019] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 4401–4410, 2019.
Khachatryan et al. [2023] Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, and Humphrey Shi. Text2video-zero: Text-to-image diffusion models are zero-shot video generators. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 15954–15964, 2023.
Kingma and Welling [2014] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. In 2nd International Conference on Learning Representations, ICLR 2014, Banff, AB, Canada, April 14-16, 2014, Conference Track Proceedings, 2014.
Liu et al. [2019] Wen Liu, Zhixin Piao, Jie Min, Wenhan Luo, Lin Ma, and Shenghua Gao. Liquid warping gan: A unified framework for human motion imitation, appearance transfer and novel view synthesis. In Proceedings of the IEEE/CVF international conference on computer vision, pages 5904–5913, 2019.
Ma et al. [2023] Yue Ma, Yingqing He, Xiaodong Cun, Xintao Wang, Ying Shan, Xiu Li, and Qifeng Chen. Follow your pose: Pose-guided text-to-video generation using pose-free videos. arXiv preprint arXiv:2304.01186, 2023.
Mou et al. [2023] Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhongang Qi, Ying Shan, and Xiaohu Qie. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. arXiv preprint arXiv:2302.08453, 2023.
Ni et al. [2023] Haomiao Ni, Changhao Shi, Kai Li, Sharon X Huang, and Martin Renqiang Min. Conditional image-to-video generation with latent flow diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18444–18455, 2023.
Nichol et al. [2021] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: Towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, 2021.
QI et al. [2023] Chenyang QI, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, and Qifeng Chen. Fatezero: Fusing attentions for zero-shot text-based video editing. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 15932–15942, 2023.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
Ren et al. [2020] Yurui Ren, Ge Li, Shan Liu, and Thomas H Li. Deep spatial transformation for pose-guided person image generation and animation. IEEE Transactions on Image Processing, 29:8622–8635, 2020.
Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
Ronneberger et al. [2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, pages 234–241. Springer, 2015.
Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35:36479–36494, 2022.
Siarohin et al. [2019a] Aliaksandr Siarohin, Stéphane Lathuilière, Sergey Tulyakov, Elisa Ricci, and Nicu Sebe. First order motion model for image animation. Advances in neural information processing systems, 32, 2019a.
Siarohin et al. [2019b] Aliaksandr Siarohin, Stéphane Lathuilière, Sergey Tulyakov, Elisa Ricci, and Nicu Sebe. Animating arbitrary objects via deep motion transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2377–2386, 2019b.
Siarohin et al. [2021] Aliaksandr Siarohin, Oliver J Woodford, Jian Ren, Menglei Chai, and Sergey Tulyakov. Motion representations for articulated animation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13653–13662, 2021.
Singer et al. [2023] Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, and Yaniv Taigman. Make-a-video: Text-to-video generation without text-video data. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023.
Song et al. [2021] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net, 2021.
Song et al. [2023] Yizhi Song, Zhifei Zhang, Zhe Lin, Scott Cohen, Brian Price, Jianming Zhang, Soo Ye Kim, and Daniel Aliaga. Objectstitch: Object compositing with diffusion model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18310–18319, 2023.
Tseng et al. [2023] Jonathan Tseng, Rodrigo Castellon, and Karen Liu. Edge: Editable dance generation from music. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 448–458, 2023.
Unterthiner et al. [2018] Thomas Unterthiner, Sjoerd Van Steenkiste, Karol Kurach, Raphael Marinier, Marcin Michalski, and Sylvain Gelly. Towards accurate generative models of video: A new metric & challenges. arXiv preprint arXiv:1812.01717, 2018.
Van Den Oord et al. [2017] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. Advances in neural information processing systems, 30, 2017.
Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
Wang et al. [2023a] Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, and Lijuan Wang. Disco: Disentangled control for referring human dance generation in real world. arXiv preprint arXiv:2307.00040, 2023a.
Wang et al. [2023b] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. Videocomposer: Compositional video synthesis with motion controllability. In Thirty-seventh Conference on Neural Information Processing Systems, 2023b.
Wang et al. [2023c] Yaohui Wang, Xin Ma, Xinyuan Chen, Antitza Dantcheva, Bo Dai, and Yu Qiao. Leo: Generative latent image animator for human video synthesis. arXiv preprint arXiv:2305.03989, 2023c.
Wang et al. [2004] Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600–612, 2004.
Wang et al. [2020] Zezheng Wang, Zitong Yu, Chenxu Zhao, Xiangyu Zhu, Yunxiao Qin, Qiusheng Zhou, Feng Zhou, and Zhen Lei. Deep spatial gradient and temporal depth learning for face anti-spoofing. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5042–5051, 2020.
Wu et al. [2023] Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7623–7633, 2023.
Yang et al. [2023a] Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen, and Fang Wen. Paint by example: Exemplar-based image editing with diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18381–18391, 2023a.
Yang et al. [2023b] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender a video: Zero-shot text-guided video-to-video translation. arXiv preprint arXiv:2306.07954, 2023b.
Yang et al. [2023c] Zhendong Yang, Ailing Zeng, Chun Yuan, and Yu Li. Effective whole-body pose estimation with two-stages distillation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4210–4220, 2023c.
Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
Yu et al. [2023] Wing-Yin Yu, Lai-Man Po, Ray CC Cheung, Yuzhi Zhao, Yu Xue, and Kun Li. Bidirectionally deformable motion modulation for video-based human pose transfer. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7502–7512, 2023.
Yu et al. [2020] Zitong Yu, Chenxu Zhao, Zezheng Wang, Yunxiao Qin, Zhuo Su, Xiaobai Li, Feng Zhou, and Guoying Zhao. Searching central difference convolutional networks for face anti-spoofing. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5295–5305, 2020.
Zablotskaia et al. [2019] Polina Zablotskaia, Aliaksandr Siarohin, Bo Zhao, and Leonid Sigal. Dwnet: Dense warp-based network for pose-guided human video generation. arXiv preprint arXiv:1910.09139, 2019.
Zhang et al. [2023a] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023a.
Zhang et al. [2022] Pengze Zhang, Lingxiao Yang, Jian-Huang Lai, and Xiaohua Xie. Exploring dual-task correlation for pose guided person image generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7713–7722, 2022.
Zhang et al. [2018] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 586–595, 2018.
Zhang et al. [2023b] Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, and Jingren Zhou. I2vgen-xl: High-quality image-to-video synthesis via cascaded diffusion models. arXiv preprint arXiv:2311.04145, 2023b.
Zhao and Zhang [2022] Jian Zhao and Hui Zhang. Thin-plate spline motion model for image animation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3657–3666, 2022.
Zhu et al. [2023] Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, and Ira Kemelmacher-Shlizerman. Tryondiffusion: A tale of two unets. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4606–4615, 2023.