MaskGIT:掩码生成式图像Transformer

Huiwen Chang Han Zhang Lu Jiang Ce Liu  William T. Freeman
Google Research
摘要

在计算机视觉领域,生成式Transformer在合成高保真度和高分辨率图像方面获得了迅速普及。 然而,到目前为止,最好的生成式Transformer模型仍然将图像简单地视为一系列符元,并根据光栅扫描顺序(即逐行)对图像进行顺序解码。 我们发现这种策略既不理想也不高效。 本文提出了一种使用双向Transformer解码器的新型图像合成范式,我们将其称为MaskGIT。 在训练期间,MaskGIT学习通过关注所有方向的符元来预测随机掩码的符元。 在推理时,模型从同时生成图像的所有符元开始,然后根据之前的生成迭代地细化图像。 我们的实验表明,MaskGIT在ImageNet数据集上显著优于最先进的Transformer模型,并将自回归解码速度提高了64倍。 此外,我们说明MaskGIT可以轻松地扩展到各种图像编辑任务,例如修复、外推和图像操作。

[Uncaptioned image]
图1 MaskGIT在图像合成和操作任务上的示例生成 . 我们展示了MaskGIT是一个灵活的模型,它可以在以下方面生成高质量的样本:(a)类别条件合成,(b)类别条件图像操作,例如 用给定类别中的对象替换边界框中的选定对象,以及(c)图像外推。 这里显示的示例在三列中的分辨率分别为512×512、512×512和512×2560。 放大查看细节。
脚注文本: 目前隶属于微软Azure AI。

1 引言

Refer to caption
图 2: 顺序解码和 MaskGIT 的计划并行解码之间的比较。 第 1 行和第 3 行是每次迭代的输入潜在掩码,第 2 行和第 4 行是每个模型在该迭代时生成的样本。 我们的解码从所有未知代码(用浅灰色标记)开始,并逐渐用越来越分散的预测(用深灰色标记)填充潜在表示,其中预测符元的数量随着迭代次数的增加而急剧增加。 MaskGIT 在 8 次迭代中完成了解码,而顺序方法需要 256 轮。

近年来,深度图像合成领域取得了很大进展。 目前,最先进的结果是生成对抗网络 (GAN),它们能够以极快的速度合成高保真图像。 但是,它们也存在一些众所周知的问题,包括训练不稳定和模式崩溃,导致样本多样性不足。 解决这些问题仍然是开放的研究问题。

受 Transformer [48] 和 GPT [5] 在 NLP 中取得成功的启发,生成式 Transformer 模型在图像合成中越来越受到关注 [7, 15, 37] 通常,这些方法旨在将图像建模为一个序列,并利用现有的自回归模型来生成图像。 图像生成分为两个阶段:第一阶段是将图像量化为一系列离散符元(或视觉词); 第二阶段是学习一个自回归模型(例如,Transformer)来基于先前生成的结果按顺序生成图像符元(自回归解码)。 与 GAN 中使用的微妙的极小极大优化不同,这些模型是通过最大似然估计学习的。 由于设计上的差异,现有工作已经证明了它们在提供稳定训练和改进分布覆盖率或多样性方面优于 GAN 的优势。

现有的生成式 Transformer 工作主要集中在第一阶段, 如何量化图像以最大限度地减少信息损失,并共享从 NLP 中借鉴的相同第二阶段。 因此,即使是最先进的生成式 Transformer [15, 35] 仍然天真地将图像视为一个序列,其中图像被展平为一个 1D 的符元序列,遵循光栅扫描顺序, 从左到右逐行 (参见 2)。 我们发现这种表示对于图像既非最佳也非高效。 与文本不同,图像不是按顺序排列的。 想象一下一件艺术作品是如何创作的。 画家从素描开始,然后通过填充或调整细节来逐步完善它,这与之前工作 [7, 15] 中使用的逐行打印形成鲜明对比。 此外,将图像视为一个平面序列意味着自回归序列长度呈二次方增长,很容易形成一个极长的序列——比任何自然语言句子都要长。 这不仅给建模长期相关性带来了挑战,而且还使解码变得难以处理。 例如,使用 32x32 个符元自回归地在 GPU 上生成一张图像需要相当可观的 30 秒时间。

本文介绍了一种新的用于图像合成的双向 Transformer,称为掩码生成图像 Transformer (MaskGIT)。 在训练过程中,MaskGIT 在与 BERT [11] 中的掩码预测类似的代理任务上进行训练。 在推理时,MaskGIT 采用一种新颖的非自回归解码方法,以恒定步数合成图像。 具体来说,在每次迭代中,模型并行地预测所有符元,但只保留最自信的符元。 其余符元被屏蔽,并在下一轮迭代中重新预测。 掩码比率逐渐减小,直到所有符元在经过几次迭代的细化后生成。 如图 2 所示,MaskGIT 的解码速度比自回归解码快一个数量级,因为它只需要 8 步而不是 256 步来生成图像,并且每一步的预测都是可并行的。 此外,双向自注意力机制允许模型从所有方向的生成令牌中生成新的令牌,而不是仅根据光栅扫描顺序的先前令牌进行条件化。 我们发现掩码调度(i.e. 每次迭代被掩盖的图像比例)会显著影响生成质量。 我们建议使用余弦调度,并在消融研究中证实了其有效性。

在 ImageNet 基准测试中,我们通过实验证明,MaskGIT 比最先进的自回归 Transformer(i.e. VQGAN)快得多(最多快 64 倍),并且能够生成更高质量的样本,用于 256×256 和 512×512 分辨率的类条件生成。 即使与领先的 GAN 模型(i.e. BigGAN)和扩散模型(i.e. ADM [12])相比,MaskGIT 也提供了相当的样本质量,同时产生更有利的多样性。 值得注意的是,我们的模型在分类准确性得分 (CAS) [36] 和 FID[23] 上为合成 512×512 图像建立了新的最先进水平。 据我们所知,本文首次提供了证明掩码建模在常见 ImageNet 基准测试上进行图像生成的有效性的证据。

此外,MaskGIT 的多方向性质使其很容易扩展到图像操作任务,而这些任务对于自回归模型来说是困难的。 1 显示了类条件图像编辑的新应用,其中 MaskGIT 根据给定类别重新生成边界框内的内容,同时保持上下文(框外)不变。 这个任务对于自回归模型来说要么不可行,要么对于 GAN 模型来说很困难,但对于我们的模型来说却很简单。 在数量上,我们通过将 MaskGIT 应用于图像修复和任意方向上的图像外推来证明这种灵活性。 即使我们的模型不是为这些任务而设计的,它在每个任务上也获得了与专用模型相当的性能。

2 相关工作

2.1 图像合成

深度生成模型 [29, 45, 17, 53, 41, 12, 46, 34] 在图像合成任务中取得了许多成功。 基于 GAN 的方法在生成高保真样本方面展现出惊人的能力 [17, 4, 27, 53, 44]. 相比之下,基于似然的模型,例如变分自动编码器 (VAE) [29, 45]、扩散模型 [41, 12, 24] 和自回归模型 [46, 34],提供了分布覆盖范围,因此可以生成更多样化的样本 [41, 45, 46].

但是,直接在像素空间中最大化似然可能很具有挑战性。 因此, VQVAE [47, 37] 提议分两个阶段在潜在空间中生成图像。 首先是 标记化,它试图将图像压缩成离散的潜在空间,主要包含三个部分:

  • 一个编码器 E,它学习将图像 xH×W×3 标记化成潜在嵌入 E(x)

  • 一个码本 𝐞kD,k1,2,,K,用于最近邻查找,将嵌入量化为视觉标记,以及

  • 一个解码器 G,它根据视觉标记 𝐞 预测重建后的图像 x^

在第二阶段,它首先使用深度自回归模型预测视觉标记的潜在先验,然后使用第一阶段的解码器将标记序列映射到图像像素。 由于这种两阶段方法的有效性,许多方法都遵循这种范式。 DALL-E [35] 使用 Transformer [48] 来改进第二阶段中的标记预测。 VQGAN [15] 在第一阶段添加了对抗性损失和感知损失 [26, 54],以提高图像保真度。 我们的同期研究 VIM [51] 提议使用 VIT 主干 [13] 来进一步改进标记化阶段。 由于这些方法仍然使用自回归模型,因此第二阶段的解码时间与标记序列长度成正比。

2.2 使用双向 Transformer 进行掩码建模

Transformer 架构 [48] 最初是在 NLP 中提出的,最近已扩展到计算机视觉 [13, 6] Transformer 由多个自注意力层组成,允许捕获序列中所有元素对之间的交互。 特别是,BERT [11] 引入了掩码语言建模 (MLM) 任务用于语言表示学习。 BERT [11] 中使用的双向自注意力允许利用来自两个方向的上下文预测 MLM 中的掩码符元。 在视觉方面,BERT [11] 中的掩码建模已被扩展到图像表示学习 [21, 2],其中图像被量化为离散符元。 然而,由于使用双向注意力执行自回归解码的难度,很少有工作成功地将相同的掩码建模应用于图像生成 [56] 据我们所知,本文提供了第一个证据,证明了掩码建模在常见 ImageNet 基准上用于图像生成的有效性。 我们的工作灵感来自 NLP 中的双向机器翻译 [16, 20, 19],我们的新颖之处在于提出的新的掩码策略和解码算法,正如我们的实验所证实的那样,这些策略和算法对于图像生成至关重要。

Refer to caption
图 3: 管道概述。 MaskGIT 遵循一个两阶段设计,包括 1) 将图像标记化为视觉符元的标记器,以及 2) 执行 MVTM 的双向 Transformer 模型,即学习预测随机掩码的视觉符元。

3 方法

我们的目标是设计一个新的图像合成范式,利用并行解码和双向生成。

我们遵循 2.1 中讨论的两阶段方案,如图 3 所示。 由于我们的目标是改进第二阶段,因此我们对第一阶段采用与 VQGAN 模型 [15] 相同的设置,并将标记步骤的潜在改进留待将来工作。

对于第二阶段,我们建议通过 掩码视觉符元建模 (MVTM) 来学习双向 Transformer。 我们在 3.1 中介绍了 MVTM 训练,在 3.2 中介绍了采样过程。 然后,我们将在 3.3 中讨论掩码设计这一关键技术。

3.1 训练中的 MVTM

𝐘=[yi]i=1N 表示将图像输入到 VQ 编码器后获得的潜在符元,其中 N 是重塑后的符元矩阵的长度,𝐌=[mi]i=1N 是相应的二进制掩码。 在训练期间,我们对符元的子集进行采样,并将它们替换为特殊的 [MASK] 符元。 如果 mi=1,则用 [MASK] 替换符元 yi;否则,当 mi=0 时,yi 将保持不变。

采样过程由掩码调度函数 γ(r)(0,1] 参数化,并按如下方式执行:我们首先从 01 采样一个比率,然后在 𝐘 中均匀地选择 γ(r)N 个符元来放置掩码,其中 N 是长度。 掩码调度会显著影响图像生成的质量,这将在 3.3 中讨论。

Y𝐌¯ 表示为将掩码 𝐌 应用于 𝐘 后得到的结果。 训练目标是最小化掩码符元的负对数似然:

mask=𝔼𝐘𝒟[i[1,N],mi=1logp(yi|Y𝐌¯)], (1)

具体来说,我们将掩码后的 Y𝐌¯ 输入到多层双向 Transformer 中,以预测每个掩码符元的概率 P(yi|Y𝐌¯),其中负对数似然被计算为真实 one-hot 符元和预测符元之间的交叉熵。 注意与自回归建模的关键区别:MVTM 中的条件依赖关系有两个方向,这允许图像生成通过关注图像中的所有符元来利用更丰富的上下文。

3.2 迭代解码

在自回归解码中,符元是根据先前生成的输出按顺序生成的。 这个过程不可并行化,因此对于图像来说非常慢,因为图像标记长度,例如 256 或 1024,通常比语言的长度大得多。 我们引入了一种新颖的解码方法,其中图像中的所有符元都以并行方式同时生成。 由于 MTVM 的双向自注意力,这是可行的。

从理论上讲,我们的模型能够在一遍推断中推断所有符元并生成整个图像。 我们发现这具有挑战性,因为与训练任务不一致。 下面介绍了所提出的迭代解码。 为了在推断时生成图像,我们从一个空白画布开始,所有符元都被屏蔽,. Y𝐌(0). 对于迭代 t,我们的算法按如下方式运行:

  1. 1.

    预测。 给定当前迭代中被屏蔽的符元 Y𝐌(t),我们的模型预测所有被屏蔽位置的概率,表示为 p(t)N×K,并行。

  2. 2.

    采样。 在每个被屏蔽位置 i,我们根据其预测概率 pi(t)K 在代码本中所有可能的符元上采样一个符元 yi(t) 采样一个符元 yi(t) 后,其相应的预测分数用作“置信度”分数,指示模型对此预测的置信度。 对于 Y𝐌(t) 中未被屏蔽的位置,我们简单地将其置信度分数设置为 1.0

  3. 3.

    屏蔽计划。 我们根据屏蔽计划函数 γ 通过 n=γ(tT)N 计算要屏蔽的符元数量,其中 N 是输入长度,T 是迭代总数。

  4. 4.

    屏蔽。 我们通过在 Y𝐌(t) 中屏蔽 n 个符元来获得 Y𝐌(t+1) 迭代 t+1 的屏蔽 𝐌(t+1) 是根据以下公式计算的:

    mi(t+1)={1,if ci<sortedj(cj)[n].0,otherwise.,

    其中 cii 个符元的置信度得分。

解码算法在 T 步内合成图像。 在每次迭代中,模型同时预测所有符元,但只保留最自信的符元。 剩余的符元将被屏蔽,并在下一轮迭代中重新预测。 掩蔽率会逐渐降低,直到在 T 次迭代内生成所有符元。 在实践中,掩蔽符元会用温度退火法随机采样,以鼓励更多样性,我们将在 3 中讨论其影响。 2 说明了我们解码过程的一个示例。 它在 T=8 次迭代中生成图像,其中每次迭代中未屏蔽的符元在网格中被突出显示,例如.t=1 我们只保留 1 个符元并屏蔽掉其余符元时。

3.3 掩蔽设计

我们发现,图像生成的质量受掩蔽设计的显著影响。 我们通过掩蔽调度函数 γ() 对掩蔽过程进行建模,该函数计算给定潜在符元的掩蔽率。 正如讨论的那样,函数 γ 用于训练和推理。 在推理时,它接收 0/T,1/T,,(T1)/T 的输入,表示解码的进度。 在训练中,我们在 [0,1) 中随机采样一个比率 r 来模拟各种解码场景。

BERT 使用 15% 的固定掩蔽率 [11].,它始终掩蔽 15% 的符元,这对于我们的任务来说不合适,因为我们的解码器需要从头开始生成图像。 因此需要新的掩蔽调度。 在讨论具体方案之前,我们首先考察遮蔽调度函数的性质。 首先,γ(r)需要是一个在01之间有界的连续函数,对于r[0,1] 其次,γ(r)应该随着r的增加(单调地)递减,并且满足γ(0)1γ(1)0 第二个性质确保了我们解码算法的收敛性。

本文考虑了常见的函数,并进行了简单的变换,使其满足这些性质。 8 可视化了这些函数,这些函数被分成三组:

  • 线性函数是一个简单的解决方案,每次遮蔽相同数量的符元。

  • 凹函数捕捉到图像生成遵循从少到多的信息流的直觉。 在开始时,大多数符元都被遮蔽,因此模型只需要对模型感到自信的一些正确预测进行预测。 接近结尾时,遮蔽比例急剧下降,迫使模型进行更多正确的预测。 在这个过程中,有效信息在增加。 凹函数族包括余弦、平方、立方和指数函数。

  • 凸函数则相反地,实现了一个从多到少的过程。 模型需要在最初的几次迭代中确定大多数符元。 这个族包括平方根和对数函数。

我们在 3 中对上述遮蔽调度函数进行了实证比较,发现 余弦 函数在我们所有实验中表现最好。

4 实验

在本节中,我们从质量、效率和灵活性方面对 MaskGIT 在图像生成方面的性能进行了实证评估。 4.2 中,我们在 ImageNet [10] 256×256 和 512×512 上的标准类条件图像生成任务上评估了 MaskGIT。 在 4.3 中,我们通过展示 MaskGIT 在图像修复、图像外延和图像编辑三个图像编辑任务上的性能来展示 MaskGIT 的多功能性。 在 3 中,我们验证了掩码调度设计方案的必要性。 我们将发布代码和模型,以供可重复性研究使用。

4.1 实验设置

对于每个数据集,我们只训练一个自动编码器、解码器和代码本,它们在所有实验中使用 1024 个符号对裁剪后的 256x256 图像进行训练。 图像始终以 16 的固定因子进行压缩,.H×W 到一个大小为 h×w 的符号网格,其中 h=H/16w=W/16 我们发现,这个自动编码器与代码本一起可以被重复使用来合成 512×512 图像。

本工作中的所有模型都具有相同的配置:24 层、8 个注意力头、768 个嵌入维度和 3072 个隐藏维度。 我们的模型使用可学习的位置嵌入[48]、层归一化[1] 和截断正态分布初始化(标准差=0.02)。 我们使用以下训练超参数:标签平滑=0.1、dropout 率=0.1、Adam 优化器 [28],其中 β1=0.9β2=0.96 我们使用 RandomResizeAndCrop 进行数据增强。 所有模型都在 4x4 TPU 设备上训练,批次大小为 256。 ImageNet 模型训练了 300 个 epoch,而 Places2 模型训练了 200 个 epoch。

4.2 类条件图像合成

我们评估了我们的模型在 ImageNet 256×256 和 512×512 上的类条件图像合成的性能。 我们主要的结果总结在表 1 中。

质量。 在 ImageNet 256×256 上,没有使用任何特殊的采样策略,例如束搜索、top-k 或核采样启发式方法 [25] 或分类器引导 [37],我们在 Fréchet Inception Distance (FID) [23] (6.18 vs 15.78) 和 Inception Score (IS) (182.1 vs 78.3) 方面都显著优于 VQGAN [15] 我们还在附录 B 中报告了基于分类器的拒绝采样的结果。

我们还使用与 MaskGIT 相同的标记器和超参数训练了一个 VQGAN 基线,以进一步突出双向和单向 Transformer 之间的差异,并发现无论是在哪种分辨率上,MaskGIT 仍然比我们实现的基线高出显著的优势。

此外,MaskGIT 在两种分辨率上都改进了 BigGAN 的 FID,在 512×512 上实现了新的最先进水平,FID 为 7.32

Refer to caption
图 4: VQGAN[15] 和我们之间的 Transformer 运行时比较。 所有结果都在单个 GPU 上运行。
Model FID IS Prec Rec # params # steps CAS ×100
Top-1 (76.6) Top-5 (93.1)
ImageNet 256×256
DCTransformer [32] 36.51 n/a 0.36 0.67 738M >1024
BigGAN-deep [4] 6.95 198.2 0.87 0.28 160M 1 43.99 67.89
Improved DDPM [33] 12.26 n/a 0.70 0.62 280M 250
ADM [12] 10.94 101.0 0.69 0.63 554M 250
VQVAE-2 [37] 31.11 45 0.36 0.57 13.5B 5120 54.83 77.59
VQGAN [15] 15.78 78.3 n/a n/a 1.4B 256
VQGAN 18.65 80.4 0.78 0.26 227M 256 53.10 76.18
MaskGIT (Ours) 6.18 182.1 0.80 0.51 227M 8 63.14 84.45
ImageNet 512×512
BigGAN-deep [4] 8.43 232.5 0.88 0.29 160M 1 44.02 68.22
ADM [12] 23.24 58.06 0.73 0.60 559M 250
VQGAN 26.52 66.8 0.73 0.31 227M 1024 51.29 74.24
MaskGIT (Ours) 7.32 156.0 0.78 0.50 227M 12 63.43 84.79
表 1: ImageNet 256×256 和 512×512 上最先进的生成模型的定量比较。 “# 步数” 指的是生成样本所需的次数。 表示我们使用与我们相同的架构和设置训练的模型; 表示从先前出版物中获取的值; 基于 pytorch 实现 [39] 估算。
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
BigGAN-deep (FID=6.95) MaskGIT (FID=6.18) Training Set
图 5: 我们提出的 MaskGIT 方法与 BigGAN-deep [4] 在 ImageNet 256×256 上的样本多样性比较。 从上到下样本的类别 ID 分别为 009, 980993 请参考附录以了解更多比较。
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
图 6: 类条件图像编辑。 给定每对左侧的输入图像,以及目标类别“虎猫”,MaskGIT 用虎猫替换边界框区域,表明了我们模型的组合能力。
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
Input —— MaskGIT (Our Samples) ——
图 7: 修复和外推。 给定单个输入图像,MaskGIT 为不同方向的修复(第一行)和外推(最后两行)合成多样化的结果。
Task Model FID IS
Outpainting Boundless [43] 35.02 6.15
Right 50% In&Out [8] 23.57 7.18
InfinityGAN [31] 10.60 5.57
Boundless [43] TF 7.80 5.99
MaskGIT (Ours) 512 6.78 11.69
Inpainting DeepFill [52] 11.51 22.55
Center 50%×50% ICT[49] 13.63 17.70
HiFill [50]512 16.60 19.93
CoModGAN[57]512 7.13 21.82
MaskGIT (Ours)512 7.92 22.95
表 2: Places2 上修复和外推的定量比较。 512 在 512×512 个样本上评估,而其他在相应的 256×256 个样本上评估,与它们的训练一致; 来自先前工作; 使用在 Places2 子集上训练的发布模型评估; 使用 TFHub 模型[18] 评估。

速度。 我们通过评估每个模型生成样本所需的步数,. 前向传递,来评估模型速度。 如表 1 所示,在所有非基于 GAN 的模型中,MaskGIT 在两种分辨率上需要的步骤最少。

为了进一步证实 MaskGIT 和自回归模型之间的速度差异,我们在 MaskGIT 和 VQGAN 的解码过程中进行运行时比较。 如图 4 所示,MaskGIT 将 VQGAN 的速度显著提高了 30-64 倍,并且随着图像分辨率(以及输入标记长度)的增长,速度提升更加明显。

多样性。 除样本质量外,我们还考虑分类准确率得分 (CAS) [36] 和精确率/召回率 [30] 作为评估样本多样性的两个指标。

CAS 首先仅在候选模型生成的样本上训练一个 ResNet-50 分类器 [22],然后测量该分类器在 ImageNet 验证集上的分类准确率。 1 中的最后两列展示了 CAS 结果,其中包含在真实 ImageNet 训练数据上训练的分类器的得分作为参考(前 1 名准确率为 76.6%,前 5 名准确率为 93.1%)。 对于图像分辨率 256×256,我们遵循使用数据增强 RandAugment [9] 的普遍做法,并在附录 B 中报告了未经增强训练的得分。 我们发现,MaskGIT 在 VQVAE-2 和 VQGAN 之前的工作中取得了显著的优势,在两种分辨率上的 ImageNet 基准测试中都创造了 CAS 的最新技术水平。

1 中的精确率/召回率结果表明,与 BigGAN 相比,MaskGIT 实现了更好的覆盖率(召回率),与基于似然的模型(如 VQVAE-2 和扩散模型)相比,MaskGIT 实现了更好的样本质量(精确率)。 与我们的基线 VQGAN 相比,我们通过召回率提高了多样性,同时略微提高了其精确率。

与 BigGAN 的样本相比,MaskGIT 的样本更加多样,具有更多变化的照明、姿势、比例和上下文,如图 5 所示。 附录 B 中提供了更多比较。

4.3 图像编辑应用

在本小节中,我们介绍了 MaskGIT 在三个图像编辑任务上的直接应用:类别条件图像编辑、图像修复和图像外推。 如果我们将这三个任务看作只是对 MaskGIT 在其迭代解码中使用的初始二进制掩码 𝐌 的约束,如 3.2 中所述,那么这三个任务几乎可以很容易地转化为 MaskGIT 可以处理的任务。 我们表明,无需对架构进行修改或任何特定于任务的训练,MaskGIT 能够在所有三个应用中生成非常引人注目的结果。 此外,MaskGIT 在图像修复和图像外绘方面获得了与专用模型相当的性能,即使它不是专门为任何一项任务而设计的。

类条件图像编辑。 我们定义了一个新的类条件图像编辑任务来展示 MaskGIT 的灵活性。 在此任务中,模型会重新生成在给定类别的边界框内指定的內容,同时保留上下文,框外的內容。 由于违反了其预测顺序,因此自回归方法是不可行的。

然而,对于 MaskGIT 来说,如果我们将边界框区域视为迭代解码算法的初始掩码的输入,那么这是一个微不足道的任务。 6 显示了一些示例结果。 更多内容可以在附录 C 中找到。

在这些示例中,我们观察到 MaskGIT 可以合理地替换所选对象,同时保留甚至在一定程度上完成背景中的上下文。 此外,我们发现 MaskGIT 似乎能够合成 ImageNet 训练集中没有见过的非自然但合理的组合,例如飞翔的猫、碗里的猫和花中的猫。 这表明 MaskGIT 偶然地学习了用于构成的有用表示,这些表示可以在未来工作中的相关任务中进一步利用。

图像修复。 图像修复或图像完成是一项基本的图像编辑任务,旨在合成缺失区域的内容,使完成后的图像看起来视觉上逼真。 传统的基于补丁的方法 [3] 在纹理区域工作良好,而基于深度学习的方法 [52, 50, 57, 38, 14] 已被证明可以合成需要更好语义一致性的图像。 这两种方法在计算机视觉领域都得到了广泛的研究。

我们通过对遮蔽图像进行符元化并将修复遮罩解释为我们迭代解码中的初始遮罩来将 MaskGIT 扩展到此问题。 然后,我们根据 [8] 中的遮罩边界,通过线性混合输出图像与输入图像来合成输出图像。 为了与我们基线的训练相匹配,我们在 Places2 [58] 数据集的 512×512 中心裁剪图像上训练 MaskGIT。 所有超参数都与在 ImageNet 上训练的 MaskGIT 模型相同。

我们在具有中央 50% × 50% 遮罩的修复中比较了 MaskGIT 与常见的基于 GAN 的基线,包括 DeepFillv2 [52] 和 HiFill [50],这些基线在 Places2 验证集上进行评估。 2 总结了定量比较。 MaskGIT 在 FID 和 IS 上都显著超过 DeepFill 和 HiFill,同时实现了接近最先进的修复方法 CoModGAN [57] 的分数。 我们在附录 E 中展示了与 CoModGAN 的更多定性比较。

图像外推。 外推,或图像外推,是一种图像编辑任务,最近受到了越来越多的关注。 与修复相比,它被认为是一个更具挑战性的任务,因为来自周围像素的约束较少,因此在预测区域中存在更多的不确定性。 我们对问题的适应和在以下评估中使用的模型与修复中使用的相同。

我们与常见的基于 GAN 的基线进行了比较,包括 Boundless [43]、In&Out [8]、InfinityGAN [31] 和 CoModGAN [57],这些基线在向右外推 50% 比例时进行了比较。 我们在 InfinityGAN [31] 和 In&Out [8] 的作者慷慨提供的图像集上进行评估。

2 总结了定量比较。 MaskGIT 超越所有基线,并实现了最先进的 FID 和 IS。 如图 7 所示,MaskGIT 能够在相同的输入下使用不同的种子合成不同的结果。 我们观察到 MaskGIT 特别擅长完成物体和全局结构,我们假设这是由于模型通过 Transformer 中的全局注意力学习了有用的表示。

4.4 消融研究

γ T FID IS NLL
Exponential 8 7.89 156.3 4.83
Cubic 9 7.26 165.2 4.63
Square 10 6.35 179.9 4.38
Cosine 10 6.06 181.5 4.22
Linear 16 7.51 113.2 3.75
Square Root 32 12.33 99.0 3.34
Logarithmic 60 29.17 47.9 3.08
表格 3: 关于掩码调度函数的消融结果。 我们报告了每个候选调度函数的最佳 FID、IS 和负对数似然损失。

我们在 ImageNet 256×256 上使用默认设置进行消融实验。

掩码调度。 MaskGIT 的一个关键设计是在训练和迭代解码中使用的掩码调度函数。 我们比较了 3.3 中讨论的函数,在图 8 中可视化它们,并在表 3 中总结结果。

我们观察到,凹函数通常比线性函数获得更好的 FID 和 IS,其次是凸函数。 虽然余弦函数和平方函数相对于其他函数的表现类似,但余弦函数在所有得分上都略微优于平方函数,这使得余弦函数成为我们模型中的默认函数。

我们假设凹函数表现良好,因为它们 1) 通过更困难的案例来挑战训练 (i.e. 鼓励更大的掩码比率),以及 2) 在解码过程中适当地优先考虑从少到多的预测。 也就是说,过度优先级似乎也是有代价的,如立方函数比平方函数差,而指数函数比所有其他凹函数差得多所示。

Refer to caption
图 8: 遮罩调度函数的选择 γ(tT),和 迭代次数T . 在左侧,我们可视化了七个用于γ的函数。 在右侧,我们展示了模型 FID 分数相对于解码迭代次数T的线图。 在候选中,我们发现余弦函数取得了最佳的 FID。

迭代次数。 我们通过使用不同的T运行所有候选遮罩函数,研究了迭代次数 (T) 对我们模型的影响。 如图8所示,在相同设置下,更多迭代次数并不一定更好:随着T的增加,除了始终表现不佳的对数函数外,所有其他函数都达到了一个“最佳点”,模型的性能在再次下降之前达到峰值。 当函数变得不那么凹时,最佳点也会“延迟”。 如图所示,在实现强 FID 的函数中(i.e. 余弦、平方和线性),余弦函数不仅具有最强的整体分数,而且在总共812次迭代中具有最早的最佳点。 我们假设这些最佳点存在的原因是,过多的迭代可能会阻止模型保留不太自信的预测,从而降低符元的多样性。 我们认为,进一步研究遮罩设计对于未来的工作将很有趣。

5 结论

在本文中,我们提出了 MaskGIT,这是一种使用双向 Transformer 解码器的全新图像合成范式。 MaskGIT 在掩蔽视觉符元建模上进行训练,学习在固定迭代次数内使用迭代解码过程生成样本。 实验结果表明,MaskGIT 在条件图像生成方面明显优于最先进的 Transformer 模型,并且我们的模型很容易扩展到各种图像操作任务。 由于 MaskGIT 在性能方面与最先进的 GANs 相媲美,因此将我们的方法应用于其他合成任务是未来工作的一个很有前景的方向。 请参阅附录F,了解局限性和未来工作。

致谢 作者感谢孔祥对相关工作的启发,并感谢匿名审稿人提出的宝贵意见。

参考文献

  • [1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. Layer normalization, 2016.
  • [2] Hangbo Bao, Li Dong, Songhao Piao, and Furu Wei. BEit: BERT pre-training of image transformers. In International Conference on Learning Representations, 2022.
  • [3] Connelly Barnes, Eli Shechtman, Adam Finkelstein, and Dan B Goldman. PatchMatch: A randomized correspondence algorithm for structural image editing. ACM Transactions on Graphics (Proc. SIGGRAPH), 28(3), Aug. 2009.
  • [4] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural image synthesis. In ICLR, 2019.
  • [5] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In NeurIPS, 2020.
  • [6] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In Proceedings of the International Conference on Computer Vision (ICCV), 2021.
  • [7] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, and Ilya Sutskever. Generative pretraining from pixels. In International Conference on Machine Learning, pages 1691–1703. PMLR, 2020.
  • [8] Yen-Chi Cheng, Chieh Hubert Lin, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, and Ming-Hsuan Yang. In&out: Diverse image outpainting via gan inversion. arXiv preprint arXiv:2104.00675, 2021.
  • [9] Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V. Le. Randaugment: Practical automated data augmentation with a reduced search space, 2019.
  • [10] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.
  • [11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. In Jill Burstein, Christy Doran, and Thamar Solorio, editors, NAACL-HLT, 2019.
  • [12] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat GANs on image synthesis. In A. Beygelzimer, Y. Dauphin, P. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, 2021.
  • [13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.
  • [14] Patrick Esser, Robin Rombach, Andreas Blattmann, and Björn Ommer. Imagebart: Bidirectional context with multinomial diffusion for autoregressive image synthesis, 2021.
  • [15] Patrick Esser, Robin Rombach, and Björn Ommer. Taming transformers for high-resolution image synthesis. In CVPR, 2021.
  • [16] Marjan Ghazvininejad, Omer Levy, Yinhan Liu, and Luke Zettlemoyer. Mask-predict: Parallel decoding of conditional masked language models, 2019.
  • [17] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In NeurIPS, 2014.
  • [18] Google. Tfhub model of boundless. https://tfhub.dev/google/boundless/half/1, 2021.
  • [19] Jiatao Gu, James Bradbury, Caiming Xiong, Victor OK Li, and Richard Socher. Non-autoregressive neural machine translation. In ICLR, 2018.
  • [20] Jiatao Gu and Xiang Kong. Fully non-autoregressive neural machine translation: Tricks of the trade, 2020.
  • [21] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. Masked autoencoders are scalable vision learners, 2021.
  • [22] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.
  • [23] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In NeurIPS, 2017.
  • [24] Jonathan Ho, Chitwan Saharia, William Chan, David J Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. arXiv preprint arXiv:2106.15282, 2021.
  • [25] Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration, 2019.
  • [26] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In European conference on computer vision, pages 694–711. Springer, 2016.
  • [27] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of StyleGAN. In CVPR, 2020.
  • [28] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
  • [29] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. In ICLR, 2014.
  • [30] Tuomas Kynkäänniemi, Tero Karras, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Improved precision and recall metric for assessing generative models. In NeurIPS, 2019.
  • [31] Chieh Hubert Lin, Hsin-Ying Lee, Yen-Chi Cheng, Sergey Tulyakov, and Ming-Hsuan Yang. Infinitygan: Towards infinite-resolution image synthesis. arXiv preprint arXiv:2104.03963, 2021.
  • [32] Charlie Nash, Jacob Menick, Sander Dieleman, and Peter W. Battaglia. Generating images with sparse representations, 2021.
  • [33] Alex Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. arXiv preprint arXiv:2102.09672, 2021.
  • [34] Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser, Noam Shazeer, Alexander Ku, and Dustin Tran. Image transformer. In Jennifer G. Dy and Andreas Krause, editors, ICML, 2018.
  • [35] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In Marina Meila and Tong Zhang, editors, ICML, 2021.
  • [36] Suman V. Ravuri and Oriol Vinyals. Classification accuracy score for conditional generative models. In Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché Buc, Emily B. Fox, and Roman Garnett, editors, NeurIPS, pages 12247–12258, 2019.
  • [37] Ali Razavi, Aäron van den Oord, and Oriol Vinyals. Generating diverse high-fidelity images with VQ-VAE-2. In Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B. Fox, and Roman Garnett, editors, NeurIPS, 2019.
  • [38] Chitwan Saharia, William Chan, Huiwen Chang, Chris A. Lee, Jonathan Ho, Tim Salimans, David J. Fleet, and Mohammad Norouzi. Palette: Image-to-image diffusion models, 2021.
  • [39] Kim Seonghyeon. Implementation of generating diverse high-fidelity images with vq-vae-2 in pytorch. https://github.com/rosinality/vq-vae-2-pytorch, 2020.
  • [40] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition, 2015.
  • [41] Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. In Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B. Fox, and Roman Garnett, editors, NeurIPS, 2019.
  • [42] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818–2826, 2016.
  • [43] Piotr Teterwak, Aaron Sarna, Dilip Krishnan, Aaron Maschinot, David Belanger, Ce Liu, and William T Freeman. Boundless: Generative adversarial networks for image extension. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10521–10530, 2019.
  • [44] Hung-Yu Tseng, Lu Jiang, Ce Liu, Ming-Hsuan Yang, and Weilong Yang. Regularizing generative adversarial networks under limited data. In CVPR, 2021.
  • [45] Arash Vahdat and Jan Kautz. NVAE: A deep hierarchical variational autoencoder. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, editors, NeurIPS, 2020.
  • [46] Aäron van den Oord, Nal Kalchbrenner, Lasse Espeholt, Koray Kavukcuoglu, Oriol Vinyals, and Alex Graves. Conditional image generation with pixelcnn decoders. In Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett, editors, NeurIPS, 2016.
  • [47] Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett, editors, NeurIPS, 2017.
  • [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017.
  • [49] Ziyu Wan, Jingbo Zhang, Dongdong Chen, and Jing Liao. High-fidelity pluralistic image completion with transformers. arXiv preprint arXiv:2103.14031, 2021.
  • [50] Zili Yi, Qiang Tang, Shekoofeh Azizi, Daesik Jang, and Zhan Xu. Contextual residual aggregation for ultra high-resolution image inpainting. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7508–7517, 2020.
  • [51] Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved VQGAN. arXiv preprint arXiv:2110.04627, 2021.
  • [52] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S Huang. Free-form image inpainting with gated convolution. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4471–4480, 2019.
  • [53] Han Zhang, Ian J. Goodfellow, Dimitris N. Metaxas, and Augustus Odena. Self-attention generative adversarial networks. In ICML, 2019.
  • [54] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 586–595, 2018.
  • [55] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, 2018.
  • [56] Zhu Zhang, Jianxin Ma, Chang Zhou, Rui Men, Zhikang Li, Ming Ding, Jie Tang, Jingren Zhou, and Hongxia Yang. UFC-BERT: Unifying multi-modal controls for conditional image synthesis. In A. Beygelzimer, Y. Dauphin, P. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, 2021.
  • [57] Shengyu Zhao, Jonathan Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial networks. In International Conference on Learning Representations (ICLR), 2021.
  • [58] Bolei Zhou, Agata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
Original [Uncaptioned image] [Uncaptioned image]
Mask 95% Mask 90% Mask 85% Mask 75% Mask 95% Mask 90% Mask 85% Mask 75%
Example Input Mask [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image]
Reconstruction Sample [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image]
Median of 100 Samples [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image] [Uncaptioned image]
图 9: MaskGIT 在图像重建上的示例。 MaskGIT 使用随机输入掩码(第二行,未知符元用浅灰色标记)从原始图像(第一行)中提取出掩码符元,并输出重建图像(第三行)。 然后,我们随机抽取 100 个具有相同掩码比例的掩码,并在第四行中说明 100 个重建样本的中位数。

附录 A 关于图像重建的讨论

4.2 中,我们主要评估了 MaskGIT 在类条件图像生成任务上的表现。 在这里,我们提供更多关于其在图像重建性能方面的讨论。 首先,我们随机抽取输入掩码 M,掩码比例为 r,即遮蔽了视觉符元的一部分,然后运行 MaskGIT 的迭代解码算法来重建图像。 10 显示了重建样本的 PSNR 和 LPIPS[55] 作为 r 的函数,而图 9 则可视化了这个过程的两个示例,其中 r 的范围从 95%75%

We observe that MaskGIT reconstructs holistic information (e.g. pose and shape of the foreground objects) even with a very high percentage (e.g. 95%) of tokens masked out. 更重要的是,似乎在 90% 左右存在一个拐点:当掩码比例下降到 90% 之前,重建质量和一致性都大幅度提高,但在 90% 之后,进一步的改进速度会减慢。 9例如中的重建样本与原始图像之间的视觉相似度从 95% 大幅跃升至 90%,证实了这一观察结果。 当掩模比例低于 90% 时,老虎前面的栅栏和汽车的颜色都能被一致地捕捉到,但在 95% 时则不然。

换句话说,我们发现视觉符元是高度冗余的。 对于整体重建,只有很小一部分(例如. 10%)的标记是必需的;其余的仅改善了更精细的外观或细节的恢复。 这与我们在 3.3 中提出的掩码设计背后的直觉相呼应,即预测前几个符元是图像生成的關鍵。 一篇同时发表的论文 MAE [21] 讨论了类似关于图像空间冗余的观察结果。 在他们的工作中,他们发现对输入图像进行高比例的掩码,会为图像表示学习提供一个非平凡且有意义的自监督任务。

Refer to caption Refer to caption
图 10: 通过 PSNR 和 LPIPS[55] 测量重建质量和多样性。

附录 B 其他条件图像生成结果

本节报告了关于条件图像生成的更多结果。

我们遵循之前基于 Transformer 的方法[37, 15],使用基于分类器的拒绝抽样来提高样本质量评分。 具体来说,我们使用预训练的 ResNet 分类器[22] 根据预测概率对输出样本进行评分,并按照 VQGAN [15] 中的方法,保留接受率为 0.05 的样本。 如表 4 所示,MaskGIT 表明比 VQGAN 有持续的改进,并且与使用分类器引导的 ADM 相当[12] 更重要的是,通过添加拒绝抽样,MaskGIT 在 256×256 和 342.0 上实现了最先进的 Inception 分数 (355.6 on 512×512)。

在表 5 中,我们报告了使用 Inception 特征 [42] 计算的精确度和召回率分数。 与我们在表 1 中报告的基于 VGG[40] 特征的分数形成对比(为了与先前工作[30, 12] 进行更直接的比较),我们发现基于 Inception 特征的分数与我们的定性观察结果更一致,即 VQGAN 的样本比 BigGAN 的样本更多样。 在两种度量下,MaskGIT 的召回率分数都优于 BigGAN 和 VQGAN。 我们还报告了在未经 RandAugment[9] 增强训练的分类器上评估的 CAS。 与我们的主要结果一致,MaskGIT 以较大优势超过了 BigGAN 和我们的基线 VQGAN。

最后,我们在图 111213 中展示了 MaskGIT 生成的类条件样本与 BigGAN-deep 和 VQVAE-2 生成的样本的一些比较。

Dataset Model Classifier guidance FID IS
ImageNet ADM [12] 1.0 guidance 4.59 186.70
256×256 VQGAN [15] 0.05 acceptance rate 5.88 304.8
MaskGIT 0.05 acceptance rate 4.02 355.6
ImageNet ADM [12] 1.0 guidance 7.72 172.71
512×512 MaskGIT 0.05 acceptance rate 4.46 342.0
表 4: 使用分类器引导的方法在 ImageNet 上进行类条件图像合成。
Model Prec Rec CAS ×100
Top-1 (73.1) Top-5 (91.5)
BigGAN-deep [4] 0.82 0.27 42.65 65.92
VQ-GAN 0.61 0.47 47.50 68.90
MaskGIT (Ours) 0.78 0.50 58.20 79.65
表 5: 在 ImageNet 256×256 上对 BigGAN-deep 和我们的基线 VQGAN 进行更量化的比较。 表示我们使用与我们的架构和设置相同的架构和设置训练的模型。
BigGAN-deep (FID=6.95) VQVAE-2 (FID=31) MaskGIT (FID=6.18)
Refer to caption Refer to caption Refer to caption
Refer to caption  Refer to caption  Refer to caption
图 11: 更多多样性比较 BigGAN-deep 与截断 1.0、VQVAE-2[37] 和我们提出的 MaskGIT 方法在 ImageNet 上的比较。 表示从论文中提取的样本。
BigGAN-deep (FID=6.95) VQVAE-2 (FID=31) MaskGIT (FID=6.18)
Refer to caption  Refer to caption  Refer to caption
Refer to caption  Refer to caption  Refer to caption
图 12: 更多多样性比较 BigGAN-deep 与截断 1.0、VQVAE-2[37] 和我们提出的 MaskGIT 方法在 ImageNet 上的比较。 表示从论文中提取的样本。
BigGAN-deep (FID=6.95) VQVAE-2 (FID=31) MaskGIT (FID=6.18)
Refer to caption  Refer to caption  Refer to caption
Refer to caption  Refer to caption  Refer to caption
图 13: BigGAN-deep 与截断 1.0、VQVAE-2[37] 和我们提出的 MaskGIT 方法在 ImageNet 上的多样性比较。 代表从论文中提取的样本。

附录 C 条件类图像编辑应用的更多示例

Input Image Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Goldfish [001] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Ice Bear [296] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Argaric [992] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Lorikeet [90] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Train [829] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Tiger [292] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 14: 条件类图像编辑的更多示例。 在每一列中,底部图像使用顶部图像、左侧的 ImageNet 类标签以及主对象的边界框(下采样到潜在空间,如第二行所示)合成。
Input MaskGIT (Ours)
Refer to caption Refer to caption
Refer to caption Refer to caption
Refer to caption Refer to caption
Refer to caption Refer to caption
Refer to caption Refer to caption
Refer to caption Refer to caption
图 15: 水平图像外推的更多示例(从 512×256 到 512×2304)。 合成的“全景图”是通过在两个方向上重复应用 MaskGIT 的外推功能水平创建的。

我们在图 14中展示了条件类图像编辑的更多示例,以及在图 15中展示了图像条件全景图合成的示例。

附录 D 与 SOTA 基于 Transformer 的方法的图像外推比较

在图 1617中,我们展示了 MaskGIT、ImageGPT[7] 和 VQGAN[15] 之间的一些外推比较。 在每一组图像中,我们展示了地面真值(左)、仅使用地面真值上半部分的外推样本(中)以及仅使用地面真值下半部分的外推样本(右)。

MaskGIT 和 VQGAN 都可以通过利用标记来执行更高分辨率的操作,因此比 ImageGPT(在最大分辨率为 192×192 上运行)实现更高的样本保真度。 同时,MaskGIT 比 ImageGPT 和 VQGAN 表现出更强的灵活性,因为它可以在任意方向上进行外推(例如向上和向下),而 ImageGPT 和 VQGAN 由于其自回归特性,只能使用单个模型在一个方向上进行外推。

Groundtruth —— Outpaint bottom 50% —— —— Outpaint top 50% ——
ImageGPT[7] Refer to caption Refer to caption Refer to caption
Refer to caption VQGAN[15] Refer to caption Refer to caption Refer to caption
MaskGIT (Ours) Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
ImageGPT[7] Refer to caption Refer to caption Refer to caption
Refer to caption VQGAN[15] Refer to caption Refer to caption Refer to caption
MaskGIT (Ours) Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 16: 与基于像素的方法 ImageGPT[7] 和基于 Transformer 的方法 VQGAN[15] 的外推比较。
Groundtruth —— Outpaint bottom 50% —— —— Outpaint top 50% ——
ImageGPT[7] Refer to caption Refer to caption Refer to caption
Refer to caption VQGAN[15] Refer to caption Refer to caption Refer to caption
MaskGIT (Ours) Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
ImageGPT[7] Refer to caption Refer to caption Refer to caption
Refer to caption VQGAN[15] Refer to caption Refer to caption Refer to caption
MaskGIT (Ours) Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 17: 与基于像素的方法 ImageGPT[7] 和基于 Transformer 的方法 VQGAN[15] 的外推比较。

附录 E 图像修复和外推与最先进的基于 GAN 的方法的比较

在本节中,我们在图 18 和图 19 中展示了与最先进的基于 GAN 的图像补全方法的更多定性比较。 定量结果已在 4.3 中讨论。

我们发现,与之前的基于 GAN 的方法相比,MaskGIT 在连贯地补全结构方面表现出更强的能力,并且其样本包含更少的伪影。 在图 19 中,MaskGIT 完成了第二行的桥和倒数第二行的建筑,而所有 GAN 方法都难以完成。

Input DeepFillv2[52] HiFill[50] CoModGAN[57] MaskGIT (Ours) Groundtruth
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 18: 图像修复的更多视觉比较 在 Places2[58] 上与最先进的 GAN 方法比较。

此外,我们还使用 CoModGAN 比较了大遮罩率的图像补全任务,分别以中心 50%×50% 和中心 31.25×31.25% 为条件,这些是传统 GAN 的挑战性案例。 示例如图 20 所示。

Input Boundless[43] InfinityGAN[31] CoModGAN MaskGIT (Ours) Groundtruth
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 19: 图像外推的更多视觉比较。 与最先进的 GAN 方法比较。 ✳ 示例由作者慷慨提供。
Input CoModGAN MaskGIT (Ours) Input CoModGAN MaskGIT (Ours)
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 20: 使用 CoModGAN[57] 在大型外绘掩码上进行外绘的视觉比较。

附录 F 局限性和失败案例

在图 21 中,我们展示了我们方法的几个局限性和失败案例。 (A) 和 (B) 是 MaskGIT 外绘结果中语义和颜色偏移的示例。 由于其有限的注意力大小,当 MaskGIT 外绘另一端时,它可能会“忘记”从一端合成语义或颜色。 (C) 和 (D) 显示了当我们的方法应用于外绘和内绘时,它有时可能会忽略或修改边界上的对象的情况。 (E) 展示了 MaskGIT 的失败模式,其中它会导致过度平滑或在复杂结构(如人脸、文本和对称物体)上创建不希望出现的伪影。 针对这些情况的改进仍有待未来的研究。

Input Our Outpainting Samples
(A) Refer to caption Refer to caption
(B) Refer to caption Refer to caption
Input —— Our Outpainting Samples —— Groundtruth
(C) Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Input ——Our Inpainting Samples —— Groundtruth
(D) Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
——Our Class-conditional Samples ——
(E) Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 21: 局限性和失败案例。