具有深度语言理解的真实感文本到图像扩散模型

Chitwan Saharia , William Chan¹¹footnotemark: 1 , Saurabh Saxena , Lala Li²²footnotemark: 2 , Jay Whang²²footnotemark: 2 ,
Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan,
S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans,
Jonathan Ho²²footnotemark: 2 , David J Fleet²²footnotemark: 2 , Mohammad Norouzi¹¹footnotemark: 1
{sahariac,williamchan,mnorouzi}@google.com
{srbs,lala,jwhang,jonathanho,davidfleet}@google.com
Google Research, Brain Team
Toronto, Ontario, Canada Equal contribution.Core contribution.

摘要

我们推出 Imagen，一种文本到图像的扩散模型，具有前所未有的照片真实感和深层次的语言理解。 Imagen 建立在大型 Transformer 语言模型在理解文本方面的强大功能之上，并依赖于扩散模型在高保真图像生成方面的优势。我们的关键发现是，在纯文本语料库上进行预训练的通用大型语言模型（例如 T5）在编码文本以进行图像合成方面出奇地有效：增加 Imagen 中语言模型的大小可以大大提高样本保真度和图像文本对齐不仅仅是增加图像扩散模型的尺寸。 Imagen 在 COCO 数据集上达到了新的最先进的 FID 分数 7.27，而无需在 COCO 上进行训练，并且人类评估者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。为了更深入地评估文本到图像模型，我们引入了 DrawBench，这是一个全面且具有挑战性的文本到图像模型基准。通过 DrawBench，我们将 Imagen 与最新的方法（包括 VQ-GAN+CLIP、潜在扩散模型、GLIDE 和 DALL-E 2）进行比较，发现在并排比较中，人类评分者更喜欢 Imagen，无论是在样本方面还是其他模型质量和图像文本对齐。请参阅 imagen.research.google 了解结果概述。

1简介

多模态学习最近开始受到关注，其中文本到图像合成[53,12,57]和图像-文本对比学习[49,31,74]最前沿。这些模型通过创意图像生成[22, 54]和编辑应用程序[21,41,34]改变了研究界并吸引了广泛的公众关注。为了进一步研究这一研究方向，我们引入了 Imagen，一种文本到图像的扩散模型，它将 Transformer 语言模型 (LM) [15, 52] 的强大功能与高保真扩散模型 [28,29,16,41] 在文本到图像的合成中提供前所未有的真实感和深层次的语言理解。与之前仅使用图像文本数据进行模型训练 [例如, 53, 41] 的工作相比，Imagen 背后的关键发现是来自大型 LM [52, 15] 的文本嵌入，在纯文本语料库上进行预训练，对于文本到图像的合成非常有效。请参阅图1了解选定示例。

Refer to caption — (a) Sprouts in the shape of text ‘Imagen’ coming out of a fairytale book.

Imagen 包含一个冻结的 T5-XXL [52] 编码器，用于将输入文本映射到一系列嵌入中，以及一个 $64\!\times\!64$ 图像扩散模型，后面是两个超分辨率扩散模型，用于生成 $256\!\times\!256$ 和 $1024\!\times\!1024$ 图像（参见图A.4)。所有扩散模型都以文本嵌入序列为条件，并使用无分类器指导[27]。 Imagen 依靠新的采样技术来允许使用较大的指导权重，而不会出现之前工作中观察到的样本质量下降的情况，从而产生比以前更高保真度和更好图像文本对齐的图像。

虽然 Imagen 概念简单且易于训练，但它却产生了令人惊讶的强大结果。 Imagen 在 COCO [36] 上的表现优于其他方法，零样本 FID-30K 为 7.27，显着优于先前的工作，例如 GLIDE [41]（12.4）和并发工作DALL-E 2 [54]（10.4）。我们的零样本 FID 分数也优于在 COCO 上训练的最先进模型，例如 Make-A-Scene [22]（7.6）。此外，人类评分者表示，从 Imagen 生成的样本在图像文本对齐方面与 COCO 字幕上的参考图像不相上下。

我们推出了 DrawBench，这是一套新的结构化文本提示，用于文本到图像的评估。 DrawBench 通过对文本到图像模型的多维评估来实现更深入的见解，并提供旨在探测模型不同语义属性的文本提示。这些包括组合性、基数、空间关系、处理复杂文本提示或罕见单词提示的能力，并且还包括创造性提示，这些提示突破了模型生成远远超出训练数据范围的高度难以置信的场景的能力的极限。通过 DrawBench，广泛的人类评估表明 Imagen 明显优于其他最新方法[57,12,54]。我们进一步证明了使用大型预训练语言模型 [52] 相对于多模态嵌入（例如 CLIP [49])作为文本编码器的一些明显优势对于图像。

该论文的主要贡献包括：

1.

我们发现，仅在文本数据上训练的大型冻结语言模型对于文本到图像的生成来说是非常有效的文本编码器，并且缩放冻结文本编码器的大小比缩放图像扩散模型的大小更能显着提高样本质量。
2.

我们引入了动态阈值，这是一种新的扩散采样技术，可利用高引导权重并生成比以前更加逼真和详细的图像。
3.

我们重点介绍了几个重要的扩散架构设计选择，并提出了Efficient U-Net，这是一种更简单、收敛速度更快且内存效率更高的新架构变体。
4.

我们实现了新的最先进的 COCO FID 7.27。人类评估者发现 Imagen 在图像文本对齐方面与参考图像不相上下。
5.

我们推出了 DrawBench，这是一个新的全面且具有挑战性的文本转图像任务评估基准。在 DrawBench 人类评估中，我们发现 Imagen 优于所有其他工作，包括 DALL-E 2 [54] 的并发工作。

2 图像

Imagen 由一个文本编码器（将文本映射到一系列嵌入）和一系列条件扩散模型（将这些嵌入映射到分辨率不断增加的图像）组成（参见图 A.4 )。在以下小节中，我们将详细描述每个组件。

2.1 预训练文本编码器

文本到图像模型需要强大的语义文本编码器来捕获任意自然语言文本输入的复杂性和组合性。在配对图像文本数据上训练的文本编码器是当前文本到图像模型的标准配置；它们可以从头开始训练 [41, 53] 或在图像文本数据 [54] 上进行预训练（例如 CLIP [49]) 。图像文本训练目标表明这些文本编码器可以对视觉语义和有意义的表示进行编码，特别是与文本到图像生成任务相关。大型语言模型可以是对文本进行编码以生成文本到图像的另一种选择模型。大型语言模型（例如 BERT [15]、GPT [47, 48, 7]、T5 [52])的最新进展导致了文本理解和生成能力的飞跃。语言模型是在比图像文本配对数据大得多的纯文本语料库上进行训练的，因此会接触到非常丰富且广泛分布的文本。这些模型通常也比当前图像文本模型 [49, 31, 80] 中的文本编码器大得多（例如 PaLM [11] 有 540B 参数，而 CoCa [80] 有一个 $\approx$ 1B 参数文本编码器）。

因此，探索用于文本到图像任务的两个文本编码器系列就变得很自然了。 Imagen 探索预训练的文本编码器：BERT [15]、T5 [51] 和 CLIP [46]。为了简单起见，我们冻结这些文本编码器的权重。冻结有几个优点，例如训练嵌入的离线计算，导致文本到图像模型期间的计算或内存占用可以忽略不计。在我们的工作中，我们发现有一个明确的信念：缩放文本编码器大小可以提高文本到图像生成的质量。我们还发现，虽然 T5-XXL 和 CLIP 文本编码器在 MS-COCO 等简单基准测试上表现相似，但在 DrawBench 上的图像文本对齐和图像保真度方面，人类评估者更喜欢 T5-XXL 编码器而不是 CLIP 文本编码器，DrawBench 是一组具有挑战性的测试。和作曲提示。我们建议读者参阅第 4.4 节来了解我们的研究结果摘要，并参考附录 D.1 来了解详细的消解。

2.2 扩散模型和无分类器指导

这里我们简单介绍一下扩散模型；准确的描述在附录A中。扩散模型[63,28,65]是一类生成模型，通过迭代去噪过程将高斯噪声转换为来自学习数据分布的样本。这些模型可以是有条件的，例如类标签、文本或低分辨率图像[例如16、29、59、58、75、41、54]。扩散模型 $\hat{\mathbf{x}}_{\theta}$ 在以下形式的去噪目标上进行训练

\displaystyle\mathbb{E}_{\mathbf{x},\mathbf{c},{\boldsymbol{\epsilon}},t}\!\left[w_{t}\|\hat{\mathbf{x}}_{\theta}(\alpha_{t}\mathbf{x}+\sigma_{t}{\boldsymbol{\epsilon}},\mathbf{c})-\mathbf{x}\|^{2}_{2}\right]

(1)

其中 $(\mathbf{x},\mathbf{c})$ 是数据调节对， $t\sim\mathcal{U}([0,1])$ 、 ${\boldsymbol{\epsilon}}\sim\mathcal{N}(\mathbf{0},\mathbf{I})$ 和 $\alpha_{t},\sigma_{t},w_{t}$ 是影响 $t$ 的函数样品质量。直观上， $\hat{\mathbf{x}}_{\theta}$ 被训练为使用平方误差损失将 $\mathbf{z}_{t}\coloneqq\alpha_{t}\mathbf{x}+\sigma_{t}{\boldsymbol{\epsilon}}$ 去噪为 $\mathbf{x}$ ，并加权以强调 $t$ 的某些值。诸如祖先采样器[28]和DDIM [64]等采样都是从纯噪声 $\mathbf{z}_{1}\sim\mathcal{N}(\mathbf{0},\mathbf{I})$ 开始，迭代生成点 $\mathbf{z}_{t_{1}},\dotsc,\mathbf{z}_{t_{T}}$ ，其中 $1=t_{1}>\cdots>t_{T}=0$ ，噪声内容逐渐减少。这些点是 $\mathbf{x}$ 预测 $\hat{\mathbf{x}}^{t}_{0}\coloneqq\hat{\mathbf{x}}_{\theta}(\mathbf{z}_{t},\mathbf{c})$ 的函数。

分类器指导[16]是一种在采样期间使用预训练模型 $p(\mathbf{c}|\mathbf{z}_{t})$ 的梯度来提高样本质量同时减少条件扩散模型多样性的技术。 无分类器指导 [27]是一种替代技术，它通过随机删除 $\mathbf{c}$ 使用调整后的 $\mathbf{x}$ 预测 $(\mathbf{z}_{t}-\sigma\tilde{\boldsymbol{\epsilon}}_{\theta})/\alpha_{t}$ 执行采样，其中

\displaystyle\tilde{{\boldsymbol{\epsilon}}}_{\theta}(\mathbf{z}_{t},\mathbf{c})=w{\boldsymbol{\epsilon}}_{\theta}(\mathbf{z}_{t},\mathbf{c})+(1-w){\boldsymbol{\epsilon}}_{\theta}(\mathbf{z}_{t}).

(2)

这里， ${\boldsymbol{\epsilon}}_{\theta}(\mathbf{z}_{t},\mathbf{c})$ 和 ${\boldsymbol{\epsilon}}_{\theta}(\mathbf{z}_{t})$ 是条件和无条件 ${\boldsymbol{\epsilon}}$ 预测，由 ${\boldsymbol{\epsilon}}_{\theta}\coloneqq(\mathbf{z}_{t}-\alpha_{t}\hat{\mathbf{x}}_{\theta})/\sigma_{t}$ 给出， $w$ 是指导权重。设置 $w=1$ 会禁用无分类器指导，而增加 $w>1$ 会增强指导效果。 Imagen 很大程度上依赖于无分类器的指导来实现有效的文本调节。

2.3大型指导重量采样器

我们证实了最近的文本引导扩散工作[16,41,54]的结果，发现增加无分类器引导权重可以改善图像文本对齐，但会损害图像保真度，从而产生高度饱和和不自然的效果图像[27]。我们发现这是由于高指导权重引起的训练与测试不匹配造成的。在每个采样步骤 $t$ , $\mathbf{x}$ 预测 $\hat{\mathbf{x}}^{t}_{0}$ 必须在与训练数据 $\mathbf{x}$ 相同的范围内，即在 $[-1,1]$ ，但我们根据经验发现，高指导权重会导致 $\mathbf{x}$ -预测超出这些界限。这是训练与测试的不匹配，并且由于扩散模型在整个采样过程中迭代地应用于其自身的输出，因此采样过程会产生不自然的图像，有时甚至会发散。为了解决这个问题，我们研究了静态阈值和动态阈值。有关技术的参考实现，请参见附录图A.31和附录图A.9 其效果的可视化。

静态阈值：我们将按元素将 $\mathbf{x}$ 预测裁剪为 $[-1,1]$ 称为静态阈值。事实上，这种方法在之前的工作[28]中已被使用但并未强调，并且据我们所知，其重要性尚未在引导抽样的背景下进行研究。我们发现静态阈值对于具有大引导权重的采样至关重要，并且可以防止生成空白图像。尽管如此，随着引导权重进一步增加，静态阈值处理仍然会导致图像过饱和且细节较少。

动态阈值：我们引入了一种新的 动态阈值方法：在每个采样步骤中，我们将 $s$ 设置为 $\hat{\mathbf{x}}^{t}_{0}$ 中某个百分位数的像素绝对值，如果 $s>1$ ，则我们将 $\hat{\mathbf{x}}^{t}_{0}$ 设置为 $[-s,s]$ 的阈值范围，然后除以 $s$ 。动态阈值处理会将饱和像素（接近-1 和 1 的像素）向内推，从而在每一步都主动防止像素饱和。我们发现动态阈值处理可以显着提高照片真实感以及更好的图像文本对齐效果，特别是在使用非常大的指导权重时。

2.4稳健的级联扩散模型

Imagen 利用基本 $64\times 64$ 模型的管道和两个文本条件超分辨率扩散模型将 $64\times 64$ 生成的图像上采样为 $256\times 256$ 图像，并且然后到 $1024\times 1024$ 图像。具有噪声调节增强功能的级联扩散模型[29]在逐步生成高保真图像方面非常有效。此外，通过噪声水平调节使超分辨率模型了解添加的噪声量，可以显着提高样本质量，并有助于提高超分辨率模型的鲁棒性，以处理较低分辨率模型生成的伪影[29 ]。 Imagen 对两种超分辨率模型都使用了噪声调节增强。我们发现这对于生成高保真图像至关重要。

给定条件低分辨率图像和增强级别（又名 $\mathrm{aug\_level}$ )（例如，高斯噪声或模糊的强度），我们通过增强破坏低分辨率图像（对应于 $\mathrm{aug\_level}$ )，并以 $\mathrm{aug\_level}$ 为扩散模型的条件。在训练过程中， $\mathrm{aug\_level}$ 是随机选择的，而在推理过程中，我们会扫描它的不同值以找到最佳样本质量。在我们的例子中，我们使用高斯噪声作为增强形式，并应用方差保留高斯噪声增强，类似于扩散模型中使用的前向过程(附录 A)。使用 $\mathrm{aug\_level}\in[0,1]$ 指定增强级别。参考伪代码参见图A.32。

2.5神经网络架构

基本模型：我们将[40]中的U-Net架构改编为我们的基本 $64\times 64$ 文本到图像扩散模型。该网络通过池化嵌入向量以文本嵌入为条件，添加到扩散时间步长嵌入，类似于 [16, 29] 中使用的类嵌入条件方法。我们通过在多个分辨率的文本嵌入上添加交叉注意力 [57] 来进一步调节整个文本嵌入序列。我们在部分D.3.1中研究了各种文本调节方法。此外，我们发现注意力层和池化层中文本嵌入的层归一化[2]有助于显着提高性能。

超分辨率模型：对于 $64\times 64\rightarrow 256\times 256$ 超分辨率，我们使用改编自[40, 58]的U-Net模型。我们对此 U-Net 模型进行了一些修改，以提高内存效率、推理时间和收敛速度（我们的变体的步数/秒比 [40, 58] 中使用的 U-Net 快 2-3 倍>)。我们将此变体称为Efficient U-Net（有关更多详细信息和比较，请参阅附录B.1)。我们的 $256\times 256\rightarrow 1024\times 1024$ 超分辨率模型在 $1024\times 1024$ 图像的 $64\times 64\rightarrow 256\times 256$ 裁剪上进行训练。为了实现这一点，我们删除了自注意力层，但保留了我们认为至关重要的文本交叉注意力层。在推理过程中，模型接收完整的 $256\times 256$ 低分辨率图像作为输入，并返回上采样的 $1024\times 1024$ 图像作为输出。请注意，我们对两个超分辨率模型都使用文本交叉注意。

3 评估文本到图像模型

COCO [36] 验证集是评估监督 [82, 22] 和零样本设置的文本到图像模型的标准基准[53, 41]。使用的关键自动化性能指标是用于测量图像保真度的 FID [26] 和用于测量图像文本对齐的 CLIP 分数 [25, 49]。与之前的工作一致，我们报告了零样本 FID-30K，其中从验证集中随机抽取 30K 提示，并将这些提示生成的模型样本与完整验证集中的参考图像进行比较。由于引导权重是控制图像质量和文本对齐的重要因素，因此我们使用一系列引导权重的 CLIP 和 FID 分数之间的权衡（或 pareto)曲线来报告大部分消融结果。

FID 和 CLIP 分数都有局限性，例如 FID 与感知质量 [42] 并不完全一致，而 CLIP 在计数 [49] 方面无效。由于这些限制，我们使用人工评估来评估图像质量和标题相似性，并以真实参考标题-图像对作为基线。我们使用两种实验范例：

1.

为了探究图像质量，要求评估者使用以下问题在模型生成和参考图像之间进行选择：“哪张图像更逼真（看起来更真实）？”。我们报告评估者选择模型生成而不是参考图像的次数百分比(偏好率)。
2.

为了探测对齐情况，人类评估者会看到一张图像和一个提示，并询问“标题是否准确地描述了上面的图像？”。他们必须回答“是”、“某种程度上”或“不是”。这些回答的得分分别为 100、50 和 0。这些评级是针对模型样本和参考图像独立获得的，并且均进行报告。

对于这两种情况，我们使用从 COCO 验证集中随机选择的 200 个图像标题对。向受试者展示了 50 张图像。我们还使用了交错的“对照”试验，并且仅包含正确回答至少 80% 对照问题的评估者数据。对于图像质量和图像文本对齐评估，每幅图像分别获得了 73 分和 51 分。

DrawBench：虽然 COCO 是一个有价值的基准，但越来越明显的是，它的提示范围有限，无法轻松提供对模型之间差异的洞察（例如，请参阅第 4.2 [10] 最近的工作提出了一个名为 PaintSkills 的新评估集，用于系统地评估 COCO 之外的视觉推理技能和社会偏见。出于类似的动机，我们引入了 DrawBench，这是一套全面且具有挑战性的提示，支持文本到图像模型的评估和比较。 DrawBench包含11类提示，测试模型的不同功能，例如忠实渲染不同颜色的能力、对象的数量、空间关系、场景中的文本以及对象之间不寻常的交互。类别还包括复杂的提示，包括长而复杂的文本描述、生僻单词以及拼写错误的提示。我们还包括从 DALL-E [53]、Gary Marcus 等人 [38] 和 Reddit 收集的提示集. 在这 11 个类别中，DrawBench 总共包含 200 个提示，在对大型、全面的数据集的需求与足够小以便人类评估仍然可行的需求之间取得了良好的平衡。（附录C提供了DrawBench的更详细描述。图 2 显示了来自 DrawBench 和 Imagen 示例的示例提示。）

我们使用DrawBench直接比较不同的模型。为此，人类评估者会看到两组图像，一组来自模型 A，一组来自模型 B，每组图像都有 8 个样本。人类评估者被要求在样本保真度和图像文本对齐方面比较模型 A 和模型 B。他们会做出以下三个选择之一的回应：更喜欢模型 A；冷漠;或者更喜欢模型 B。

4实验

部分 4.1描述训练细节，部分 4.2和4.3在MS-COCO和DrawBench上分析结果，以及0>部分2> 4.43>1> 总结了我们的消融研究和主要发现。对于下面的所有实验，图像都是来自 Imagen 的公平随机样本，没有经过后处理或重新排序。

4.1 培训详情

除非另有说明，否则我们将为 $64\times 64$ 文本到图像合成训练 2B 参数模型，为 $64\times 64\rightarrow 256\times 256$ 和 $256\times 256\rightarrow 1024\times 1024$ 训练 600M 和 400M 参数模型。分别用于超分辨率。我们对所有模型使用 2048 的批量大小和 2.5M 训练步骤。我们的底座使用 256 个 TPU-v4 芯片 $64\times 64$ 型号，以及两种超分辨率型号的 128 个 TPU-v4 芯片。我们不认为过度拟合是一个问题，并且我们相信进一步的训练可能会提高整体性能。我们使用 Adafactor 作为我们的基础 $64\times 64$ 模型，因为与 Adam 的初步比较表明 Adafactor 具有相似的性能，但内存占用要小得多。对于超分辨率模型，我们使用 Adam，因为我们发现 Adafactor 在我们的初始消融中会损害模型质量。对于无分类器指导，我们通过将所有三个模型的文本嵌入以 10% 的概率归零来无条件联合训练。我们在内部数据集的组合上进行训练， $\approx$ 460M 图像文本对，以及公开可用的 Laion 数据集[61]，其中 $\approx$ 400M 图像文本对。我们的训练数据存在局限性，建议读者参考部分 6 了解详情。看附录 F 了解更多实施细节。

4.2 COCO 上的结果

Table 1: MS-COCO

256\times 256

FID-30K. We use a guidance weight of 1.35 for our

64\times 64

model, and a guidance weight of 8.0 for our super-resolution model.

Model	FID-30K	Zero-shot
Model	FID-30K	FID-30K
AttnGAN [76]	35.49
DM-GAN [83]	32.64
DF-GAN [69]	21.42
DM-GAN + CL [78]	20.79
XMC-GAN [81]	9.33
LAFITE [82]	8.12
Make-A-Scene [22]	7.55
DALL-E [53]		17.89
LAFITE [82]		26.94
GLIDE [41]		12.24
DALL-E 2 [54]		10.39
Imagen (Our Work)		7.27

Table 2: COCO

256\times 256

human evaluation comparing model outputs and original images. For the bottom part (no people), we filter out prompts containing one of man, men, woman, women, person, people, child, adult, adults, boy, boys, girl, girls, guy, lady, ladies, someone, toddler, (sport) player, workers, spectators.

Model	Photorealism $\uparrow$	Alignment $\uparrow$
Original
Original	50.0%	91.9 $\pm$ 0.42
Imagen	39.5 $\pm$ 0.75%	91.4 $\pm$ 0.44
No people
Original	50.0%	92.2 $\pm$ 0.54
Imagen	43.9 $\pm$ 1.01%	92.1 $\pm$ 0.55

我们使用 FID 评分在 COCO 验证集上评估 Imagen，类似于 [53, 41]。表 2 显示结果。 Imagen 达到最先进水平 零样本 COCO 上的 FID 为 7.27，优于 DALL-E 2 [54] 的并发工作，甚至优于在 COCO 上训练的模型。表 2 报告人类评估，以测试 COCO 验证集上的图像质量和对齐情况。我们报告原始 COCO 验证集的结果，以及过滤后的版本，其中所有与人相关的参考数据都已被删除。对于照片写实主义，Imagen 达到了 39.2% 的偏好率，表明生成了高图像质量。在没有人物的场景中，Imagen 的偏好率上升至 43.6%，这表明 Imagen 生成逼真人物的能力有限。在字幕相似度方面，Imagen 的得分与原始参考图像持平，这表明 Imagen 能够生成与 COCO 字幕非常匹配的图像。


A brown bird and a blue bear.	One cat and two dogs sitting on the grass.	A sign that says ’NeurIPS’.

A small blue book sitting on a large red book.	A blue coloured pizza.	A wine glass on top of a dog.

A pear cut into seven pieces	A photo of a confused grizzly bear	A small vessel propelled on water
arranged in a ring.	in calculus class.	by oars, sails, or an engine.

Category	Description	Examples
Colors	Ability to generate objects	“A blue colored dog.”
Colors	with specified colors.	“A black apple and a green backpack.”
Counting	Ability to generate specified	“Three cats and one dog sitting on the grass.”
Counting	number of objects.	“Five cars on the street.”
Conflicting	Ability to generate conflicting	“A horse riding an astronaut.”
Conflicting	interactions b/w objects.	“A panda making latte art.”
DALL-E [53]	Subset of challenging prompts	“A triangular purple flower pot.”
DALL-E [53]	from [53].	“A cross-section view of a brain.”
Description	Ability to understand complex and long	“A small vessel propelled on water by oars, sails, or an engine.”
Description	text prompts describing objects.	“A mechanical or electrical device for measuring time.”
Marcus et al. [38]	Set of challenging prompts	“A pear cut into seven pieces arranged in a ring.”
Marcus et al. [38]	from [38].	“Paying for a quarter-sized pizza with a pizza-sized quarter.”
Misspellings	Ability to understand	“Rbefraigerator.”
Misspellings	misspelled prompts.	“Tcennis rpacket.”
Positional	Ability to generate objects with	“A car on the left of a bus.”
Positional	specified spatial positioning.	“A stop sign on the right of a refrigerator.”
Rare Words	Ability to understand rare words¹¹1https://www.merriam-webster.com/topics/obscure-words.	“Artophagous.”
Rare Words		“Octothorpe.”
Reddit	Set of challenging prompts from	“A yellow and black bus cruising through the rainforest.”
Reddit	DALLE-2 Reddit²²2https://www.reddit.com/r/dalle2/.	“A medieval painting of the wifi not working.”
Text	Ability to generate quoted text.	“A storefront with ’Deep Learning’ written on it.”
Text	Ability to generate quoted text.	“A sign that says ’Text to Image’.”

Input	Unmodified	Oil Painting	Illustration

Imagen (Ours)		DALL-E 2 [54]


Hovering cow abducting aliens.


Greek statue of a man tripping over a cat.

Imagen (Ours)		DALL-E 2 [54]


A yellow book and a red vase.


A black apple and a green backpack.

具有深度语言理解的真实感文本到图像扩散模型

摘要

1简介