扩散模型在文本到图像生成领域取得了巨大成功。然而,减轻文本提示和图像之间的错位仍然具有挑战性。未对准背后的根本原因尚未得到广泛调查 ...

0 0 0 0 2024/04/17 arXiv:2404.03653v1 fly1642

扩散模型彻底改变了图像生成领域,导致高质量模型和多样化下游应用的激增。然而,尽管取得了这些重大进步,当前的竞争解决方案仍然存在一些局限性,包括视觉质量差、缺乏美感、推理效率低,而且还没有全面的解决方案。为了应对这些挑战,我们提出了 UniFL,这是一个利用反馈学习来全面增强扩散模型的统一框架 ...

0 0 0 0 2024/04/16 arXiv:2404.05595v1 fly1642

在这项工作中,我们分享了在文本到图像生成模型中实现最先进的美学质量的三个见解。我们专注于模型改进的三个关键方面:增强颜色和对比度、改进多个纵横比的生成以及改进以人为中心的精细细节。首先,我们深入研究噪声表在训练扩散模型中的重要性,展示其对真实性和视觉保真度的深远影响 ...

0 0 0 0 2024/04/07 arXiv:2402.17245v1 fly1642

当前文本到图像(T2I)模型的主要缺点之一是它们无法一致地生成忠实遵循文本提示中指定的空间关系的图像。在本文中,我们对这一限制进行了全面的研究,同时还开发了实现最先进性能的数据集和方法。首先,我们发现当前的视觉语言数据集不能很好地表示空间关系;为了缓解这一瓶颈,我们通过重新描述来自 4 个广泛使用的视觉数据集的 600 万张图像,创建了 SPRIGHT,这是第一个以空间为中心的大型数据集 ...

0 0 0 0 2024/04/07 arXiv:2404.01197v1 fly1642

在有限的数据集上训练扩散模型在有限的生成能力和表达能力方面提出了挑战,导致使用预训练扩散模型的各种下游任务(例如域翻译和文本引导图像处理)的结果不令人满意。在本文中,我们提出了微调扩散模型的自蒸馏(SDFT),这是一种通过利用在大型源数据集上预训练的扩散模型的不同特征来解决这些挑战的方法。 SDFT 提取了更一般的特征(形状、颜色等) ...

0 0 0 0 2024/04/05 arXiv:2311.01018v1 fly1642

像稳定扩散这样的大规模扩散模型功能强大,可以找到各种实际应用,而通过微调来定制此类模型的内存和时间效率都很低。受自然语言处理最新进展的推动,我们通过插入小型可学习模块(称为适配器)来研究大型扩散模型中的参数高效调整。特别是,我们将适配器的设计空间分解为正交因素——输入位置、输出位置以及函数形式,并执行方差分析(ANOVA),这是一种经典的统计方法,用于分析离散(设计)之间的相关性。选项)和连续变量(评估指标) ...

0 0 0 0 2024/03/28 arXiv:2303.18181v2 fly1642

我们提出了 Kandinsky 3.0,一种基于潜在扩散的大规模文本到图像生成模型,延续了康定斯基文本到图像模型系列,反映了我们在实现更高质量和真实感的图像生成方面取得的进展。与康定斯基 2 之前的版本相比 ...

0 0 0 0 2024/04/07 arXiv:2312.03511v2 fly1642

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)