我们引入了 X-Adapter,这是一种通用升级程序,使预训练的即插即用模块(例如 ControlNet、LoRA)能够直接与升级后的文本到图像扩散模型(例如 ...
在本文中,我们专注于条件图像生成的任务,其中图像根据用户说明合成。构成此任务的关键挑战是确保生成的图像的保真度及其在提供条件下的语义一致性。为了解决这个问题,以前的研究采用了从预训练的模型造成的有监督的感知损失 ...
最近,大规模扩散模型在文本到图像(T2i)一代方面取得了令人印象深刻的进步。为了进一步为这些T2I模型配备精细的空间控制,ControlNet之类的方法引入了一个额外的网络,该网络学会遵循条件图像。但是,对于每种条件类型,ControlNet都需要在数百个GPU小时内进行数百万个数据对进行独立的培训,这非常昂贵,并且使普通用户探索和开发新类型的条件变得具有挑战性 ...
生成模型在缺少数据推出的过程中起着重要的作用,因为它们旨在了解完整数据的联合分布。但是,将先进的深层生成模型(例如扩散模型)应用于缺少数据归因是挑战,这是由于1)训练数据的固有不完整性以及2)难以从无条件生成模型中执行条件推断的困难。为了应对这些挑战,本文介绍了扩散器,这是一种量身定制的扩散模型,结合了预期最大化(EM)算法,用于缺失数据插补 ...
去核扩散桥模型(DDBMS)是扩散模型的强大变体,用于在给出的两个任意配对分布之间插值。尽管在图像翻译之类的任务中具有有希望的性能,但DDBM仍需要计算密集的采样过程,该过程涉及通过数百个网络评估对(随机)微分方程进行模拟。在这项工作中,我们迈出了DDBM的快速采样的第一步,而无需额外的培训,这是由扩散模型中公认的食谱所激发的 ...
我们引入 \model,一个文本到图像的框架,可以有效生成高达 4096$\times$4096 分辨率的图像。 \model 可以以极快的速度合成具有强大文本图像对齐功能的高分辨率、高质量图像,可部署在笔记本电脑 GPU 上。核心设计包括:(1)深度压缩自动编码器:与传统AE仅压缩图像8$\times$不同,我们训练了一个可以将图像压缩32$\times$的AE,有效减少了潜在标记的数量 ...
有限的对称组$ s_n $在组合,物理和化学等领域至关重要。但是,学习$ s_n $的概率分布构成了巨大的挑战,因为它的大小和离散的性质。在本文中,我们介绍了SymmetricDiffuser,这是一个新颖的离散扩散模型,通过将其分解为使用深层神经网络的更简单的反向扩散过渡,简化了对$ s_n $的复杂分布的任务 ...
扩散语言模型由于其具有并行的生成和可控性的潜力而为自回归模型提供了独特的好处,但它们的可能性模型却滞后,并且仅限于固定长度的生成。在这项工作中,我们介绍了一类块扩散语言模型,这些模型在离散的denoising扩散和自回旋模型之间插值。通过支持柔性长度的产生并通过KV缓存和平行 Token 采样来提高推理效率,克服了两种方法的关键局限性 ...
近年来,扩散模型的开发导致了图像和视频生成任务的重大进展,诸如稳定扩散系列之类的预训练模型起着至关重要的作用。受模型修剪的启发,通过删除不重要的参数来减轻大型预训练模型,我们提出了一种新型模型微调方法,以充分利用这些无效参数,并启用具有新的任务指定功能的预训练模型。在这项工作中,我们首先研究了参数在预训练的扩散模型中的重要性,并发现最小的10%至20%的参数(绝对值)对生成过程不影响 ...
事实证明,扩散模型在产生高质量图像方面非常有效。但是,将大型预训练的扩散模型适应新领域仍然是一个开放的挑战,这对于现实世界应用至关重要。本文提出了Difffit,这是一种用于微调大型预训练扩散模型的参数效率策略,可以快速适应新领域 ...