arxiv A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

名称
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
首页
https://yiyibooks.cn/arxiv/2406.14555v1/index.html
原始地址
https://arxiv.org/abs/2406.14555
描述
图像编辑的目的是编辑给定的合成或真实图像,以满足用户的特定要求。近年来,它作为人工智能生成内容(AIGC)的一个有前途且具有挑战性的领域得到了广泛的研究。该领域最近的重大进展基于文本到图像(T2I)扩散模型的开发,该模型根据文本提示生成图像。这些模型展示了卓越的生成能力,并已成为广泛使用的图像编辑工具。基于 T2I 的图像编辑方法显着增强了编辑性能,并提供了一个用户友好的界面,用于修改由多模式输入引导的内容。在本次调查中,我们对利用 T2I 扩散模型的多模态引导图像编辑技术进行了全面回顾。首先,我们从整体角度定义了图像编辑的范围,并详细介绍了各种控制信号和编辑场景。然后,我们提出一个统一的框架来形式化编辑过程,将其分为两个主要算法系列。该框架为用户提供了实现特定目标的设计空间。随后,我们对该框架内的各个组件进行了深入分析,考察了不同组合的特点和适用场景。鉴于基于训练的方法学习在用户指导下将源图像直接映射到目标图像,我们分别讨论它们,并介绍不同场景下源图像的注入方案。此外,我们回顾了 2D 技术在视频编辑中的应用,重点介绍了帧间不一致的解决方案。最后,我们讨论该领域的开放挑战并提出未来潜在的研究方向。我们在这个 https URL 上持续追踪相关作品 ...