最近,AI生成的内容的浪潮见证了文本对图像(T2I)技术的巨大发展和成功。相比之下,文本对视频(T2V)仍然没有期望,尽管吸引了日益增加的兴趣。现有的作品要么从头开始训练,要么将大型T2I模型适应视频,这些模型都是计算和资源昂贵的 ...
文本指导的视频预测(TVP)涉及根据指令从初始帧中预测未来帧的运动,该指令在虚拟现实,机器人技术和内容创建中具有广泛的应用。以前的TVP方法通过适应此任务的稳定扩散来实现重大突破。但是,他们在框架一致性和时间稳定性方面挣扎,主要是由于视频数据集规模有限 ...
扩散模型在图像和视频生成方面取得了重大成功。这激发了人们对视频编辑任务的日益兴趣,其中根据提供的文本说明进行了编辑。但是,大多数现有方法仅专注于短剪辑的视频编辑,并依靠耗时的调整或推理 ...
由于扩散模型的快速发展,图像合成中已经见证了前所未有的进步。先前的工作主要依赖于预先训练的语言模型,但是文本通常太抽象了,无法正确指定图像的所有空间特性,例如 ...
尽管文本对图像(T2I)生成模型取得了重大进展,但即使是冗长而复杂的文本描述仍然难以传达详细的控制。相比之下,旨在从用户指定的布局中生成现实且复杂的场景图像的布局到图像(L2i)的生成已经提高。但是,现有方法将布局信息转换为 Token 或RGB图像,以在生成过程中进行条件控制,从而导致单个实例的空间和语义可控性不足 ...
虽然文本对图像(T2I)扩散模型在产生具有视觉吸引力的单个实例图像方面表现出色,但它们努力准确地定位和控制多个实例的特征。引入了布局到图像(L2I)任务,以通过将边界框合并为空间控制信号来应对定位挑战,但在生成精确实例功能方面仍然缺乏。作为响应,我们提出了实例特征生成(IFG)任务,该任务旨在确保位置准确性和生成实例中的特征保真度 ...
我们介绍了Goardit,这是一种使用扩散 Transformer (DIT)的新型无训练空间接地技术,用于文本对图像生成。带有边界框的空间接地因其简单性和多功能性而引起了人们的关注,从而可以增强图像生成中的用户控制。但是,先前的无培训方法通常依赖于在反向扩散过程中通过自定义损失功能进行反向传播更新嘈杂的图像,而自定义损失功能经常难以提供对单个边界框的精确控制 ...
在大规模数据集训练的可扩展扩散模型的驱动下,文本对图像合成方法已显示出令人信服的结果。但是,这些模型仍然无法精确遵循涉及多个对象,属性或空间组成的文本提示。在本文中,我们揭示了扩散模型的跨注意和自我注意力层的潜在原因 ...
 
                  
                 
                  
                 
                  
                 
                  
                 
                  
                 
                  
                 
                  
                