大规模文本到图像( t2i)扩散模型展示了基于文本描述生成连贯图像的令人难以置信的能力,从而在内容生成中实现了广泛的应用。虽然最近的进步引入了对对象定位、姿势和图像轮廓等因素的控制,但我们控制生成内容中对象之间交互的能力仍然存在重大差距。良好控制生成图像中的交互可以产生有意义的应用,例如创建具有交互角色的真实场景... ...
0 1 0 2025/09/08 arXiv:2312.05849v2 parsifalster
典型的布局到图像合成(LIS)模型为封闭的语义类别生成图像,例如,Coco-stuff中的182个常见对象 ...
0 1 0 2025/09/08 arXiv:2303.14412v1 yisinoya
最近,AI生成的内容的浪潮见证了文本对图像(T2I)技术的巨大发展和成功。相比之下,文本对视频(T2V)仍然没有期望,尽管吸引了日益增加的兴趣。现有的作品要么从头开始训练,要么将大型T2I模型适应视频,这些模型都是计算和资源昂贵的 ...
0 1 0 2025/09/08 arXiv:2308.09710v1 yisinoya
文本指导的视频预测(TVP)涉及根据指令从初始帧中预测未来帧的运动,该指令在虚拟现实,机器人技术和内容创建中具有广泛的应用。以前的TVP方法通过适应此任务的稳定扩散来实现重大突破。但是,他们在框架一致性和时间稳定性方面挣扎,主要是由于视频数据集规模有限 ...
0 1 0 2025/09/08 arXiv:2406.06465v1 yisinoya
扩散模型在图像和视频生成方面取得了重大成功。这激发了人们对视频编辑任务的日益兴趣,其中根据提供的文本说明进行了编辑。但是,大多数现有方法仅专注于短剪辑的视频编辑,并依靠耗时的调整或推理 ...
0 1 0 2025/09/08 arXiv:2311.18837v1 yisinoya
由于扩散模型的快速发展,图像合成中已经见证了前所未有的进步。先前的工作主要依赖于预先训练的语言模型,但是文本通常太抽象了,无法正确指定图像的所有空间特性,例如 ...
0 1 0 2025/09/08 arXiv:2308.06713v1 yisinoya
尽管文本对图像(T2I)生成模型取得了重大进展,但即使是冗长而复杂的文本描述仍然难以传达详细的控制。相比之下,旨在从用户指定的布局中生成现实且复杂的场景图像的布局到图像(L2i)的生成已经提高。但是,现有方法将布局信息转换为 Token 或RGB图像,以在生成过程中进行条件控制,从而导致单个实例的空间和语义可控性不足 ...
0 1 0 2025/09/08 arXiv:2308.10156v2 yisinoya
虽然文本对图像(T2I)扩散模型在产生具有视觉吸引力的单个实例图像方面表现出色,但它们努力准确地定位和控制多个实例的特征。引入了布局到图像(L2I)任务,以通过将边界框合并为空间控制信号来应对定位挑战,但在生成精确实例功能方面仍然缺乏。作为响应,我们提出了实例特征生成(IFG)任务,该任务旨在确保位置准确性和生成实例中的特征保真度 ...
0 1 0 2025/09/08 arXiv:2409.08240v3 yisinoya

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)