文本指导的图像编辑涉及根据语言指令修改源图像,通常需要更改对小的本地区域。但是,现有方法会生成整个目标图像,而不是仅选择性地再生预期的编辑区域。这导致(1)不必要的计算成本,以及(2)重建非编辑区域的偏见,这会损害预期编辑的质量 ...
我们探讨了三种策略,以增强各种图像编辑任务的性能:监督微调(SFT),增强学习(RL)和经过思考链(COT)推理。为了在一个一致的框架中研究所有这些组件,我们采用自回归的多模型模型,该模型以统一的方式处理文本和视觉 Token 。我们发现RL与大型多模式LLM验证仪相结合是这些策略中最有效的 ...
文本到图像(T2I)扩散模型的最新进展表明,在产生高保真图像方面具有显着的功能。但是,这些模型通常很难忠实地渲染复杂的用户提示,尤其是在属性绑定,否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...
整流的流程到图像模型超过图像质量和文本对齐中的扩散模型,但是对实体编辑的改编为改装仍然具有挑战性。我们通过分析多模式 Transformer 块的中间表示并识别三个关键特征,提出了一种新的实体编辑方法,以回流。为了从具有足够的结构保存的真实图像中提取这些特征,我们利用中步的潜在,仅倒入中部 ...
许多真实的应用程序,例如交互式照片修饰,艺术内容创建和产品设计,都需要灵活且迭代的图像编辑。但是,现有的图像编辑方法主要集中于在单个步骤中实现所需的修改,该步骤通常与模棱两可的用户意图,复杂的转换或进行渐进式改进的需求斗争。结果,这些方法经常产生不一致的结果或无法满足用户期望 ...
背景一致性仍然是图像编辑任务的重大挑战。尽管有广泛的发展,但现有作品仍然在保持与原始图像相似的相似性和生成与目标保持一致的内容之间面临权衡。在这里,我们提出了KV-EDIT,这是一种无训练的方法,它使用DIT中的KV缓存来维持背景一致性,在此中,保留背景 Token 而不是再生,从而消除了对复杂机制或昂贵培训的需求,最终生成了新内容,最终会在用户培养的区域内与背景无缝集成 ...
我们基于RectifiedFlow框架提出了一种称为InstantEdit的快速文本引导的图像编辑方法,该方法构成为几个步骤的编辑过程,该过程可保留关键内容,同时紧随文本指令。我们的方法通过引入称为Perrfi的专门反转策略来利用整流流的直接采样轨迹。为了保持一致,而对整流流模型的可编辑结果,我们进一步提出了一种新型的再生方法,反转潜在注射,该方法有效地重复了反转过程中获得的潜在信息,以促进更连贯和详细的再生 ...
尽管视觉模型(VLM)取得了重大进步,但现有VLM的性能仍然受到对象幻觉的阻碍,这是实现准确的视觉理解的关键挑战。为了解决这个问题,我们提出了第二个:选择性和对比解码,一种新型方法,使VLMs能够以中心为中心的方式有效利用多规模的视觉信息,与人类的视觉感知紧密地结合。第二逐渐选择并集成了多尺度的视觉信息,从而促进了对图像的更精确的解释 ...
文本到图像(T2I)扩散模型的最新进展表明,在产生高保真图像方面具有显着的功能。但是,这些模型通常很难忠实地渲染复杂的用户提示,尤其是在属性绑定,否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...
长期的视频生成从根本上是一个漫长的上下文记忆问题:模型必须保留和检索远距离的显着事件,而不会崩溃或漂移。但是,将扩散 Transformer 缩放为生成长篇小说视频的缩放量受到自我注意的二次成本的限制,这使得记忆和计算很难进行,并且难以为长序列进行优化。我们将长篇小说视频生成重新铸造为内部信息检索任务,并提出了一个简单,可学习的稀疏注意路由模块,上下文(MOC)的混合物,作为有效的长期内存检索引擎 ...