我们探讨了三种策略,以增强各种图像编辑任务的性能:监督微调(SFT),增强学习(RL)和经过思考链(COT)推理。为了在一个一致的框架中研究所有这些组件,我们采用自回归的多模型模型,该模型以统一的方式处理文本和视觉 Token 。我们发现RL与大型多模式LLM验证仪相结合是这些策略中最有效的 ...

0 0 0 0 2025/09/22 arXiv:2508.01119v2 smallz

文本到图像(T2I)扩散模型的最新进展表明,在产生高保真图像方面具有显着的功能。但是,这些模型通常很难忠实地渲染复杂的用户提示,尤其是在属性绑定,否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...

0 0 0 0 2025/09/21 arXiv:2509.04545v4 smallz

整流的流程到图像模型超过图像质量和文本对齐中的扩散模型,但是对实体编辑的改编为改装仍然具有挑战性。我们通过分析多模式 Transformer 块的中间表示并识别三个关键特征,提出了一种新的实体编辑方法,以回流。为了从具有足够的结构保存的真实图像中提取这些特征,我们利用中步的潜在,仅倒入中部 ...

0 0 0 0 2025/09/21 arXiv:2507.01496v1 smallz

许多真实的应用程序,例如交互式照片修饰,艺术内容创建和产品设计,都需要灵活且迭代的图像编辑。但是,现有的图像编辑方法主要集中于在单个步骤中实现所需的修改,该步骤通常与模棱两可的用户意图,复杂的转换或进行渐进式改进的需求斗争。结果,这些方法经常产生不一致的结果或无法满足用户期望 ...

0 0 0 0 2025/09/19 arXiv:2505.04320v1 smallz

背景一致性仍然是图像编辑任务的重大挑战。尽管有广泛的发展,但现有作品仍然在保持与原始图像相似的相似性和生成与目标保持一致的内容之间面临权衡。在这里,我们提出了KV-EDIT,这是一种无训练的方法,它使用DIT中的KV缓存来维持背景一致性,在此中,保留背景 Token 而不是再生,从而消除了对复杂机制或昂贵培训的需求,最终生成了新内容,最终会在用户培养的区域内与背景无缝集成 ...

0 0 0 0 2025/09/19 arXiv:2502.17363v3 smallz

我们基于RectifiedFlow框架提出了一种称为InstantEdit的快速文本引导的图像编辑方法,该方法构成为几个步骤的编辑过程,该过程可保留关键内容,同时紧随文本指令。我们的方法通过引入称为Perrfi的专门反转策略来利用整流流的直接采样轨迹。为了保持一致,而对整流流模型的可编辑结果,我们进一步提出了一种新型的再生方法,反转潜在注射,该方法有效地重复了反转过程中获得的潜在信息,以促进更连贯和详细的再生 ...

0 0 0 0 2025/09/16 arXiv:2508.06033v1 smallz

尽管视觉模型(VLM)取得了重大进步,但现有VLM的性能仍然受到对象幻觉的阻碍,这是实现准确的视觉理解的关键挑战。为了解决这个问题,我们提出了第二个:选择性和对比解码,一种新型方法,使VLMs能够以中心为中心的方式有效利用多规模的视觉信息,与人类的视觉感知紧密地结合。第二逐渐选择并集成了多尺度的视觉信息,从而促进了对图像的更精确的解释 ...

0 0 0 0 2025/09/14 arXiv:2506.08391v1 smallz

文本到图像(T2I)扩散模型的最新进展表明,在产生高保真图像方面具有显着的功能。但是,这些模型通常很难忠实地渲染复杂的用户提示,尤其是在属性绑定,否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...

0 0 0 0 2025/09/13 arXiv:2509.04545v3 smallz

长期的视频生成从根本上是一个漫长的上下文记忆问题:模型必须保留和检索远距离的显着事件,而不会崩溃或漂移。但是,将扩散 Transformer 缩放为生成长篇小说视频的缩放量受到自我注意的二次成本的限制,这使得记忆和计算很难进行,并且难以为长序列进行优化。我们将长篇小说视频生成重新铸造为内部信息检索任务,并提出了一个简单,可学习的稀疏注意路由模块,上下文(MOC)的混合物,作为有效的长期内存检索引擎 ...

0 0 0 0 2025/09/08 arXiv:2508.21058v1 smallz

具有身份的文本对视频(IPT2V)一代为参考主题图像和文本提示而创建视频。在微调ID匹配数据上的大型视频扩散模型的同时,可以在IPT2V上获得最新的结果,但数据稀缺和高调成本却在更广泛的改善中。 We thus introduce a Training-Free Prompt, Image, and Guidance Enhancement (TPIGE) framework that bridges the semantic gap between the video description and the reference image and design sampling guidance that enhances identity preservation and video quality, achieving performance gains at minimal this http URL, we first propose Face Aware Prompt Enhancement, using GPT-4o to enhance the text prompt with facial details derived from the reference image. ...

0 0 0 0 2025/09/08 arXiv:2509.01362v1 smallz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)