我们基于RectifiedFlow框架提出了一种称为InstantEdit的快速文本引导的图像编辑方法,该方法构成为几个步骤的编辑过程,该过程可保留关键内容,同时紧随文本指令。我们的方法通过引入称为Perrfi的专门反转策略来利用整流流的直接采样轨迹。为了保持一致,而对整流流模型的可编辑结果,我们进一步提出了一种新型的再生方法,反转潜在注射,该方法有效地重复了反转过程中获得的潜在信息,以促进更连贯和详细的再生 ...

0 0 0 0 2025/09/16 arXiv:2508.06033v1 smallz

尽管视觉模型(VLM)取得了重大进步,但现有VLM的性能仍然受到对象幻觉的阻碍,这是实现准确的视觉理解的关键挑战。为了解决这个问题,我们提出了第二个:选择性和对比解码,一种新型方法,使VLMs能够以中心为中心的方式有效利用多规模的视觉信息,与人类的视觉感知紧密地结合。第二逐渐选择并集成了多尺度的视觉信息,从而促进了对图像的更精确的解释 ...

0 0 0 0 2025/09/14 arXiv:2506.08391v1 smallz

文本到图像(T2I)扩散模型的最新进展表明,在产生高保真图像方面具有显着的功能。但是,这些模型通常很难忠实地渲染复杂的用户提示,尤其是在属性绑定,否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...

0 0 0 0 2025/09/13 arXiv:2509.04545v3 smallz

长期的视频生成从根本上是一个漫长的上下文记忆问题:模型必须保留和检索远距离的显着事件,而不会崩溃或漂移。但是,将扩散 Transformer 缩放为生成长篇小说视频的缩放量受到自我注意的二次成本的限制,这使得记忆和计算很难进行,并且难以为长序列进行优化。我们将长篇小说视频生成重新铸造为内部信息检索任务,并提出了一个简单,可学习的稀疏注意路由模块,上下文(MOC)的混合物,作为有效的长期内存检索引擎 ...

0 0 0 0 2025/09/08 arXiv:2508.21058v1 smallz

具有身份的文本对视频(IPT2V)一代为参考主题图像和文本提示而创建视频。在微调ID匹配数据上的大型视频扩散模型的同时,可以在IPT2V上获得最新的结果,但数据稀缺和高调成本却在更广泛的改善中。 We thus introduce a Training-Free Prompt, Image, and Guidance Enhancement (TPIGE) framework that bridges the semantic gap between the video description and the reference image and design sampling guidance that enhances identity preservation and video quality, achieving performance gains at minimal this http URL, we first propose Face Aware Prompt Enhancement, using GPT-4o to enhance the text prompt with facial details derived from the reference image. ...

0 0 0 0 2025/09/08 arXiv:2509.01362v1 smallz

在本文中,我们介绍了OneReard,这是一个统一的增强学习框架,可在不同的评估标准下仅使用\ textit {一个奖励}模型在不同的评估标准下增强模型的生成能力。通过采用单一视觉模型(VLM)作为生成奖励模型,该模型可以区分给定任务的获胜者和失败者以及给定的评估标准,它可以有效地应用于多任务生成模型,尤其是在具有多样的数据和多样化目标目标的上下文中。我们利用屏蔽引导的图像生成,可以将其进一步分为几个子任务,例如图像填充,图像扩展,对象删除和文本渲染,涉及二进制掩码作为编辑区域 ...

0 0 0 0 2025/09/07 arXiv:2508.21066v1 smallz

有效的多发产生需要有目的的类似电影的过渡和严格的电影连续性。但是,当前方法通常优先考虑基本视觉一致性,忽略了关键的编辑模式(例如, ...

0 1 0 0 2025/09/06 arXiv:2508.08244v2 smallz

尽管视频综合方面取得了重大进展,但对多拍视频生成的研究仍处于起步阶段。即使使用扩展模型和大量数据集,射击过渡功能仍然是基本的和不稳定的,在很大程度上将生成的视频限制在单次序列中。在这项工作中,我们介绍了Cinetrans,这是一个新颖的框架,用于通过电影,电影风格的过渡生成连贯的多拍视频 ...

0 0 0 0 2025/09/06 arXiv:2508.11484v1 smallz

文本到图像扩散模型的最新进步在产生现实和多样化的视觉内容方面取得了巨大的成功。此过程中的关键因素是模型准确解释文本提示的能力。但是,这些模型通常会在创造性的表达中挣扎,尤其是涉及复杂,抽象或高度描述性语言的模型 ...

0 0 0 0 2025/09/05 arXiv:2507.13708v2 smallz

我们介绍了一种基于扩散的新型视频生成方法,生成一个视频,显示了来自用户的多个单独句子的多个事件。我们的方法不需要大规模的视频数据集,因为我们的方法使用基于预先训练的扩散的文本对视频生成模型而没有微调过程。具体而言,我们提出了最后一个框架感知的扩散过程,以保持连续视频之间的视觉连贯性,其中每个视频由不同的事件组成,通过初始化潜在和同时调节潜在噪声以增强生成视频中的运动动态 ...

0 0 0 0 2025/08/29 arXiv:2312.04086v2 smallz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)