文本对图像(T2I)生成模型已彻底改变了内容的创建,但仍需提示措辞,通常要求用户在没有明确反馈的情况下多次重复提示。尽管诸如自动及时工程,受控文本嵌入,降解和多转弯产生等技术减轻了这些问题,但它们提供了有限的可控性,或者通常需要进行其他培训,从而限制了概括能力。因此,我们介绍了T2i-CopiLot,这是一种无训练的多代理系统,利用(多模式)大语言模型之间的协作来自动化及时措辞,模型选择和迭代性改进 ...
最近,我们通过自然语言说明目睹了图像编辑的巨大进展。 GPT-Image-1,SeedReam和Google-Nano-Banana等几种封闭源模型表现出了很高的希望。但是,开源型号仍在落后 ...
随着对简短视频和个性化内容的需求不断增长,自动化视频日志(VLOG)生成已成为多模式内容创建的关键方向。现有方法主要依赖于预定义的脚本,缺乏动态和个人表达。因此,迫切需要一种自动vlog生成方法,该方法可以实现有效的多模式协作和高个性化 ...
我们介绍了动漫,这是一种以导演为导向的多代理系统,用于自动化长期动漫制作,涵盖了从故事到最终视频的完整工作流程。导演代理商保留了整个工作流程的全球记忆,并协调了几个下游专业代理商。通过将自定义的模型上下文协议(MCP)与下游模型指令集成在一起,专门的代理可以自适应选择各种子任务的控制条件 ...
尽管最近进步,但长期的视频生成框架仍然受到重大局限性:辅助能力差,次优质量和表现力有限。为了减轻这些局限性,我们建议Mavis,Mavis是一个端到端的多代理协作框架,用于长期视频讲故事。 Mavis在多个阶段策划了专门的代理,包括脚本编写,镜头设计,角色建模,钥匙帧生成,视频动画和音频生成 ...
文本到图像(T2I)扩散模型的最新进展表明,在产生高保真图像方面具有显着的功能。但是,这些模型通常很难忠实地渲染复杂的用户提示,尤其是在属性绑定,否定和组成关系等方面。这导致用户意图与生成的输出之间的不匹配 ...
我们解决了几何图像编辑的任务,其中图像中的对象是重新定位,重新定位或重塑的,同时保持整体场景相干性。以前的基于扩散的编辑方法通常试图在一个步骤中处理所有相关的子任务,这在转换变得大或结构复杂时很难。我们通过提出一条解耦的管道来解决这一问题,该管道将对象转换,源区域介绍和目标区域改进分开 ...
扩散模型在图像生成和编辑任务中取得了巨大的成功。这些模型中的倒置旨在为真实或生成的图像恢复潜在的噪声表示形式,从而启用重建,编辑和其他下游任务。但是,迄今为止,大多数反转方法都在重建准确性和编辑灵活性之间存在固有的权衡 ...
AI图像中的创造力仍然是一个根本的挑战,不仅需要产生视觉上引人入胜的内容,而且还需要在图像中增加新颖,表现力和艺术丰富的转换的能力。与依赖基于直接及时的直接修改的常规编辑任务不同,创意图像编辑需要一种自主,迭代的方法,以平衡独创性,连贯性和艺术意图。为了解决这个问题,我们介绍了CREA,这是一个模仿人类创作过程的新型多代理协作框架 ...
文本指导的图像编辑涉及根据语言指令修改源图像,通常需要更改对小的本地区域。但是,现有方法会生成整个目标图像,而不是仅选择性地再生预期的编辑区域。这导致(1)不必要的计算成本,以及(2)重建非编辑区域的偏见,这会损害预期编辑的质量 ...