在本文中,我们介绍了OneReard,这是一个统一的增强学习框架,可在不同的评估标准下仅使用\ textit {一个奖励}模型在不同的评估标准下增强模型的生成能力。通过采用单一视觉模型(VLM)作为生成奖励模型,该模型可以区分给定任务的获胜者和失败者以及给定的评估标准,它可以有效地应用于多任务生成模型,尤其是在具有多样的数据和多样化目标目标的上下文中。我们利用屏蔽引导的图像生成,可以将其进一步分为几个子任务,例如图像填充,图像扩展,对象删除和文本渲染,涉及二进制掩码作为编辑区域 ...
有效的多发产生需要有目的的类似电影的过渡和严格的电影连续性。但是,当前方法通常优先考虑基本视觉一致性,忽略了关键的编辑模式(例如, ...
尽管视频综合方面取得了重大进展,但对多拍视频生成的研究仍处于起步阶段。即使使用扩展模型和大量数据集,射击过渡功能仍然是基本的和不稳定的,在很大程度上将生成的视频限制在单次序列中。在这项工作中,我们介绍了Cinetrans,这是一个新颖的框架,用于通过电影,电影风格的过渡生成连贯的多拍视频 ...
文本到图像扩散模型的最新进步在产生现实和多样化的视觉内容方面取得了巨大的成功。此过程中的关键因素是模型准确解释文本提示的能力。但是,这些模型通常会在创造性的表达中挣扎,尤其是涉及复杂,抽象或高度描述性语言的模型 ...
我们介绍了一种基于扩散的新型视频生成方法,生成一个视频,显示了来自用户的多个单独句子的多个事件。我们的方法不需要大规模的视频数据集,因为我们的方法使用基于预先训练的扩散的文本对视频生成模型而没有微调过程。具体而言,我们提出了最后一个框架感知的扩散过程,以保持连续视频之间的视觉连贯性,其中每个视频由不同的事件组成,通过初始化潜在和同时调节潜在噪声以增强生成视频中的运动动态 ...
现实世界的视频包括事件序列。具有精确时间控制的这种序列与依赖单个文本段落作为输入的现有视频生成器是不可行的。当任务使用单个提示所描述的多个事件时,此类方法通常会忽略某些事件或无法按正确的顺序排列它们 ...
LLMS中的幻觉对他们在现实世界应用中的安全部署引起了重大关注。最近的方法利用LLM的潜在空间进行幻觉检测,但是它们的嵌入以语言连贯性而不是事实准确性进行了优化,通常无法清楚地分离出真实和幻觉的内容。为此,我们提出了真实性分离器向量(TSV),这是一种轻巧且灵活的转向向量,可以重塑推断期间LLM的表示空间,以增强不改变模型参数的真实和幻觉输出之间的分离 ...
视频生成需要对广阔的时空空间进行建模,这需要大量的计算资源和数据使用。为了降低复杂性,流行的方法采用级联架构来避免全分辨率的直接训练。尽管减少了计算需求,但每个子阶段的单独优化阻碍了知识共享并牺牲了灵活性 ...
视频生成已经大大发展,从产生不切实际的产出到生成视觉上令人信服且具有时间连贯的视频。为了评估这些视频生成模型,已经开发了诸如VBENCH之类的基准来评估其忠诚,衡量诸如人均美学,时间一致性和基本及时依从性等因素。但是,这些方面主要代表肤浅的忠诚,这些方面的重点是视频是否在视觉上令人信服,而不是遵守现实世界的原则 ...
扩散模型最近为视频生成取得了显着的结果。尽管表现令人鼓舞,但生成的视频通常会限制在少数帧中,导致剪辑仅持续几秒钟。制作较长视频的主要挑战包括单个GPU所需的大量内存需求和延长的处理时间 ...