视频扩散模型在各种视频生成应用中取得了长足的进步。但是,长期视频生成任务的培训模型需要大量的计算和数据资源,这对开发长期视频扩散模型构成了挑战。本文研究了一种直接且无训练的方法,以扩展现有的短视频扩散模型(e ...
长时间的视频生成涉及使用在短视频中训练的模型生成扩展视频,这些模型由于框架计数的变化而遭受分配变化。它需要使用原始短帧中的本地信息来增强视觉和运动质量,以及整个长帧中的全局信息,以确保外观一致性。现有的无训练方法努力有效地整合了两者的好处,因为视频中的外观和运动紧密耦合,从而导致运动不一致和视觉质量 ...
创建多样化和现实的驾驶场景对于增强自动驾驶系统的看法和计划能力至关重要。但是,产生长期的环境视频一致的驾驶视频仍然是一个重大挑战。为了解决这个问题,我们提出了Unimlvg,这是一个统一的框架,旨在在精确控制下生成延伸的街道多人视频 ...
随着在线视频平台的蓬勃发展和视频内容量的不断增加,对熟练的视频理解工具的需求显着增强。鉴于大型语言模型 (LLM) 在语言和多模式任务中的卓越能力,本次调查详细概述了利用 LLM (Vid-LLM) 的力量的视频理解的最新进展。 Vid-LLM 的新兴能力令人惊讶地先进,特别是它们的开放式多粒度(一般、时间和时空)推理与常识知识相结合的能力,为未来视频理解提供了一条有希望的道路 ...
我们引入了 X-Adapter,这是一种通用升级程序,使预训练的即插即用模块(例如 ControlNet、LoRA)能够直接与升级后的文本到图像扩散模型(例如 ...
在本文中,我们专注于条件图像生成的任务,其中图像根据用户说明合成。构成此任务的关键挑战是确保生成的图像的保真度及其在提供条件下的语义一致性。为了解决这个问题,以前的研究采用了从预训练的模型造成的有监督的感知损失 ...
最近,大规模扩散模型在文本到图像(T2i)一代方面取得了令人印象深刻的进步。为了进一步为这些T2I模型配备精细的空间控制,ControlNet之类的方法引入了一个额外的网络,该网络学会遵循条件图像。但是,对于每种条件类型,ControlNet都需要在数百个GPU小时内进行数百万个数据对进行独立的培训,这非常昂贵,并且使普通用户探索和开发新类型的条件变得具有挑战性 ...
生成模型在缺少数据推出的过程中起着重要的作用,因为它们旨在了解完整数据的联合分布。但是,将先进的深层生成模型(例如扩散模型)应用于缺少数据归因是挑战,这是由于1)训练数据的固有不完整性以及2)难以从无条件生成模型中执行条件推断的困难。为了应对这些挑战,本文介绍了扩散器,这是一种量身定制的扩散模型,结合了预期最大化(EM)算法,用于缺失数据插补 ...
去核扩散桥模型(DDBMS)是扩散模型的强大变体,用于在给出的两个任意配对分布之间插值。尽管在图像翻译之类的任务中具有有希望的性能,但DDBM仍需要计算密集的采样过程,该过程涉及通过数百个网络评估对(随机)微分方程进行模拟。在这项工作中,我们迈出了DDBM的快速采样的第一步,而无需额外的培训,这是由扩散模型中公认的食谱所激发的 ...
我们引入 \model,一个文本到图像的框架,可以有效生成高达 4096$\times$4096 分辨率的图像。 \model 可以以极快的速度合成具有强大文本图像对齐功能的高分辨率、高质量图像,可部署在笔记本电脑 GPU 上。核心设计包括:(1)深度压缩自动编码器:与传统AE仅压缩图像8$\times$不同,我们训练了一个可以将图像压缩32$\times$的AE,有效减少了潜在标记的数量 ...