文本驱动的3d室内场景生成可用于游戏、电影行业和 ar/vr应用。然而,现有方法无法忠实地捕捉房间布局,也不允许灵活编辑房间中的各个对象。为了解决这些问题 ...
视觉 Transformer (VIT)在计算机视觉中至关重要,但在计算上也是强度的。模型量化,尤其是4位诸如4位之类的低位宽度,旨在减轻这种困难,但现有的培训后量化(PTQ)和量化感知训练(QAT)方法具有显着的限制。 PTQ通常会产生大量准确性下降,而QAT的精度很高,但遭受了高度的计算成本,对下游任务的概括有限,训练不稳定性以及缺乏开源代码库 ...
具有3D全注意力的扩散 Transformer (DIT)(DITS)最先进的视频生成,但遭受了高度的计算成本 - 当仅产生5秒的720p视频时,单独的注意力只需要945秒的总推断时间中的800。本文介绍了滑动瓷砖的注意(STA),以应对这一挑战。 STA利用了这样的观察结果,即预处理的视频扩散模型中的注意力分数主要集中在局部3D窗口中 ...
由于其在虚拟现实,数字媒体和创意艺术中的重要潜在应用,室内场景纹理的综合综合引起了极大的兴趣。现有的基于扩散模型的研究要么依赖于每次视图授课技术,这些技术受到严重的跨视线不一致和显着接缝的困扰,要么采用涉及大量计算额外开销的基于优化的方法。在这项工作中,我们介绍了室内,该框架无缝地集成了效率和一致性,以实现室内场景的高保真质地 ...
生成技术的快速发展已成为双刃剑。他们提供了增强便利性的强大工具,但也引起了重大的社会关注。作为捍卫者,当前的合成图像检测方法通常缺乏人工级的文本解释性,并且过于专注于图像操纵检测,并且当前的数据集通常会遭受过时的发电机和缺乏细粒度的注释 ...
当前的边境视频扩散模型在生成高质量视频方面表现出了很棒的结果。但是,由于训练期间的计算限制,它们只能生成简短的视频剪辑,通常约为10秒或240帧。现有方法通过直接将上一个剪辑的结束放置在注意力窗口的前部,以作为调节,从而实现自动回归的长视频生成,从而导致场景发生变化,不自然的运动和误差积累 ...
随着潜在扩散模型(LDMS)使图像产生功能民主化,越来越需要检测假图像。一个好的检测器应专注于生成模型指纹,同时忽略诸如语义内容,分辨率,文件格式等的图像属性。假图像探测器通常以数据驱动的方式构建,其中训练模型可以与假图像分开 ...
我们介绍了Mardini,这是一个新的视频扩散模型家族,将蒙版自动回归(MAR)的优势集成到统一扩散模型(DM)框架中。在这里,MAR处理时间计划,而DM专注于非对称网络设计中的空间生成:i)一个基于MAR的计划模型,该模型包含大多数参数,使用低分辨率输入为每个蒙版框架生成计划信号; ii)轻量级生成模型使用这些信号通过扩散去噪声来产生高分辨率帧。 Mardini's Mar启用视频生成在任何框架 ...