本文介绍了一种用于高质量深度伪造检测的新方法,称为局部伪影注意网络(LAA-Net)。现有的高质量深度伪造检测方法主要基于监督二元分类器和隐式注意机制。因此,它们不能很好地推广到看不见的操纵 ...
运动规划是一个计算问题,通常基于周围智能体的预测、环境理解以及历史和未来背景来找到一系列有效的方法。它也可以被视为一种博弈,其中智能体根据其他智能体的意图和遇到的环境不断计划下一步行动,通过增量行动进一步考虑实现其最终目标。为了对动态规划和交互过程进行建模,我们提出了一个新颖的框架DeepEMplanner,将逐步交互推向细粒度的行为学习... ...
随后许多扩散模型在图像生成方面取得了巨大的成功,最近的工作也证明了它们通过基于条件输入适当的约束购买过程,以无监督的方式解决逆问题的令人印象深刻的能力。本文中,我们提出了第一种使用扩散模型作为从单个图像进行3D面部BRDF重建的先验的方法。我们首先利用高质量的面部反射率UV数据集(漫反射和镜面反照率和法)线),在不同的照明设置下渲染该数据集模拟自然RGB纹理,然后以中央的渲染纹理对上训练无条件漫射 ...
随着深度伪造视频内容的快速增长,我们需要改进和通用的方法来检测它们。大多数现有的检测方法要么使用单模态线索,要么依赖监督训练来捕获音频和视觉模态之间的不和谐。虽然前者完全忽略视听对应关系,但后者主要侧重于识别训练语料库中的视听线索,从而可能忽略有助于检测看不见的深度赝品的对应关系 ...
本文提出了一种基于风格潜在向量及其在生成视频的时间变化中的异常行为的分析的假视频检测新方法。我们发现,生成的面部视频在风格潜在向量的时间变化中受到时间独特性的影响,这是在生成具有各种面部表情和几何变换的时间稳定视频时不可避免的。我们的框架利用通过对比学习训练的 StyleGRU 模块来表示风格潜在向量的动态属性 ...
多模态大语言模型 (MLLM) 显着提高了各种图像语言应用程序的性能。最近,人们对将图像预训练的 MLLM 用于视频相关任务越来越感兴趣。然而,大多数努力都集中在增强视觉编码器和投影仪组件上,而核心部分大型语言模型(LLM)仍然相对未得到充分探索 ...
可靠性是运行大规模机器学习 (ML) 基础设施的一个基本挑战,特别是随着 ML 模型和训练集群规模的不断增长。尽管对基础设施故障进行了数十年的研究,但不同规模的工作故障的影响仍不清楚。本文提出了管理两个大型多租户 ML 集群的观点,提供了定量分析、操作经验以及我们自己在理解和解决大规模可靠性问题方面的观点 ...
训练大规模语言模型在各个领域变得越来越重要,但它受到频繁失败的阻碍,导致大量的时间和经济成本。基于云的设置中当前的故障恢复方法不足以解决出现的多样化和复杂的场景,狭隘地专注于消除单个任务的停机时间,而不考虑对集群的总体成本影响。我们介绍 Unicron,这是一种工作负载管理器,专为大规模语言模型训练中的高效自我修复而设计 ...