人们早就知道,具有 i.i.d. 的单层全连接神经网络 ...
角色动画旨在通过驱动信号从静止图像生成角色视频。目前,扩散模型因其强大的生成能力已成为视觉生成研究的主流。然而,图像到视频领域仍然存在挑战,特别是在角色动画中,暂时保持与角色详细信息的一致性仍然是一个艰巨的问题 ...
在面部视觉配音中实现高分辨率、身份一致性和准确的唇语同步提出了重大挑战,特别是对于实时视频流等实时应用。我们提出了 MuseTalk,它在由变分自动编码器编码的潜在空间中生成唇形同步目标,从而能够通过高效的推理生成高保真说话的脸部视频。具体来说,我们将人脸图像被遮挡的下半部分及其本身作为参考投影到低维潜在空间中,并使用多尺度 U-Net 来融合各个级别的音频和视觉特征 ...
近年来,生成工具的惊人增长为文本到图像生成和文本到视频生成领域的许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念,这是一种特殊的采样机制,克服了以前的方法中被认为难以解决的一些缺点。本教程的目标是讨论扩散模型的基本思想 ...
计算机视觉的一个长期目标是捕捉、建模和真实地综合人类行为。具体来说,通过从数据中学习,我们的目标是使虚拟人类能够在杂乱的室内场景中导航并自然地与物体交互。这种具体行为在虚拟现实、计算机游戏和机器人技术中都有应用,而合成行为可以用作训练数据源 ...
人景交互(HSI)是实体人工智能和虚拟现实等领域的重要组成部分。尽管在运动质量和物理合理性方面取得了进步,但在 HSI 的实际应用之前,还需要进一步探索两个关键因素,即多功能交互控制和用户友好界面的开发。本文提出了一个统一的HSI框架UniHSI,它支持通过语言命令对多种交互进行统一控制 ...
深度学习模型已被部署在许多现实世界的应用中,例如自动驾驶和监控。然而,这些模型在对抗环境中很容易受到攻击。后门攻击正在成为一种严重的安全威胁,它将后门触发器注入一小部分训练数据中,使得训练后的模型在良性输入上表现正常,但在特定触发器出现时给出错误的预测 ...
基于分数(去噪扩散)的生成模型最近在生成真实且多样化的数据方面取得了很大的成功。这些方法定义了将数据转换为噪声的前向扩散过程,并通过反转数据来生成数据(从而从噪声到数据)。不幸的是,由于数值 SDE 求解器需要大量的评分网络评估,当前基于评分的模型生成数据的速度非常缓慢 ...
我们开发了机器学习重整化群 (MLRG) 算法来探索和分析统计物理中的多体晶格模型。利用生成建模的表示学习能力,MLRG 自动从自生成的自旋配置中学习最佳重正化群 (RG) 变换,并在无需人工监督的情况下制定 RG 方程。该算法并不专注于模拟任何特定的晶格模型,而是广泛探索与给定现场对称表示的内部对称性和晶格对称性兼容的所有可能模型 ...
在数学心理学家关注的许多统计应用中,费希尔信息的概念起着重要作用。在本教程中,我们阐明了费舍尔信息的概念,因为它在三种不同的统计范式中表现出来。首先,在频率论范式中,Fisher 信息用于使用最大似然估计来构建假设检验和置信区间;其次,在贝叶斯范式中,Fisher信息用于定义默认先验;最后,在最小描述长度范式中,利用Fisher信息来衡量模型复杂度 ...