3D面部动画因其在多媒体领域的广泛应用而受到广泛关注。 Audio-driven 3D facial animation has been widely explored with promising results.然而,由于缺乏多模态 3D 面部动画数据集,多模态 3D 面部动画,特别是文本引导的 3D 面部动画很少被探索。为了填补这一空白,我们首先构建了一个大规模多模态 3D 面部动画数据集 MMHead,它由 49 小时的 3D 面部运动序列、语音音频和丰富的分层文本注释组成。每个文本注释包含抽象的动作和情感描述、细粒度的面部和头部运动(即表情和头部姿势)描述以及可能引起这种情感的三种可能场景。具体来说,我们整合了五个公共 2D 肖像视频数据集,并提出了一个自动管道:1)从单目视频重建 3D 面部运动序列; and 2) obtain hierarchical text annotations with the help of AU detection and ChatGPT.基于 MMHead 数据集,我们为两个新任务建立了基准:文本引发的 3D 头部说话动画和文本到 3D 面部运动生成。此外,提出了一种简单但有效的基于 VQ-VAE 的方法(MM2Face)来统一多模态信息并生成多样化且可信的 3D 面部运动,该方法在两个基准测试中都取得了有竞争力的结果。大量的实验和全面的分析证明了我们的数据集和基准在促进多模态 3D 面部动画发展方面的巨大潜力 ...

0 0 0 0 2026/02/15 arXiv:2410.07757v1 alex666

从自然语言生成动态 3D 面部动画需要理解时间结构语义和细粒度的表情变化。现有的数据集和方法主要关注语音驱动的动画或非结构化表达序列,因此缺乏表达性人类表演生成所需的语义基础和时间结构。在这项工作中,我们介绍了 KeyframeFace,这是一个大型多模态数据集,旨在通过关键帧级监督进行文本到动画研究。 KeyframeFace 提供 2,100 个表达脚本,搭配单目视频、每帧 ARKit 系数、上下文背景、复杂情感、手动定义的关键帧以及通过大语言模型 (LLM) 和多模态大语言模型 (MLLM) 基于 ARKit 系数和图像的多视角注释。除了数据集之外,我们还提出了第一个文本到动画框架,该框架明确利用 LLM 先验来进行可解释的面部运动合成。该设计将 LLM 的语义理解能力与 ARKit 系数的可解释结构结合起来,从而实现高保真表达动画。 KeyframeFace 和我们基于 LLM 的框架共同为可解释、关键帧引导和上下文感知的文本到动画奠定了新的基础。代码和数据可从此 https URL 获取 ...

0 0 0 0 2026/02/15 arXiv:2512.11321v1 alex666

语音驱动的 3D 面部动画旨在产生与语音内容及其情感细微差别同步的逼真面部表情,在各种多媒体领域都有应用。然而,以前的方法经常忽视情绪面部表情或无法有效地将它们与演讲内容分开。为了应对这些挑战,我们提出了 EmoDiffusion,这是一种新颖的方法,可以分解语音中的不同情绪,生成丰富的 3D 情感面部表情。具体来说,我们的方法采用两个变分自动编码器(VAE)分别生成上脸区域和嘴部区域,从而学习面部序列的更精细的表示。与使用扩散模型将面部表情序列与音频输入连接起来的传统方法不同,我们在潜在空间中执行扩散过程。此外,我们引入了情感适配器来准确评估上脸运动。鉴于动画行业中3D情感说话人脸数据的缺乏,我们在动画专家的指导下使用iPhone上的LiveLinkFace捕捉面部表情。这项工作最终创建了一个创新的 3D Blendshape 情感说话面部数据集 (3D-BEF),用于训练我们的网络。大量的实验和感知评估验证了我们方法的有效性,证实了其在生成逼真且情感丰富的面部动画方面的优越性 ...

0 0 0 0 2026/02/15 arXiv:2503.11028v1 alex666

一致性正则化在最近的半监督语义分割方法中得到了广泛的研究,并取得了可喜的性能。在这项工作中,我们提出了一种新的一致性正则化框架,称为相互知识蒸馏(MKD),结合了数据和特征增强。我们引入了两种基于一致性正则化的辅助均值教师模型。更具体地说,我们使用平均教师生成的伪标签来监督学生网络,以实现两个分支之间的相互知识蒸馏。除了使用图像级强增强和弱增强之外,我们还讨论特征增强。这涉及考虑各种知识来源来提炼学生网络。因此,我们可以显着增加训练样本的多样性。公共基准测试表明,我们的框架在各种半监督设置下优于以前最先进的(SOTA)方法。代码可在 semi-mmseg 获取 ...

0 0 0 0 2026/02/14 arXiv:2208.11499v3 mixiu

EMV 是智能卡支付的国际协议标准,全球超过 90 亿张卡使用。尽管该标准标榜安全,但之前已经发现了各种问题,这些问题源于 EMV 冗长而复杂的规范(超过 2,000 页)中很难发现的逻辑缺陷。我们在最先进的协议验证器 Tamarin 中形式化了 EMV 的综合符号模型。我们的模型是第一个支持对 EMV 旨在提供的所有相关安全保证进行细粒度分析的模型。我们使用我们的模型自动识别导致两种严重攻击的缺陷:一种是欺骗持卡人,另一种是欺骗商家。首先,犯罪分子可以使用受害者的 Visa 非接触式卡来支付需要持卡人验证的金额,而无需知道该卡的 PIN 码。我们构建了一个概念验证 Android 应用程序,并成功在现实世界的支付终端上演示了这种攻击。其次,犯罪分子可以欺骗终端接受不真实的线下交易,而发卡银行应在犯罪分子带走货物后拒绝该交易。这种攻击对于遵循标准的实现是可能的,尽管出于道德原因我们没有在实际终端上进行测试。最后,我们提出并验证了对标准的改进,以防止这些攻击以及违反所考虑的安全属性的任何其他攻击。所提出的改进措施可以在终端中轻松实施,并且不会影响卡的流通 ...

0 0 0 0 2026/02/14 arXiv:2006.08249v3 mixiu

使用大型扩散模型进行免训练图像编辑已经变得实用,但忠实地执行复杂的非刚性编辑(例如姿势或形状变化)仍然极具挑战性。我们确定了一个关键的根本原因:现有注意力共享机制中的注意力崩溃,其中位置嵌入或语义特征主导视觉内容检索,导致过度编辑或编辑不足。为了解决这个问题,我们引入了 SynPS,这是一种协同利用位置嵌入和语义信息进行忠实的非刚性图像编辑的方法。我们首先提出一种编辑测量,量化每个去噪步骤所需的编辑幅度。基于此测量,我们设计了一个注意力协同管道,可以动态调节位置嵌入的影响,使 SynPS 能够平衡语义修改和保真度保持。通过自适应地集成位置和语义提示,SynPS 有效地避免了过度编辑和编辑不足。对公共和新策划的基准进行的广泛实验证明了我们方法的卓越性能和忠实度 ...

0 0 0 0 2026/02/14 arXiv:2512.14423v2 assvga

视觉-语言-动作(VLA)模型最近在机器人操作方面表现出了强大的泛化能力。一些现有的 VLA 方法试图通过在动作执行之前显式生成语言推理轨迹或未来的视觉观察来提高动作准确性。然而,显式推理通常会产生不可忽略的推理延迟,这限制了机器人操作所需的时间分辨率。此外,这种推理仅限于语言空间,造成了难以忠实地捕捉不可言喻的物理属性的表征瓶颈。为了缓解这些限制,我们提出了 LaST$_0$,这是一个框架,可以在通过潜在时空思维链 (CoT) 进行行动之前实现高效推理,捕获通常难以用语言表达的细粒度物理和机器人动态。具体来说,我们引入了一个 Token 有效的潜在 CoT 空间,它可以对未来的视觉动态、3D 结构信息和机器人本体感受状态进行建模,并进一步跨时间扩展这些表示,以实现时间一致的隐式推理轨迹。此外,LaST$_0$ 采用通过 Mixture-of-Transformers 设计实现的双系统架构,其中推理专家进行低频潜在推理,代理专家根据面向机器人的潜在表示生成高频动作。为了促进协调,LaST$_0$ 使用异构操作频率进行训练,从而在部署期间实现推理和动作推理速率之间的自适应切换。在 10 个模拟任务和 6 个现实世界操作任务中,LaST$_0$ 比之前的 VLA 方法分别将平均成功率提高了 8% 和 13%,同时实现了更快的推理速度。项目网站:这个https URL ...

0 0 0 0 2026/02/14 arXiv:2601.05248v2 ttts

自回归模型 (ARM) 目前构成了大型语言模型 (LLM) 的主导范式。基于能量的模型(EBM)代表了另一类模型,该模型历来在 LLM 开发中不太流行,但自然地表征了培训后调整中的最佳策略。在本文中,我们提供了这两个模型类的统一视图。以概率链式法则为起点,我们在函数空间中建立了 ARM 和 EBM 之间的显式双射,并证明它对应于最大熵强化学习中软贝尔曼方程的特殊情况。基于这种双射,我们推导出 ARM 和 EBM 的监督学习之间的等价性。此外,我们通过提供理论误差范围来分析 EBM 到 ARM 的蒸馏。尽管基于下一个 Token 预测范式,但我们的结果提供了有关 ARM 提前计划能力的见解 ...

0 0 0 0 2026/02/14 arXiv:2512.15605v2 hwrabbit

基于可能性的策略梯度方法是通过奖励训练机器人控制策略的主要方法。这些方法依赖于可微分的行动可能性,这将政策输出限制为高斯等简单分布。在这项工作中,我们展示了流匹配策略梯度(一种绕过似然计算的最新框架)如何在具有挑战性的机器人控制设置中有效地训练和微调更具表现力的策略。我们引入了一种改进的目标,可以成功完成腿部运动、人形运动跟踪和操纵任务,以及在两个人形机器人上实现稳健的模拟到真实的传输。然后我们对训练动态进行消融和分析。结果表明,在从头开始训练时,策略如何利用流表示进行探索,以及如何提高相对于基线的微调鲁棒性 ...

0 0 0 0 2026/02/14 arXiv:2602.02481v1 ttts

算法设计(AD)对于有效解决各个领域的问题至关重要。大型语言模型 (LLM) 的出现显着增强了该领域的自动化和创新,提供了新的视角和有前景的解决方案。在过去的三年里, LLM 与AD的整合(LLM4AD)取得了实质性进展,其应用领域涵盖优化、机器学习、数学推理和科学发现。鉴于该领域的快速发展和范围不断扩大,系统评价既及时又必要。本文对 LLM4AD 进行了系统回顾。首先,我们对现有研究进行概述和总结。然后,我们介绍了分类法,并从四个维度回顾了文献: LLM 的作用、搜索方法、提示方法和应用领域,并讨论了 LLM 在AD领域的潜力和成就。最后,我们确定了当前的挑战并强调了未来研究的几个有希望的方向 ...

0 0 0 0 2026/02/14 arXiv:2410.14716v5 yzm