这项工作的目标是同时从文本生成自然的说话面孔和语音输出。我们通过将人脸生成 (TFG) 和文本转语音 (TTS) 系统集成到一个统一的框架中来实现这一目标。我们解决每项任务的主要挑战:(1)生成代表现实世界场景的一系列头部姿势,以及(2)尽管同一身份的面部运动存在变化,但仍确保语音一致性 ...

0 0 0 0 2024/05/19 arXiv:2405.10272v1 ForrestPi

随着大型语言模型 (LLM) 的发展,它们与 3D 空间数据 (3D-LLM) 的集成取得了快速进展,为理解物理空间和与物理空间交互提供了前所未有的能力。该调查全面概述了 LLM 能够处理、理解和生成 3D 数据的方法。我们强调 LLM 的独特优势,例如情境学习、逐步推理、开放词汇能力和广泛的世界知识,强调它们在具体人工智能(AI)系统中显着促进空间理解和交互的潜力 ...

0 0 0 0 2024/05/19 arXiv:2405.10255v1 ForrestPi

生成对抗网络(GAN)提供了一个用于构建生成模型的算法框架,具有几个吸引人的特性:它们不需要指定似然函数,只需要一个生成过程;他们提供尖锐且引人注目的样本;它们使我们能够利用我们的知识来构建高度准确的神经网络分类器。在这里,我们加深对 GAN 的理解,旨在对这个不断发展的机器学习领域形成丰富的看法——与该主题的各种统计思维建立联系,通过相互交流可以获益良多的想法。我们在更广泛的隐式生成模型(仅指定生成数据的随机过程的模型)算法中构建 GAN,并将这些想法与相关领域的建模问题相关联,例如计量经济学和近似贝叶斯计算 ...

0 0 0 0 2024/05/19 arXiv:1610.03483v4 parsifalster

去噪扩散概率模型(DDPM)无需对抗训练即可实现高质量图像生成,但它们需要模拟马尔可夫链的许多步骤来生成样本。为了加速采样,我们提出了去噪扩散隐式模型 (DDIM),这是一类更高效的迭代隐式概率模型,其训练过程与 DDPM 相同。在 DDPM 中,生成过程被定义为马尔可夫扩散过程的逆过程 ...

0 0 0 0 2024/05/19 arXiv:2010.02502v4 parsifalster

大型语言模型 (LLM) 擅长少量上下文学习 (ICL)——从推理时上下文中提供的几个示例中学习,无需任何权重更新。新扩展的上下文窗口使我们能够使用数百或数千个示例来研究 ICL - 多样本机制。从少数镜头到多次镜头,我们观察到各种生成和判别任务的性能显着提升 ...

0 0 0 0 2024/05/19 arXiv:2404.11018v1 SAK

大型语言模型(LLM)已显示出在结构化环境(例如知识图和表格)上进行推理的潜力 ...

0 0 0 0 2024/05/19 arXiv:2403.08593v1 Sydney

图神经网络(GNN)和图变换器等图嵌入方法为知识图上各种任务的图推理算法的开发做出了贡献。然而,图嵌入方法缺乏可解释性和可解释性,限制了它们在需要显式推理的场景中的适用性。在本文中,我们介绍了图代理(GA),这是一种利用大型语言模型(LLM)、归纳演绎推理模块和长期记忆来完成知识图推理任务的智能代理方法 ...

0 0 0 0 2024/05/19 arXiv:2310.16421v1 Sydney

检测被操纵的面部图像和视频是数字媒体取证中日益重要的主题。随着先进的面部合成和操作方法的出现,新型的虚假面部表征正在被创建,这引起了人们对其在社交媒体中的使用的严重担忧。因此,检测被操纵的面部图像并定位被操纵的区域至关重要 ...

0 0 0 0 2024/05/19 arXiv:1910.01717v5 jeffrey188

准确重建包含显式几何信息的 3D 场景既有吸引力又具有挑战性。几何重建可以受益于合并可微的外观模型,例如神经辐射场和 3D 高斯分布 (3DGS)。在这项工作中,我们提出了一种可学习的场景模型,它将 3DGS 与显式几何表示(即网格)相结合 ...

0 0 0 0 2024/05/19 arXiv:2405.06945v1 ForrestPi

实现细粒度的情感控制对于情感生成任务至关重要,因为它增强了生成模型的表达能力,使其能够准确、全面地捕捉和表达各种细微的情感状态,从而提高生成内容的情感质量和个性化。仅使用肖像和录音来生成精确描绘情感表达的细粒度面部动画是一项挑战。为了应对这一挑战,我们提出了一种视觉属性引导的音频解耦器 ...

0 0 0 0 2024/05/19 arXiv:2402.01422v1 ForrestPi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)