parsifalster的文档

parsifalster

个性签名 ...

Computational Optimal Transport

最佳运输（OT）理论可以用法国数学家加斯帕德·蒙日（Gaspard Monge，1746-1818）的话来车轮地描述：一个手拿铲子的工人必须移动建筑工地上的一大堆沙子工人的目标是用所有沙子建造一个具有规定形状的目标堆（例如，一个巨大的沙堡）。自然地，工人希望最小化她的总工作量，例如量化为搬运一个铲沙子所花费的总距离或时间... ...

0 0 0 0 2024/10/11 arXiv:1803.00567v4 parsifalster

Neural Discrete Representation Learning

在没有监督情况下学习有用的表示仍然是机器学习中的一个关键挑战。在本文中，我们提出了一个简单但强大的生成模型来学习这种离散表示。模型向量量化变分自动编码器 (VQ-VAE) 与 VAE 有两个关键的不同位置：编码器网络输出离散代码，而不是连续代码；并且先验得的是习得的而不是静态的... ...

0 2 0 0 2024/11/06 arXiv:1711.00937v2 parsifalster

T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations

在这项工作中，我们研究了一个基于矢量量化和变分自动编码器（VQ-VAE）和生成预变换器（GPT）的简单必须知道的条件生成框架，用于根据描述纹理生成人体运动。我们展示了一个简单的基于 CNN 的 VQ-VAE 以及常用的训练方法（EMA 和代码重置）使我们能够获得高质量的离散表示。对于 GPT，我们在训练过程中加入了一个简单的犯罪策略，以减弱训练与测试的差异... ...

0 0 0 0 2025/01/10 arXiv:2301.06052v4 parsifalster

MoMask: Generative Masked Modeling of 3D Human Motions

我们介绍momask，这是一种新颖的蒙版建模框架，用于文本驱动的，3d人体运动生成。在momask，采用分层量化方案将人体运动表示为具有高保真细节的多层离散运动标记。从基础层开始，采用分层量化方案将人体运动表示为具有高保真细节的多层离散运动标记。从基础层开始，利用通过矢量量化获得的运动 Token ，导出递增阶的剩余 ...

0 0 0 0 2025/03/26 arXiv:2312.00063v1 parsifalster

Learning in Implicit Generative Models

生成对抗网络（GAN）提供了一个用于构建生成模型的算法框架，具有几个吸引人的特性：它们不需要指定似然函数，只需要一个生成过程；他们提供尖锐且引人注目的样本；它们使我们能够利用我们的知识来构建高度准确的神经网络分类器。在这里，我们加深对 GAN 的理解，旨在对这个不断发展的机器学习领域形成丰富的看法——与该主题的各种统计思维建立联系，通过相互交流可以获益良多的想法。我们在更广泛的隐式生成模型（仅指定生成数据的随机过程的模型）算法中构建 GAN，并将这些想法与相关领域的建模问题相关联，例如计量经济学和近似贝叶斯计算 ...

0 0 0 0 2024/05/19 arXiv:1610.03483v4 parsifalster

Denoising Diffusion Implicit Models

去噪扩散式隐模型（DDPM）不需要训练就可以实现高质量图像生成，但它们需要模拟马尔可夫链的许多步骤来生成样本。为了加速采样，我们提出了去噪扩散式隐模型（DDIM），这是一类更高效的迭代隐式概率模型，其训练过程与DDPM相同。在DDPM中，生成过程被定义为马尔可夫扩散过程的逆过程... ...

0 0 0 0 2024/11/12 arXiv:2010.02502v4 parsifalster

Human Motion Diffusion Model

自然而富有表现力的人体动作生成是计算机动画的圣杯。由于可能的运动的多样性、人类对运动的感知敏感性以及准确描述运动的难度，这是一项具有挑战性的任务。因此，当前的生成解决方案要么质量低下，要么表达能力有限... ...

0 0 0 0 2025/09/02 arXiv:2209.14916v2 parsifalster

Keyframer: Empowering Animation Design using Large Language Models

大型语言模型 (LLM) 有可能影响广泛的创意领域，但 LLM 在动画中的应用尚未得到充分探索，并带来了新的挑战，例如用户如何有效地用自然语言描述运动。在本文中，我们介绍了 Keyframer，这是一种使用自然语言对静态图像 (SVG) 进行动画处理的设计工具。通过对专业动画设计师和工程师的采访得知，Keyframer 通过将提示和直接编辑生成的输出相结合来支持动画的探索和细化 ...

0 0 0 0 2024/07/06 arXiv:2402.06071v1 parsifalster

Advances in 3D Generation: A Survey

生成3D模型是计算机图形学的核心，也是积累多年来研究的焦点。随着高级神经表示和生成模型的出现，3D内容生成领域正在快速发展，使得能够创建更加高精度和仿真的3D模型。该领域的快速增长使得很难跟上所有最新发展...... ...

0 0 0 0 2024/10/31 arXiv:2401.17807v1 parsifalster

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

我们介绍 InseRF，这是一种在 3D 场景的 NeRF 重建中生成对象插入的新方法。基于用户提供的文本描述和参考视点中的 2D 边界框，InseRF 在 3D 场景中生成新对象。最近，由于在 3D 生成建模中使用了文本到图像扩散模型的强先验，3D 场景编辑方法已经发生了深刻的转变 ...

0 0 0 0 2024/07/18 arXiv:2401.05335v1 parsifalster