parsifalster的文档

parsifalster

个性签名 ...

FG-MDM: Towards Zero-Shot Human Motion Generation via Fine-Grained Descriptions

最近，基于文本的动作生成取得了重大进展，能够生成符合文本描述的多样化、高质量的人体动作。然而，生成超出原始数据集分布的运动仍然具有挑战性，即 ...

0 0 0 0 2024/06/21 arXiv:2312.02772v2 parsifalster

SoundStream: An End-to-End Neural Audio Codec

我们推出了 SoundStream，这是一种新颖的神经音频编码解码器，可以以语音定制编码解码器通常目标的比特率有效地压缩语音、音乐和一般音频。 SoundStream 依赖于全语音编码器/解码网络器和残差矢量量化器组成的模型训练架构，它们经过端到端联合训练。利用文本转语音和语音增强方面的最新进展，将对抗性和重建损失结合起来，以便从量化嵌入生成高质量的音频内容... ...

0 1 0 0 2024/10/30 arXiv:2107.03312v1 parsifalster

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model

文本条件图像生成模型取得了重大进展。该领域的最新进展不仅取决于模型结构的改进，还取决于大量的文本图像配对数据集。然而，创建此类数据集的成本非常高，并且需要大量的劳动力 ...

0 0 0 0 2024/06/19 arXiv:2403.14944v1 parsifalster

Programmable Motion Generation for Open-Set Motion Control Tasks

现实场景中的角色动画需要各种约束，例如轨迹、关键帧、交互等。现有方法通常将这些约束的单个或有限集视为单独的控制任务。它们通常是专业化的，并且它们处理的任务很少是可扩展或可定制的 ...

0 0 0 0 2024/06/19 arXiv:2405.19283v1 parsifalster

InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

大规模文本到图像（ t2i）扩散模型展示了基于文本描述生成连贯图像的令人难以置信的能力，从而在内容生成中实现了广泛的应用。虽然最近的进步引入了对对象定位、姿势和图像轮廓等因素的控制，但我们控制生成内容中对象之间交互的能力仍然存在重大差距。良好控制生成图像中的交互可以产生有意义的应用，例如创建具有交互角色的真实场景... ...

0 1 0 0 2025/09/08 arXiv:2312.05849v2 parsifalster

From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs

人类与动物的区别在于人类使用和创造工具的独特能力。工具使人类能够克服生理限制，促进伟大文明的创造。同样，启用具有学习外部工具使用能力的大型语言模型（LLM）等基础模型可能是实现通用人工智能的关键一步 ...

0 0 0 0 2024/06/18 arXiv:2402.18157v1 parsifalster

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

我们提出了一种创建可解释概念滑块的方法，可以精确控制扩散模型生成图像中的属性。我们的方法识别与一个概念相对应的低秩参数方向，同时最大限度地减少对其他属性的干扰。滑块是使用一小组提示或示例图像创建的；因此，可以为文本或视觉概念创建滑块方向 ...

0 1 0 0 2024/06/18 arXiv:2311.12092v2 parsifalster

From NeRFs to Gaussian Splats, and Back

对于视图数量有限（通常以自我为中心）的机器人应用，参数表示（例如神经辐射场 (NeRF)）比非参数表示（例如高斯泼溅 (GS)）更好地概括为与这些视图非常不同的视图在训练数据中；然而 GS 的渲染速度比 NeRF 快得多。我们开发了一个在两者之间来回转换的程序。我们的方法实现了 NeRF（不同视图上的卓越 PSNR、SSIM 和 LPIPS，以及紧凑的表示）和 GS（实时渲染和轻松修改表示的能力）的最佳效果；与从头开始训练两者相比，这些转换的计算成本很小 ...

0 0 0 0 2024/06/17 arXiv:2405.09717v2 parsifalster

Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer

从文本和图像生成高质量的3d资源长期以来一直具有挑战性，这主要是由于缺乏能够捕获复杂几何分布的可扩展3d表示。在这项工作中，我们引入了direct3d，这是一种可扩展，这是一种可扩展至野外输入图像的原生3d生成模型，无需多视图扩散模型或sds：直接3d变分自动编码器（D3D-VAE）和直接3D扩散transformer（D3D-DIT） ... ...

0 0 0 0 2025/02/22 arXiv:2405.14832v2 parsifalster

Denotationally Correct, Purely Functional, Efficient Reverse-mode Automatic Differentiation

反向模式微分用于优化，但它引入了引用，这破坏了底层程序的纯粹性，使它们变得非常难以优化。我们在带有数组操作的纯函数式语言上提出了反向模式微分。它是第一个提供可证明有效、纯功能且外延正确的反向模式微分的模型 ...

0 0 0 0 2024/06/17 arXiv:2212.09801v2 parsifalster