生成式人工智能的进步已经扩展到人类舞蹈生成领域,展示了卓越的生成能力。然而,当前的方法在实现时空一致性方面仍然存在缺陷,导致重影、闪烁和不连贯运动等伪影。在本文中,我们提出了 Dance-Your-Latents,这是一个框架,可以使潜在对象按照运动流连贯地跳舞,以生成一致的舞蹈视频。首先,考虑到每个组成元素在有限的空间内移动,我们引入时空子空间注意块,将全局空间分解为规则子空间的组合,并有效地建模这些子空间内的时空一致性。该模块使每个补丁能够关注相邻区域,从而减轻远距离注意力的过度分散。此外,观察到身体部位的运动是由姿势控制引导的,我们设计了运动流引导的子空间对齐和恢复。该方法使得能够在沿着运动流的不规则子空间上计算注意力。 TikTok 数据集中的实验结果表明,我们的方法显着增强了生成视频的时空一致性 ...
现有的音乐驱动的3D舞蹈生成方法主要集中于高质量的舞蹈生成,但在生成过程中缺乏足够的控制。为了解决这些问题,我们提出了一个统一的框架,能够生成高质量的舞蹈动作并支持多模式控制,包括流派控制、语义控制和空间控制。首先,我们将舞蹈生成网络与舞蹈控制网络解耦,从而避免添加额外控制信息时舞蹈质量的下降。其次,针对不同的控制信息设计具体的控制策略,并将其整合到一个统一的框架中。实验结果表明,所提出的舞蹈生成框架在运动质量和可控性方面优于最先进的方法 ...
舞蹈生成作为人类动作生成的一个分支,越来越受到人们的关注。最近,一些作品试图从某些方面增强舞蹈表现力,包括流派匹配、节拍对齐和舞蹈动态。但由于缺乏对上述三个因素的综合考虑,其增强效果相当有限。在本文中,我们提出了 ExpressiveBailando,一种新颖的舞蹈生成方法,旨在生成富有表现力的舞蹈,同时考虑所有三个因素。具体来说,我们通过将频率信息纳入 VQ-VAE 来缓解速度同质化问题,从而改善舞蹈动态。此外,我们通过使用预先训练的音乐模型提取流派和节拍相关的特征来整合音乐风格信息,从而实现其他两个因素的改进。大量的实验结果表明,我们提出的方法可以生成具有高表现力的舞蹈,并且在质量和数量上都优于现有方法 ...
生成长期、连贯且逼真的音乐条件舞蹈序列仍然是人类运动合成中的一项具有挑战性的任务。现有的方法表现出严重的局限性:运动图方法依赖于固定的模板库,限制了创意的产生;扩散模型虽然能够产生新颖的运动,但通常缺乏时间连贯性和音乐对齐。为了应对这些挑战,我们提出了$\textbf{MotionRAG-Diff}$,这是一个混合框架,它将检索增强生成(RAG)与基于扩散的细化相结合,为任意长期音乐输入提供高质量、音乐连贯的舞蹈生成。我们的方法引入了三个核心创新:(1)跨模态对比学习架构,在共享潜在空间中对齐异构音乐和舞蹈表示,在没有配对数据的情况下建立无监督的语义对应; (2) 优化的运动图系统,用于运动片段的高效检索和无缝串联,确保长序列的真实性和时间连贯性; (3) 多条件扩散模型,联合以原始音乐信号和对比特征为条件,以增强运动质量和全局同步。大量实验表明,MotionRAG-Diff 在运动质量、多样性和音乐运动同步精度方面实现了最先进的性能。这项工作通过将基于检索的模板保真度与基于扩散的创意增强相结合,为音乐驱动的舞蹈生成建立了一个新的范式 ...
音乐到舞蹈的生成代表了编舞、虚拟现实和创意内容生成交叉点的一项具有挑战性但关键的任务。尽管其意义重大,但现有方法在实现编排一致性方面面临很大的限制。为了应对这一挑战,我们提出了 MatchDance,这是一种用于音乐到舞蹈生成的新颖框架,它构建了潜在表示以增强编舞的一致性。 MatchDance 采用两阶段设计:(1) 基于运动学动态的量化阶段 (KDQS),通过具有运动学动态约束的有限标量量化 (FSQ) 将舞蹈动作编码为潜在表示,并以高保真度重建它们;(2) 混合音乐到舞蹈生成阶段 (HMDGS),它使用 Mamba-Transformer 混合架构将音乐映射到潜在表示中,其次是 KDQS 解码器生成 3D 舞蹈动作。此外,还引入了音乐舞蹈检索框架和综合指标进行评估。 FineDance 数据集上的大量实验展示了最先进的性能。代码将在接受后发布 ...
从音乐信号生成连贯且多样化的人类舞蹈在虚拟化身动画方面取得了巨大进步。虽然现有方法支持直接舞蹈合成,但它们未能认识到使用户能够编辑舞蹈动作在现实世界的编舞场景中更为实用。此外,缺乏包含迭代编辑的高质量舞蹈数据集也限制了解决这一挑战。为了实现这一目标,我们首先构建了 DanceRemix,这是一个大规模的多轮可编辑舞蹈数据集,其中包含超过 2530 万个舞蹈帧和 84500 对的提示。此外,我们提出了一种新颖的框架,用于与给定的音乐信号保持一致的迭代和可编辑的舞蹈生成,即 DanceEditor。考虑到舞蹈动作应该既具有音乐节奏,又能够通过用户描述进行迭代编辑,我们的框架建立在统一多模态条件的预测然后编辑范例的基础上。在最初的预测阶段,我们的框架通过直接根据定制的、对齐的音乐对舞蹈动作进行建模,提高了生成结果的权威性。此外,在随后的迭代编辑阶段,我们将文本描述作为条件信息,通过专门设计的跨模态编辑模块(CEM)绘制可编辑的结果。具体来说,CEM 自适应地将初始预测与音乐和文本提示结合起来,作为时间运动线索来指导合成序列。因此,结果显示音乐和声,同时保留与文本描述的细粒度语义对齐。大量实验表明,我们的方法在我们新收集的 DanceRemix 数据集上优于最先进的模型。代码可从此 https URL 获取 ...
舞蹈作为一种艺术形式,从根本上取决于与音乐节拍的精确同步。然而,从音乐中实现美观的舞蹈序列具有挑战性,现有方法往往在可控性和节拍对齐方面存在不足。为了解决这些缺点,本文介绍了 Beat-It,这是一种用于特定节拍、关键姿势引导舞蹈生成的新颖框架。与之前的方法不同,Beat-It 独特地集成了明确的节拍意识和关键姿势指导,有效解决了两个主要问题:生成的舞蹈动作与音乐节拍的不一致,以及无法将关键姿势映射到特定节拍,这对于实际编舞至关重要。我们的方法使用最近的节拍距离表示将节拍条件与音乐分开,并采用分层多条件融合机制。该机制无缝地集成了关键姿势、节拍和音乐特征,减轻了条件冲突,并为舞蹈生成提供了丰富的、多条件的指导。此外,专门设计的节拍对齐损失可确保生成的舞蹈动作与指定节拍保持同步。大量实验证实了 Beat-It 在节拍对齐和运动可控性方面优于现有最先进的方法 ...
舞蹈音乐 (D2M) 生成旨在自动创作在节奏和时间上与舞蹈动作保持一致的音乐。现有方法通常依赖于粗略的节奏嵌入,例如全局运动特征或基于关节的二值化节奏值,它们会丢弃细粒度的运动线索并导致弱节奏对齐。此外,特征下采样引入的时间不匹配进一步阻碍了舞蹈和音乐之间的精确同步。为了解决这些问题,我们提出了 \textbf{GACA-DiT},这是一种基于扩散 Transformer 的框架,具有两个新颖的模块,用于节奏一致和时间对齐的音乐生成。首先,\textbf{流派自适应节奏提取}模块将多尺度时间小波分析和空间相位直方图与自适应联合加权相结合,以捕获细粒度、流派特定的节奏模式。其次,\textbf{上下文感知时间对齐}模块使用可学习的上下文查询来解决时间不匹配问题,以将音乐潜力与相关舞蹈节奏特征对齐。对 AIST++ 和 TikTok 数据集的大量实验表明,GACA-DiT 在客观指标和人类评估方面均优于最先进的方法。项目页面:此 https URL ...
随着基于视频的用户生成内容 (UGC) 在社交媒体上的流行,人类感知原理所规定的和谐对于评估视听 UGC 的节奏一致性以提高用户参与度至关重要。在这项工作中,我们提出了一种新颖的和声感知 GAN 框架,遵循专门设计的和声评估策略,以使用 UGC 舞蹈数据集增强自动音乐到动作合成中的节奏同步。这种和声策略利用精细的跨模式节拍检测来捕获视听对中密切相关的音频和视觉节奏。为了模仿人类的注意力机制,我们引入了基于显着性的节拍加权和间隔驱动的节拍对齐,这确保了与人类感知一致的准确和声分数估计。在此策略的基础上,我们的模型采用高效的编码器-解码器和深度提升设计,基于分类的音乐节拍片段进行对抗性训练,以生成逼真且有节奏的 3D 人体动作。我们进一步将和声评估策略作为弱监督的感知约束,以灵活地指导生成过程中同步的视听节奏。实验结果表明,即使 UGC 训练数据有限,我们提出的模型在节奏和声方面无论在数量上还是在质量上都显着优于其他领先的音乐到动作方法。实时示例 15 可在以下位置观看:此 https URL ...
本文提出了一种探索性 3D 舞蹈生成框架 E3D2,旨在解决现有音乐条件下的 3D 舞蹈生成模型中探索能力的缺陷。当前的模型经常生成单调且简单的舞蹈序列,由于缺乏探索能力,与人类的喜好不一致。 E3D2 框架涉及一个根据自动排名的舞蹈演示训练的奖励模型,然后该模型指导强化学习过程。这种方法鼓励智能体探索并生成高质量且多样化的舞蹈动作序列。奖励模型的合理性得到了理论和实验的验证。实证实验证明了 E3D2 在 AIST++ 数据集上的有效性。项目页面:此 https URL ...