少样本学习是指仅从少量训练样本中学习数据中的潜在模式的问题。许多深度学习解决方案需要大量数据样本,因此面临数据匮乏和计算时间和资源过高的问题。此外,由于问题的性质或隐私问题,以及数据准备的成本,数据通常无法获得。数据收集、预处理和标记是繁重的人工任务。因此,小样本学习可以大大减少构建机器学习应用程序的周转时间,成为一种低成本解决方案。这篇调查论文包含了最近提出的小样本学习算法的代表性列表。考虑到学习动态和特征,从元学习、迁移学习和混合方法(即少样本学习问题的不同变体)的角度讨论了少样本学习问题的方法 ...

0 0 0 0 2026/03/14 arXiv:2203.04291v1 begin_huang

3D视觉接地(3DVG)旨在根据文本描述在3D场景中找到对象,这对于诸如增强现实和机器人技术之类的应用至关重要。传统的3DVG方法依赖于注释的3D数据集和预定义的对象类别,从而限制了可扩展性和适应性。为了克服这些局限性,我们引入了Seeground,这是一个零射击3DVG框架,利用了对大规模2D数据训练的2D视觉模型(VLMS) ...

0 0 0 0 2026/03/14 arXiv:2412.04383v2 13766783701

大型多模态模型 (LMM) 在一系列视觉和语言任务中取得了出色的性能。然而,他们的空间推理能力尚未得到充分研究。在本文中,我们构建了一个新颖的 VQA 数据集 Spatial-MM,以全面研究 LMM 的空间理解和推理能力。我们对对象关系和多跳推理的分析揭示了几个重要的发现。首先,边界框和场景图,甚至是合成的,可以显着增强 LMM 的空间推理能力。其次,LMM 更难解决从人类角度提出的问题,而不是相机角度提出的图像问题。第三,思想链(CoT)提示并不能提高涉及空间关系的复杂多跳问题的模型性能。此外,跨 MLLM 的空间推理步骤比非空间推理步骤的准确性要低得多。最后,我们对 GQA 空间的扰动分析表明,LMM 在基本目标检测方面比复杂空间推理强得多。我们相信我们的基准数据集和深入分析可以激发对 LMM 空间推理的进一步研究。 Spatial-MM 基准测试可在以下位置获取:此 https URL ...

0 0 0 0 2026/03/14 arXiv:2411.06048v1 13766783701

这项工作提出了多模态分类的新挑战,重点是检测多模态模因中的仇恨言论。它的构造使得单峰模型陷入困境,只有多峰模型才能成功:将困难的示例(“良性混杂因素”)添加到数据集中,以使其难以依赖单峰信号。该任务需要微妙的推理,但可以直接作为二元分类问题进行评估。我们提供单峰模型以及不同复杂程度的多峰模型的基准性能数据。我们发现,与人类相比,最先进的方法表现较差(准确率分别为 64.73% 和 84.7%),这说明了任务的难度,并强调了这一重要问题给社区带来的挑战 ...

0 0 0 0 2026/03/13 arXiv:2005.04790v3 xjwit

人体运动生成因其在数字人类和仿人机器人控制等领域的关键作用而受到广泛研究。然而,当前的许多运动生成方法都忽略了物理约束,经常导致物理上不可信的运动,并具有明显的伪影,例如漂浮和脚滑动。与此同时,利用噪声运动数据训练有效的运动物理优化器在很大程度上仍未得到探索。在本文中,我们提出了 \textbf{Morph},一个 \textbf{Mo}tion-F\textbf{r}ee \textbf{ph}ysics 优化框架,由运动生成器和运动物理细化模块组成,用于在不依赖昂贵的现实世界运动数据的情况下增强物理合理性。具体来说,运动生成器负责提供大规模合成的噪声运动数据,而运动物理细化模块利用这些合成数据来学习物理模拟器中的运动模仿器,强制物理约束将噪声运动投影到物理上合理的空间中。此外,我们引入了先前的奖励模块来增强物理优化过程的稳定性并生成更平滑、更稳定的运动。然后使用这些物理上精细的运动来微调运动发生器,进一步增强其功能。这种协作训练范例可以实现运动发生器和运动物理细化模块之间的相互增强,从而显着提高实际应用中的实用性和鲁棒性。对文本到运动和音乐到舞蹈生成任务的实验表明,我们的框架实现了最先进的运动质量,同时大幅提高了物理合理性 ...

0 0 0 0 2026/03/13 arXiv:2411.14951v3 qinhui_cici

随着生成技术遍及音频领域,人们越来越有兴趣追溯这些复杂的模型,以了解它们如何利用训练数据来合成新的示例,以确保它们使用正确许可的数据,并阐明它们的黑盒行为。在本文中,我们表明,如果训练数据中隐藏了难以察觉的回声,则各种音频到音频架构(可微分数字信号处理(DDSP)、实时音频变分自动编码器(RAVE)和“舞蹈扩散”)将在其输出中重现这些回声。隐藏单个回声在所有架构中都特别强大,但我们还展示了隐藏较长时间传播回声模式以增加信息容量的有希望的结果。我们的结论是,回声能够进入微调模型,它们能够在混合/解混合中幸存下来,并且它们在训练期间能够在音高变换增强中幸存下来。因此,水印中这种简单、经典的想法显示了标记生成音频模型的巨大前景 ...

0 0 0 0 2026/03/13 arXiv:2412.10649v1 qinhui_cici

音乐驱动的舞蹈生成的任务包括创建与给定音乐相对应的连贯的舞蹈动作。虽然现有的方法可以产生物理上合理的舞蹈,但它们通常很难推广到设定外的数据。挑战来自三个方面:1)舞蹈动作的高度多样性和音乐模态分布的显着差异,这使得生成与音乐一致的舞蹈动作变得困难。 2)缺乏大规模的音乐舞蹈数据集,这阻碍了从音乐中生成广义的舞蹈动作。 3)舞蹈动作的持久性对保持一致的舞蹈风格提出了挑战。在这项工作中,我们介绍了 EnchantDance 框架,这是一种最先进的舞蹈生成方法。由于原始舞蹈序列沿时间轴的冗余,EnchantDance首先构建强大的舞蹈潜在空间,然后在舞蹈潜在空间上训练舞蹈扩散模型。为了解决数据缺口,我们构建了一个大规模的音乐舞蹈数据集 ChoreoSpectrum3D 数据集,其中包括四种舞蹈流派,总持续时间为 70.32 小时,使其成为迄今为止报道的最大的音乐舞蹈数据集。为了增强音乐流派和舞蹈风格之间的一致性,我们使用迁移学习预先训练音乐流派预测网络,并将音乐流派作为额外条件信息纳入舞蹈扩散模型的训练中。大量的实验表明,我们提出的框架在舞蹈质量、多样性和一致性方面实现了最先进的表现 ...

0 0 0 0 2026/03/13 arXiv:2312.15946v2 qinhui_cici

音乐驱动的舞蹈生成因其广泛的工业应用而引起了广泛的关注,特别是在团体编舞的创作中。然而,在群舞生成过程中,大多数现有方法仍然面临三个主要问题:多舞者碰撞、单舞者脚部滑动以及长群舞生成中的突然交换。在本文中,我们提出了 TCDiff++,一种音乐驱动的端到端框架,旨在生成和谐的集体舞蹈。具体来说,为了减轻多舞者碰撞,我们利用舞者定位嵌入来编码时间和身份信息。此外,我们还引入了距离一致性损失,以确保舞者之间的距离保持在合理的范围内。为了解决单舞者脚部滑动的问题,我们引入了交换模式嵌入来指示舞者交换模式,并设计了步法适配器来细化原始运动,从而最大限度地减少脚部滑动。对于长群舞生成,我们提出了一种长群扩散采样策略,通过将位置信息注入噪声输入来减少突然的位置变化。此外,我们集成了序列解码器层,以增强模型选择性处理长序列的能力。大量实验表明,我们的 TCDiff++ 实现了最先进的性能,特别是在长时间场景中,确保生成高质量且连贯的群舞 ...

0 0 0 0 2026/03/13 arXiv:2506.18671v4 qinhui_cici

舞蹈作为一种艺术形式和表现形式在人类文化中发挥着重要作用,但自动生成舞蹈序列是一项重要但具有挑战性的工作。现有的方法常常忽视舞蹈生成中可控性的关键方面。此外,他们没有充分地模拟音乐风格的微妙影响,导致舞蹈与条件音乐固有的表达特征缺乏一致性。为了解决这一差距,我们提出了风格引导运动扩散(SGMD),它将基于 Transformer 的架构与风格调制模块集成在一起。通过将音乐特征与用户提供的风格提示相结合,SGMD 确保生成的舞蹈不仅与音乐内容相匹配,而且反映了所需的风格特征。为了能够灵活控制生成的舞蹈,我们引入了时空掩蔽机制。由于可控舞蹈生成尚未得到充分研究,我们为基于轨迹的舞蹈生成、舞蹈中间和舞蹈修复等任务构建了相应的实验装置和基准。大量的实验表明,我们的方法可以生成逼真且风格一致的舞蹈,同时还使用户能够创建适合不同艺术和实际需求的舞蹈。代码可在 Github 上找到:此 https URL ...

0 0 0 0 2026/03/13 arXiv:2406.07871v3 qinhui_cici

在 3D 数字人体应用领域,音乐与舞蹈是一项具有挑战性的任务。鉴于音乐和舞蹈之间一对多的关系,以往的方法在方法上受到限制,仅仅依靠根据音乐节奏匹配并生成相应的舞蹈动作。在专业编舞领域,一个舞蹈短语由多个舞蹈姿势和舞蹈动作组成。舞蹈姿势由一系列基本的、有意义的身体姿势组成,而舞蹈动作则能体现舞蹈的节奏、旋律、风格等动态变化。受这些概念的启发,我们引入了一种名为 DanceMeld 的创新舞蹈生成流程,它包括两个阶段,即舞蹈解耦阶段和舞蹈生成阶段。在解耦阶段,使用分层VQ-VAE来解开不同特征空间级别中的舞蹈姿势和舞蹈动作,其中底部代码代表舞蹈姿势,顶部代码代表舞蹈动作。在生成阶段,我们利用扩散模型作为先验模型来对分布进行建模并生成以音乐特征为条件的潜在代码。我们通过实验证明了顶部代码和底部代码的表示能力,实现了舞蹈姿势和舞蹈动作的显式解耦表达。这种解开不仅提供了对动作细节、风格和节奏的控制,而且还促进了舞蹈风格转换和舞蹈单元编辑等应用。我们的方法在 AIST++ 数据集上进行了定性和定量实验,证明了其相对于其他方法的优越性 ...

0 0 0 0 2026/03/13 arXiv:2401.10242v1 qinhui_cici