一译 —— 文档和论文翻译、对照阅读、讨论和社区

Forensic Self-Descriptions Are All You Need for Zero-Shot Detection, Open-Set Source Attribution, and Clustering of AI-generated Images

基于AI的先进工具的出现为逼真的图像带来了大量的挑战，即法医检测和源归因，尤其是随着新的生成技术迅速出现。由于依靠培训期间特定的已知来源功能，传统方法通常无法推广到看不见的发电机。为了解决这个问题，我们提出了一种新颖的方法，该方法明确模拟了法医微结构 - 微妙的像素级模式是图像创建过程所特有的 ...

0 0 0 2025/05/18 arXiv:2503.21003v1 alimir

StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation

视觉讲故事的系统难以维持跨框架的性格身份，并将动作链接到适当的主题，经常导致参考幻觉。这些问题可以通过视觉元素上的字符，对象和其他实体的接地来解决。我们提出了故事策划，这是一个数据集，其中包含来自52,016部电影图像的4,178个故事，并进行了结构化场景分析和扎根的故事 ...

0 0 0 2025/05/18 arXiv:2505.10292v1 jomei

A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization

演唱旋律提取（SME）是音乐信息检索领域的关键任务。但是，现有方法面临着几个局限性：首先，先前的模型使用 Transformer 捕获上下文依赖性，这需要二次计算，导致推理阶段效率低。其次，先前的作品通常依靠频率监管的方法来估计基本频率（F0），后者忽略了音乐表现实际上是基于音符的 ...

0 0 0 2025/05/18 arXiv:2505.08681v1 jomei

SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation

在动态的非结构化环境中，现实世界的机器人操纵需要终身适应能力，以使对象，场景和任务不断发展。传统的模仿学习依赖于静态训练范例，这些范围不适合终身适应。尽管持续的模仿学习（CIL）可以在保留学习知识的同时适应增量的任务适应，但当前的CIL方法主要忽略机器人操纵的内在技能特征或依赖手动定义和僵化的技能，从而导致了次优的交叉任务知识转移 ...

0 0 5 2025/05/18 arXiv:2504.15561v1 kavin

Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation

最近在图像合成的扩散模型的普及率的激增引起了对其在其他领域中产生任务潜力的新关注。但是，它们在符号音乐生成中的应用在很大程度上尚未探索，因为符号音乐通常表示为离散事件的序列，并且标准扩散模型不适合用于离散数据。我们代表象征性音乐作为图像般的钢琴，促进了扩散模型的使用来产生象征性音乐 ...

0 0 0 2025/05/18 arXiv:2505.03314v1 jomei

Modeling Musical Genre Trajectories through Pathlet Learning

音乐流平台上用户数据的可用性增加为分析音乐消费提供了新的可能性。但是，了解用户偏好的演变仍然是一个复杂的挑战，尤其是随着时间的流逝随着时间的流逝而变化。本文使用字典学习范式来对不同音乐类型的用户轨迹进行建模 ...

0 0 0 2025/05/18 arXiv:2505.03480v1 jomei

Familiarizing with Music: Discovery Patterns for Different Music Discovery Needs

人类有发现和探索的趋势。这种自然趋势反映在流媒体平台的数据中，作为用户访问的先前未知内容的数量。此外，在诸如音乐流的域中，有证据表明，建议新颖的内容可以改善用户对平台的体验 ...

0 0 0 2025/05/18 arXiv:2505.03568v1 jomei

Learning Music Audio Representations With Limited Data

音乐的大型深度学习模型，包括专注于学习通用音乐音频表示的音乐，通常被认为需要大量的培训数据才能实现高性能。如果是真的，这将在音频数据或注释稀缺的情况下构成挑战，例如代表性不足的音乐传统，非庞大的流派以及个性化的音乐创作和聆听。了解这些模型在有限的DATA场景中如何行事对于开发解决方案的技术至关重要 ...

0 0 0 2025/05/18 arXiv:2505.06042v1 jomei

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）