我们提出了一系列开源音乐基础模型,旨在促进跨不同任务和模式的大规模音乐理解和生成。我们的框架由四个主要部分组成:(1)HeartCLAP,一种音频文本对齐模型; (2) HeartTranscriptor,一个针对现实音乐场景优化的鲁棒歌词识别模型; (3) HeartCodec,一种低帧率 (12.5 Hz) 但高保真音乐编解码器标记器,可捕获长距离音乐结构,同时保留细粒度的声学细节并实现高效的自回归建模; (4) HeartMuLa,一种基于LLM的歌曲生成模型,能够在丰富的、用户可控的条件(例如文本风格描述、歌词和参考音频)下合成高保真音乐。此外,它还提供了两种专门的模式:(i)细粒度的音乐属性控制,允许用户使用自然语言提示指定不同歌曲部分(例如前奏、主歌、副歌)的风格; (ii) 简短、引人入胜的音乐生成,适合作为短视频的背景音乐。最后,HeartMuLa 在扩展到 7B 参数时显着改进。我们首次展示了可以使用学术规模的数据和 GPU 资源来重现 Suno 级别的商业级系统。我们希望这些基础模型能够作为未来研究的强有力的基线,并促进多模式内容生产的实际应用 ...

0 0 0 0 2026/01/18 arXiv:2601.10547v1 fourii

原生视觉语言模型 (VLM) 的大厦已成为典型模块化 VLM 的有力竞争者,由不断发展的模型架构和训练范例塑造而成。然而,有两个挥之不去的阴云给其广泛的探索和推广蒙上了阴影:(-)哪些基本限制使原生VLM与模块化VLM区别开来,这些障碍可以在多大程度上克服? (-) 如何使原生 VLM 的研究更容易获得和民主化,从而加速该领域的进展。在本文中,我们阐明了这些挑战并概述了构建本机 VLM 的指导原则。具体来说,一个原生 VLM 原语应该:(i)在共享语义空间内有效地对齐像素和单词表示; (ii) 无缝整合以前独立的视觉和语言模块的优势; (iii) 本质上体现了支持统一视觉语言编码、对齐和推理的各种跨模式属性。因此,我们推出了 NEO,这是一个根据第一原理构建的新颖的原生 VLM 系列,能够在不同的现实场景中与顶级模块化同类产品相媲美。只需 3.9 亿个图像文本示例,NEO 就可以从头开始有效地开发视觉感知,同时减轻由我们精心设计的基元制作的密集且整体模型内的视觉语言冲突。我们将 NEO 定位为可扩展且功能强大的原生 VLM 的基石,并与一组丰富的可重用组件配合使用,以形成经济高效且可扩展的生态系统。我们的代码和模型可在以下位置公开获取:此 https URL ...

0 0 0 0 2026/01/18 arXiv:2510.14979v1 X.K

大型语言模型 (LLM) 在不同领域展现出优势。然而,使用单个通用模型在这些领域实现强大的性能通常需要扩展到训练和部署成本高昂的规模。另一方面,虽然较小的领域专业模型效率更高,但它们很难泛化到其训练分布之外。为了解决这个困境,我们提出了FusionRoute,这是一个强大且有效的 Token 级多LLM协作框架,其中轻量级路由器同时(i)在每个解码步骤选择最合适的专家,并且(ii)提供补充logit,通过logit加法细化或纠正所选专家的下一个 Token 分布。与仅依赖于固定专家输出的现有 Token 级协作方法不同,我们提供的理论分析表明,纯专家路由从根本上是有限的:除非强大的全局覆盖假设成立,否则它通常无法实现最优解码策略。通过使用可训练的互补生成器增强专家选择,FusionRoute 扩展了有效的策略类别,并能够在温和条件下恢复最优价值函数。根据经验,在 Llama-3 和 Gemma-2 系列以及涵盖数学推理、代码生成和指令跟踪的各种基准测试中,FusionRoute 的性能优于序列级和 Token 级协作、模型合并和直接微调,同时在各自的任务上与领域专家保持竞争力 ...

0 0 0 0 2026/01/18 arXiv:2601.05106v1 charles

LLM 智能体的最新进展很大程度上建立在像 ReAct 这样的推理支柱之上,它在复杂的环境中将思想和行动交织在一起。然而,ReAct 经常会产生无根据或不连贯的推理步骤,导致智能体的实际状态与目标不一致。我们的分析发现,这是由于 ReAct 无法保持一致的内部信念和目标一致,从而导致复合错误和幻觉。为了解决这个问题,我们引入了 ReflAct,这是一种新颖的主干,它将推理从仅仅规划下一步行动转变为不断反思代理相对于其目标的状态。通过明确地根据各州制定决策并强制执行持续的目标调整,ReflAct 极大地提高了战略可靠性。该设计带来了显着的经验收益:ReflAct 平均超过 ReAct 27.7%,在 ALFWorld 中实现了 93.3% 的成功率。值得注意的是,通过添加增强模块(例如 Reflexion、WKM),ReflAct 的性能甚至优于 ReAct,这表明加强核心推理主干是可靠代理性能的关键 ...

0 0 1 9 2026/01/17 arXiv:2505.15182v2 蛙isme

我们引入 SinGAN,这是一种可以从单个自然图像中学习的无条件生成模型。我们的模型经过训练,可以捕获图像中斑块的内部分布,然后能够生成具有与图像相同的视觉内容的高质量、多样化的样本。 SinGAN 包含一个完全卷积 GAN 的金字塔,每个 GAN 负责学习图像不同尺度的补丁分布。这允许生成任意大小和纵横比的新样本,这些样本具有显着的可变性,但仍保持训练图像的全局结构和精细纹理。与之前的单图像 GAN 方案相比,我们的方法不限于纹理图像,并且没有条件(即它从噪声生成样本)。用户研究证实,生成的样本通常会被误认为是真实图像。我们展示了 SinGAN 在各种图像处理任务中的实用性 ...

0 0 0 0 2026/01/17 arXiv:1905.01164v2 wangsui

作为人工智能的关键应用,推荐系统是最普遍的计算机辅助系统之一,可以帮助用户找到潜在的兴趣项目。近年来,研究人员对人工智能应用的公平性问题给予了相当多的关注。这些方法大多数都假设实例独立,并设计复杂的模型来消除敏感信息以促进公平。然而,推荐系统与这些方法有很大不同,因为用户和项目自然地形成用户-项目二分图,并且在图结构中协作相关。在本文中,我们提出了一种基于图的新颖技术,用于确保任何推荐模型的公平性。这里,公平性要求是指在用户建模过程中不暴露敏感特征集。具体来说,给定任何推荐模型的原始嵌入,我们学习过滤器的组合,将每个用户和每个项目的原始嵌入转换为基于敏感特征集的过滤嵌入空间。对于每个用户,这种转换是在以用户为中心的图的对抗性学习下实现的,以便混淆过滤后的用户嵌入和该用户的子图结构之间的每个敏感特征。最后,大量的实验结果清楚地表明了我们提出的公平推荐模型的有效性。我们在此 https URL 发布源代码 ...

0 0 0 0 2026/01/17 arXiv:2102.09140v3 pumpkin

我们提出了 SinDiffusion,利用去噪扩散模型从单个自然图像中捕获斑块的内部分布。与现有的基于 GAN 的方法相比,SinDiffusion 显着提高了生成样本的质量和多样性。它基于两个核心设计。首先,SinDiffusion 使用单一尺度的单一模型进行训练,而不是使用尺度逐渐增长的多个模型进行训练,后者是先前工作中的默认设置。这可以避免错误的累积,从而导致生成结果中出现特征伪影。其次,我们发现扩散网络的块级感受野对于捕获图像的块统计数据至关重要且有效,因此我们重新设计了扩散模型的网络结构。将这两种设计结合起来使我们能够从单个图像生成逼真且多样化的图像。此外,由于扩散模型的固有功能,SinDiffusion 可以应用于各种应用,即文本引导的图像生成和图像绘制。对各种图像的大量实验证明了我们提出的斑块分布建模方法的优越性 ...

0 0 0 0 2026/01/17 arXiv:2211.12445v1 wangsui

过去几年,深度学习使超分辨率(SR)性能实现了巨大飞跃。然而,在监督下,这些 SR 方法仅限于特定的训练数据,其中从高分辨率 (HR) 对应物获取低分辨率 (LR) 图像是预先确定的(例如,双三次缩小),没有任何分散注意力的伪影(例如,传感器噪声、图像压缩、非理想 PSF 等)。然而,真实的 LR 图像很少遵守这些限制,导致 SotA(最先进的)方法的 SR 结果很差。在本文中,我们介绍了“Zero-Shot”SR,它利用深度学习的力量,但不依赖于先前的训练。我们利用单个图像内信息的内部循环,并在测试时使用仅从输入图像本身提取的示例来训练小型特定于图像的 CNN。因此,它可以适应每个图像的不同设置。这允许对真实的老照片、噪声图像、生物数据以及采集过程未知或不理想的其他图像执行 SR。在此类图像上,我们的方法优于基于 SotA CNN 的 SR 方法以及之前的无监督 SR 方法。据我们所知,这是第一个基于 CNN 的无监督 SR 方法 ...

0 0 0 0 2026/01/17 arXiv:1712.06087v1 wangsui

Rust的编译时安全性确保使其非常适合安全至关重要的系统,从而对将传统C代码库翻译成生锈产生了需求。尽管已经为此任务出现了各种方法,但他们面临固有的权衡:基于规则的解决方案在满足代码安全性和惯用性要求方面面临挑战,而基于LLM的解决方案通常无法生成语义上等效的锈蚀代码,这是由于整个代码库中模块的重度依赖性。最近的研究表明,这两种解决方案都仅限于小规模计划 ...

0 0 0 0 2026/01/17 arXiv:2508.04295v4 puppytag

近年来,人们对将C代码转换为生锈,从而受益于生锈的记忆和线程安全保证。 C2RUST是一个基于规则的系统,可以自动将C代码转换为功能相同的RUST,但是它产生的锈蚀代码是非异常的,即 ...

0 0 0 0 2026/01/17 arXiv:2501.14257v2 puppytag