我们推出 ACE-Step v1.5,这是一种高效的开源音乐基础模型,可为消费类硬件带来商业级生成。在常用的评估指标上,ACE-Step v1.5 的质量超越了大多数商业音乐模型,同时保持极快的速度——在 A100 上每首完整歌曲不到 2 秒,在 RTX 3090 上不到 10 秒。该模型在本地运行,VRAM 不足 4GB,并支持轻量级个性化:用户可以从几首歌曲中训练 LoRA,以捕捉自己的风格。其核心在于一种新颖的混合架构,其中语言模型 (LM) 充当全能规划器:它将简单的用户查询转换为全面的歌曲蓝图——从短循环扩展到 10 分钟的作品——同时通过思想链合成元数据、歌词和字幕以指导扩散 Transformer (DiT)。独特的是,这种一致性是通过仅依赖于模型内部机制的内在强化学习来实现的,从而消除了外部奖励模型或人类偏好中固有的偏差。除了标准合成之外,ACE-Step v1.5 将精确的风格控制与多功能编辑功能(例如封面生成、重新绘制和人声到 BGM 转换)相结合,同时严格遵守 50 多种语言的提示。这为强大的工具无缝集成到音乐艺术家、制作人和内容创作者的创作工作流程中铺平了道路。代码、模型权重和演示可在以下位置获取:此 https URL ...

0 0 0 0 2026/02/05 arXiv:2602.00744v1 wkw1220632

转化率 (CVR) 预测的困难之一是转化可能会延迟并在点击后很长时间才会发生。延迟的反馈带来了挑战:新数据有利于持续训练,但在被引入训练管道时可能没有完整的标签信息。为了平衡模型新鲜度和标签确定性,以前的方法会设置较短的等待窗口,甚至不等待转换信号。如果转换发生在等待窗口之外,则该样本将被复制并带有正标签的训练管道中。然而,这些方法存在一些问题。首先,他们假设观察到的特征分布与实际分布相同。但由于摄入了重复的样本,这一假设并不成立。其次,转换行动的确定性仅来自于积极因素。但由于商业系统中的转换很少,因此积极的一面很少。这些问题在延迟反馈建模过程中会引起偏差。在本文中,我们提出使用真实负数的延迟反馈建模(DEFER)方法来解决这些问题。所提出的方法将真实的负样本摄入到训练管道中。真实负例的摄取确保观察到的特征分布与实际分布相等,从而减少偏差。真实底片的摄入也带来了更多的转化确定性信息。为了纠正分布偏移,DEFER 采用重要性采样来权衡损失函数。工业数据集上的实验结果验证了DEFER的优越性。 DEFER已部署在阿里巴巴展示广告系统中,在多个场景下获得了超过6.0%的CVR提升。本文的代码和数据现已开源{this https URL} ...

0 0 0 0 2026/02/05 arXiv:2104.14121v2 li.jingbo

最近,将外部工具与大型语言模型 (LLM) 集成作为减轻预训练数据固有限制的有效策略而受到广泛关注。然而,现实世界的系统通常包含多种工具,由于长度限制和延迟限制,将所有工具输入到 LLM 中是不切实际的。因此,为了充分发挥工具增强 LLM 的潜力,开发有效的工具检索系统至关重要。现有的工具检索方法主要关注用户查询和工具描述之间的语义匹配,经常导致检索冗余的、相似的工具。因此,这些方法无法提供解决 LLM 遇到的多方面问题所需的一整套不同工具。在本文中,我们提出了一种新颖的与模型无关的基于协作学习的工具检索方法 COLT,该方法不仅捕获用户查询和工具描述之间的语义相似性,而且还考虑了工具的协作信息。具体来说,我们首先微调基于 PLM 的检索模型,以在语义学习阶段捕获查询和工具之间的语义关系。随后,我们在查询、场景和工具之间构建了三个二部图,并引入了双视图图协作学习框架来捕获协作学习阶段工具之间复杂的协作关系。对开放基准测试和新引入的 ToolLens 数据集的大量实验表明,COLT 实现了卓越的性能。值得注意的是,采用我们提出的模型框架的 BERT-mini (11M) 的性能优于 BERT-large (340M),后者的参数多了 30 倍。此外,我们将公开发布 ToolLens,以方便未来工具检索的研究 ...

0 0 0 0 2026/02/05 arXiv:2405.16089v2 sally2025

基于 Transformer 的语言模型 (LM) 是功能强大且适用范围广泛的工具,但其实用性受到有限的上下文窗口和处理长文本文档的昂贵计算成本的限制。我们建议将预训练的 LM 适配到 AutoCompressors 中。这些语言模型能够将长上下文压缩为紧凑的摘要向量,然后模型可以将其作为软提示进行访问。摘要向量以无监督的目标进行训练,其中长文档被分段处理,并且来自所有先前片段的摘要向量用于语言建模。我们在多达 30,720 个标记的序列上微调 OPT 和 Llama-2 模型,并表明 AutoCompressors 可以利用长上下文来改善困惑度。我们通过压缩任务演示来评估上下文学习中的自动压缩器,发现摘要向量可以很好地替代纯文本演示,提高准确性,同时降低推理成本。最后,我们通过将摘要向量应用于检索增强语言建模和段落重新排序任务,探索了大型语料库预计算摘要向量的好处。总的来说,AutoCompressors 是一种简单且廉价的解决方案,可以扩展 LM 的上下文窗口,同时加速长上下文的推理 ...

0 0 0 0 2026/02/05 arXiv:2305.14788v2 绿毛龟

我们推出 Kimi K2.5,这是一种开源多模式代理模型,旨在推进通用代理智能。 K2.5强调文本和视觉的联合优化,使两种方式相互促进。这包括联合文本视觉预训练、零视觉SFT、联合文本视觉强化学习等一系列技术。在此多模态基础上,K2.5 引入了 Agent Swarm,这是一种自主并行代理编排框架,可动态地将复杂任务分解为异构子问题并同时执行它们。广泛的评估表明,Kimi K2.5 在编码、视觉、推理和代理任务等各个领域都取得了最先进的结果。与单代理基线相比,Agent Swarm 还可以将延迟减少高达 4.5 美元\倍$。我们发布了训练后的 Kimi K2.5 模型检查点,以促进代理智能的未来研究和实际应用 ...

0 0 0 0 2026/02/05 arXiv:2602.02276v1 zhangqi33

单目高度估计在遥感 3D 感知中发挥着至关重要的作用,为多视图或基于 LiDAR 的方法提供了一种经济高效的替代方案。虽然深度学习显着提高了单眼高度估计的能力,但这些方法仍然从根本上受到标记数据可用性的限制,而大规模获取这些数据既昂贵又费力。高质量注释的稀缺阻碍了现有模型的泛化和性能。为了克服这一限制,我们建议通过半监督学习框架利用大量未标记数据,使模型能够从未标记样本中提取信息线索并提高其预测性能。在这项工作中,我们介绍了 TSE-Net,一种用于半监督单目高度估计的自训练管道。该管道集成了教师、学生和考试网络。学生网络使用教师网络生成的伪标签对未标记数据进行训练,而考试网络则充当学生网络的时间集成以稳定性能。教师网络被制定为联合回归和分类模型:回归分支预测用作伪标签的高度值,分类分支预测高度值类别以及类别概率,用于过滤伪标签。使用分层二切策略定义高度值类别,以解决身高固有的长尾分布问题,并使用 Plackett-Luce 模型校准预测的类别概率,以反映伪标签的预期准确性。我们在跨越不同分辨率和成像模式的三个数据集上评估了所提出的流程。代码可从此 https URL 获取 ...

0 0 0 0 2026/02/05 arXiv:2511.13552v1 zhifeiji

这项工作研究对象目标导航问题,其中涉及在不可见的环境中导航到给定对象类别的实例。基于端到端学习的导航方法在这项任务上举步维艰,因为它们在探索和长期规划方面无效。我们提出了一个名为“面向目标的语义探索”的模块化系统,它构建了一个情景语义图,并使用它根据目标对象类别有效地探索环境。视觉逼真模拟环境中的实证结果表明,所提出的模型优于各种基线,包括基于端到端学习的方法以及基于模块化地图的方法,并导致 CVPR-2020 Habitat ObjectNav 挑战赛的获胜。消融分析表明,所提出的模型学习场景中对象相对排列的语义先验,并使用它们进行有效的探索。与领域无关的模块设计使我们能够将模型转移到移动机器人平台,并在现实世界中实现类似的目标目标导航性能 ...

0 0 0 0 2026/02/05 arXiv:2007.00643v2 hycj

通过减轻对密集多视图捕获的依赖,生成模型在新颖视图合成(NVS)中获得了极大的关注。然而,现有方法通常属于传统范式,其中生成模型首先在 2D 中完成缺失区域,然后使用 3D 恢复技术来重建场景,这通常会导致表面过于光滑和几何形状扭曲,因为生成模型很难仅从 RGB 数据推断 3D 结构。在本文中,我们提出了 SceneCompleter,这是一种新颖的框架,可通过密集的 3D 场景完成来实现 3D 一致的生成式新颖视图合成。 SceneCompleter 通过两个关键组件实现视觉连贯性和 3D 一致的生成场景完成:(1)几何外观双流扩散模型,联合合成 RGBD 空间中的新颖视图; (2) 场景嵌入器,根据参考图像编码更全面的场景理解。通过有效地融合结构和纹理信息,我们的方法在跨不同数据集的生成新颖视图合成中展示了卓越的连贯性和合理性。项目页面:此 https URL ...

0 0 0 0 2026/02/04 arXiv:2506.10981v1 zhuzzz

表格数据涉及金融、医疗保健和科学发现等领域的高风险关键决策。然而,在标记示例很少的情况下,从表格数据中有效学习仍然是一个基本挑战。传统的基于树的方法由于依赖于统计纯度指标,因此在这些情况下常常会出现问题,而统计纯度指标会变得不稳定,并且在监督有限的情况下容易出现过度拟合。与此同时,大型语言模型(LLM)的直接应用常常忽视其内在结构,导致性能不佳。为了克服这些限制,我们提出了 FORESTLLM,这是一种新颖的框架,它将决策森林的结构归纳偏差与 LLM 的语义推理能力相结合。至关重要的是,FORESLLM 仅在训练期间利用 LLM,将其视为离线模型设计器,将丰富的上下文知识编码到轻量级、可解释的森林模型中,从而无需在测试时进行 LLM 推理。我们的方法有两个方面。首先,我们引入了一种语义分割标准,其中 LLM 根据标记和未标记数据的一致性来评估候选分区,从而能够在少样本监督下归纳出更稳健和更通用的树结构。其次,我们提出了一种用于叶节点稳定的一次性上下文推理机制,其中 LLM 将决策路径及其支持示例提炼为简洁的确定性预测,用语义知情的输出取代嘈杂的经验估计。在一系列不同的小样本分类和回归基准测试中,FORESTLLM 实现了最先进的性能 ...

0 0 0 0 2026/02/04 arXiv:2601.11311v1 snowpigppp

视频生成是构建世界模型的基石,其中多模态上下文推理是能力的定义测试。最后,我们提出了 SkyReels-V3,这是一种条件视频生成模型,它建立在带有扩散 Transformer 的统一多模态上下文学习框架之上。 SkyReels-V3 模型在单一架构中支持三种核心生成范例:参考图像到视频合成、视频到视频扩展和音频引导视频生成。 (i) 参考图像到视频模型旨在生成具有强大的主体身份保留、时间连贯性和叙事一致性的高保真视频。为了增强参考依从性和构图稳定性,我们设计了一个全面的数据处理管道,利用跨帧配对、图像编辑和语义重写,有效减少复制粘贴伪影。在训练过程中,采用图像视频混合策略与多分辨率联合优化相结合,以提高跨不同场景的泛化性和鲁棒性。 (ii) 视频扩展模型将时空一致性建模与大规模视频理解相结合,实现无缝单镜头连续和具有专业电影模式的智能多镜头切换。 (iii)会说话的化身模型通过训练首尾帧插入模式和重建关键帧推理范例来支持分钟级音频调节视频生成。在保证视觉质量的基础上,优化了音视频的同步。广泛的评估表明,SkyReels-V3 在视觉质量、指令遵循和特定方面指标等关键指标上实现了最先进或接近最先进的性能,接近领先的闭源系统。 Github:此 https URL ...

0 0 0 0 2026/02/04 arXiv:2601.17323v2 xf