由于现实世界查询流的动态发展性质,相关性模型很难推广到实际的搜索场景。一个复杂的解决方案是自我进化技术。然而,在具有大量查询流的大规模工业环境中,该技术面临两个挑战:(1)信息样本通常稀疏且难以识别,(2)当前模型生成的伪标签可能不可靠。为了应对这些挑战,在这项工作中,我们提出了一种自我进化相关性模型方法(SERM),它包含两个互补的多智能体模块:一个多智能体样本挖掘器,旨在检测分布变化并识别信息丰富的训练样本;以及一个多智能体相关性注释器,通过两级协议框架提供可靠的标签。我们在大型工业环境中评估 SERM,该环境每天服务数十亿用户请求。实验结果表明,SERM 可以通过迭代自我进化实现显着的性能提升,并通过广泛的离线多语言评估和在线测试得到验证 ...

0 0 0 0 2026/03/11 arXiv:2601.09515v1 tamakodesu

查询处理 (QP) 在大规模社交网络服务 (SNS) 搜索引擎中架起了用户意图和内容供应的桥梁。传统的 QP 系统依赖于孤立的判别模型(例如 BERT)的管道,受到有限的语义理解和高昂的维护开销的困扰。虽然大型语言模型 (LLM) 提供了潜在的解决方案,但现有方法通常会单独优化子任务,忽略内在的语义协同作用并需要独立迭代。此外,标准生成方法通常缺乏 SNS 场景的基础,无法弥合开放域语料库和非正式 SNS 语言模式之间的差距,同时难以遵守严格的业务定义。我们提出了 QP-OneModel,这是一种用于 SNS 领域多任务查询理解的统一生成 LLM 。我们将异构子任务重新表述为统一的序列生成范式,采用渐进的三阶段对齐策略,最终形成多奖励强化学习。此外,QP-OneModel 生成意图描述作为一种新颖的高保真语义信号,有效地增强了查询重写和排名等下游任务。离线评估显示,QP-OneModel 比判别基线总体提高了 7.35%,NER (+9.01%) 和术语权重 (+9.31%) 的 F1 显着提升。它还表现出卓越的泛化能力,在未见过的任务上比 32B 模型高出 7.60% 的准确度。小红书全面部署在线A/B测试,证实其产业价值,检索相关性(DCG)优化0.21%,用户留存率提升0.044% ...

0 0 0 0 2026/03/11 arXiv:2602.09901v1 baohuawu

最近关于扩大排名模型的研究已经在推荐系统和搜索引擎方面取得了实质性的改进。然而,大多数大规模排名系统都依赖于项目 ID,其中每个项目都被视为独立的分类符号并映射到学习的嵌入。随着项目快速出现和消失,这些嵌入变得难以训练和维护。这种不稳定性阻碍了神经网络参数的有效学习,并限制了排序模型的可扩展性。在本文中,我们表明与项目 ID 相比,语义标记具有更大的扩展潜力。我们提出的框架 TRM 改进了 Token 生成和应用程序管道,导致稀疏存储减少 33%,同时 AUC 增加 0.85%。大量实验进一步表明,当模型容量扩展时,TRM 可以始终优于最先进的模型。最终,TRM成功部署在大规模个性化搜索引擎上,通过A/B测试,用户活跃天数和变化查询率分别提升了0.26%和0.75% ...

0 0 0 0 2026/03/11 arXiv:2601.22694v1 tamakodesu

我们提出了一种基于学习的规划器,旨在通过模仿人类驾驶员的驾驶行为来稳健地驾驶车辆。我们利用中到中的方法,使我们能够自由地操纵模仿学习网络的输入。考虑到这一点,我们提出了一种用于数据增强的新型反馈合成器。它使我们的智能体能够在可能遇到的各种以前未见过的环境中获得更多的驾驶经验,从而提高整体性能。这与之前纯粹依赖随机合成器的作品形成鲜明对比。此外,我们并没有完全致力于模仿,而是引入了任务损失来惩罚不良行为,例如碰撞、越野等。与之前的工作不同,这是通过引入可微分车辆光栅器来完成的,该光栅器直接将网络输出的路点转换为图像。这有效地避免了重量级 ConvLSTM 网络的使用,因此产生了更快的模型推理时间。关于网络架构,我们利用一种注意力机制,允许网络推理场景中的关键对象并生成更好可解释的注意力热图。为了进一步增强网络的安全性和鲁棒性,我们添加了一个可选的基于优化的后处理规划器,提高了驾驶舒适度。我们全面验证了我们的方法在专为评估自动驾驶车辆而创建的不同场景中的有效性。结果表明,我们基于学习的规划器具有很高的智能,可以处理复杂的情况。包括详细的消融和可视化分析,以进一步证明我们提出的每个模块在我们的方法中的有效性 ...

0 0 0 0 2026/03/11 arXiv:2103.01882v2 sj123

大型语言模型 (LLM) 服务系统中超过 40% 的计算能力可能会被系统性地浪费——不是因为硬件限制,而是因为屏障同步并行处理中的负载不平衡。当每一步都由最慢的工作人员控制进度时,异构且不断变化的工作负载会产生持久的落后者;速度更快的工人在消耗电力的同时闲置,什么也不生产。仅在大型语言模型推理中,这就意味着每天浪费数十亿瓦时的电力。在这里,我们为具有不可迁移状态的屏障同步系统开发了通用负载平衡原则。我们证明了最坏情况的理论保证:不平衡的减少随着系统规模的增加而增加,对于车队规模的现代硬件来说,由此产​​生的能源节省可以超过 52%。实验证实了这一理论,证明能耗降低了 28%,同时吞吐量和延迟也显着改善。该原理被表述为具有可证明保证的在线整数优化,超越了 LLM ,服务于广泛的屏障同步并行系统,为可持续的高性能计算奠定了理论基础 ...

0 0 0 0 2026/03/11 arXiv:2601.17855v2 yuanjl

由于大大减少了计算资源,专家混合 (MoE) 已成为扩展深度学习模型的一种有前途的方法。然而,MoE 的动态特性导致专家之间的负载不平衡,严重影响了培训效率。虽然之前的研究试图解决负载平衡的挑战,但现有的解决方案要么会损害模型的准确性,要么会引入额外的系统开销。因此,他们无法实现细粒度的负载平衡,而这对于优化训练效率至关重要。我们提出了一种新颖的并行化策略,以在 MoE 系统中实现细粒度的负载平衡。我们的系统能够通过跨 GPU 的高效 Token 调度在每个微批次中实现最佳负载平衡。我们的实验结果表明,与最先进的系统相比,MicroMoE 将端到端训练吞吐量提高了 47.6%,并且几乎一致地在 GPU 之间实现了最佳负载平衡 ...

0 0 0 0 2026/03/11 arXiv:2511.16947v2 yuanjl

强化学习 (RL) 有望为视觉-语言-动作 (VLA) 模型解锁超越模仿学习的功能,但其对大规模现实世界交互的要求阻碍了直接部署在物理机器人上。最近的工作尝试使用学习的世界模型作为政策优化的模拟器,但闭环想象的推出不可避免地会遭受幻觉和长期错误累积的影响。此类错误不仅会降低视觉保真度,还会降低视觉保真度。它们破坏了优化信号,鼓励政策利用模型的不准确性,而不是真正的任务进展。我们提出了 WoVR,一种可靠的基于世界模型的强化学习框架,用于训练后 VLA 策略。 WoVR 没有假设一个忠实的世界模型,而是明确规范强化学习如何与不完美的想象动态相互作用。它通过可控的动作条件视频世界模型提高了推出稳定性,通过关键帧初始化的推出重塑了想象的交互以减少有效错误深度,并通过世界模型-策略共同进化保持策略-模拟器的一致性。对 LIBERO 基准和现实世界机器人操作的大量实验表明,WoVR 能够实现稳定的长期想象部署和有效的策略优化,将 LIBERO 平均成功率从 39.95% 提高到 69.2%(+29.3 分),将真实机器人成功率从 61.7% 提高到 91.7%(+30.0 分)。这些结果表明,当幻觉受到明确控制时,学习的世界模型可以作为强化学习的实用模拟器 ...

0 0 0 0 2026/03/11 arXiv:2602.13977v1 18805157028

视觉-语言-动作(VLA)模型的最新进展表明,视觉信号可以有效补充稀疏动作监督。然而,让 VLA 直接预测高维视觉状态会分散模型容量并产生高昂的训练成本,而将视觉状态压缩为更紧凑的监督信号不可避免地会产生信息瓶颈。此外,由于忽视语言监督,现有方法常常导致理解和推理能力较差。本文介绍了 Mantis,这是一种新颖的框架,具有解缠结的视觉远见 (DVF) 来解决这些问题。具体来说,Mantis 通过元查询和扩散 Transformer (DiT) 头的组合,将视觉前瞻预测与主干网络解耦。通过残差连接向 DiT 提供当前视觉状态,简单的下一状态预测目标使元查询能够自动捕获描绘视觉轨迹的潜在动作,从而促进显式动作的学习。这种解开减轻了 VLA 主干的负担,使其能够通过语言监督保持理解和推理能力。根据经验,在人类操作视频、机器人演示和图像文本对上进行预训练,经过微调,Mantis 在 LIBERO 基准上取得了 96.7% 的成功率,超越了强大的基线,同时表现出较高的收敛速度。现实世界的评估表明,Mantis 的性能优于领先的开源 VLA 模型 $\pi_{0.5}$,特别是在指令跟踪能力、对未见过的指令的泛化和推理能力方面。发布代码和权重以支持开源社区 ...

0 0 0 0 2026/03/11 arXiv:2511.16175v2 ttts

当代的大语言模型(LLM)代理非常有能力,但它们仍然缺乏可靠的安全控制,并且可以产生不受约束、不可预测甚至有害的输出。为了解决这个问题,我们引入了反射驱动控制,这是一种标准化的可插拔控制模块,可以无缝集成到通用代理架构中。反射驱动控制将“自我反思”从事后补丁提升为智能体自身推理过程中的明确步骤:在生成过程中,智能体不断运行内部反射循环来监视和评估其自己的决策路径。当检测到潜在风险时,系统从不断发展的反射记忆中检索相关的修复示例和安全编码指南,将这些基于证据的约束直接注入后续推理步骤中。我们在安全代码生成的设置中实例化反射驱动控制,并在八类安全关键编程任务中系统地评估它。经验结果表明,反射驱动控制极大地提高了生成代码的安全性和策略合规性,同时在很大程度上保留了功能的正确性,并且运行时间和 Token 开销最小。总而言之,这些发现表明反射驱动控制是通往值得信赖的人工智能编码代理的实用途径:它使设计同时具有自主性、构造安全性和可审计性 ...

0 0 0 0 2026/03/11 arXiv:2512.21354v1 蛙isme

用于时间序列预测的深度学习传统上在每个数据集一个模型的框架内运行,限制了其利用大型预训练模型改变游戏规则的影响的潜力。通用预测的概念源于对大量时间序列数据集的预训练,设想了一个能够解决不同下游预测任务的单一大型时间序列模型。然而,构建这样的模型对时间序列数据提出了独特的挑战:i)跨频率学习,ii)为多元时间序列容纳任意数量的变量,以及iii)解决大规模数据固有的不同分布特性。为了应对这些挑战,我们对传统时间序列 Transformer 架构进行了新颖的增强,从而提出了基于掩码编码器的通用时间序列预测 Transformer (Moirai)。 Moirai 在我们新推出的大规模开放时间序列存档 (LOTSA) 上进行训练,该模型具有跨九个域的超过 27B 观测值,与全样本模型相比,Moirai 作为零样本预测器实现了具有竞争力或卓越的性能。代码、数据和模型权重可以在此 https URL 中找到 ...

0 0 0 0 2026/03/11 arXiv:2402.02592v2 HuNiu