多轮交互对于在线强化学习仍然具有挑战性。常见的解决方案是轨迹级优化,它将每个轨迹视为单个训练样本。然而,这种方法可能效率低下,并产生误导性的学习信号:无论难度如何,它都会在任务之间应用统一采样,惩罚失败轨迹中的正确中间动作,并产生高昂的样本收集成本。为了解决这些问题,我们提出了STEP(成功率感知轨迹高效策略优化),这是一个基于每个任务成功率动态分配采样并执行步骤级优化的框架。 STEP 保持平滑的成功率记录,以指导自适应轨迹重采样,将更多精力分配给更困难的任务。然后,它计算成功率加权优势并将轨迹分解为步骤级样本。最后,它应用阶梯级 GRPO 增强来优化低成功任务的更新。在 OSWorld 和 AndroidWorld 上的实验表明,与轨迹级 GRPO 相比,STEP 大幅提高了样本效率和训练稳定性,在相同的采样预算下收敛速度更快,泛化能力更好 ...
本研究对 Ultralytics YOLO26(也称为 YOLOv26)进行了全面分析,重点介绍了其关键架构增强功能和实时对象检测的性能基准测试。 YOLO26 于 2025 年 9 月发布,是 YOLO 系列中最新、最先进的成员,专为在边缘和低功耗设备上提供效率、准确性和部署就绪性而构建。论文依次详细介绍了YOLO26的架构创新,包括去除分布焦点损失(DFL)、采用端到端无NMS推理、ProgLoss和小目标感知标签分配(STAL)的集成,以及引入MuSGD优化器以实现稳定收敛。除了架构之外,该研究还将 YOLO26 定位为一个多任务框架,支持对象检测、实例分割、姿态/关键点估计、定向检测和分类。我们展示了 YOLO26 在 NVIDIA Jetson Nano 和 Orin 等边缘设备上的性能基准,并将其结果与 YOLOv8、YOLOv11、YOLOv12、YOLOv13 和基于 Transformer 的检测器(RF-DETR 和 RT-DETR)进行比较。本文进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及 INT8/FP16 的量化。重点介绍了 YOLO26 在机器人、制造和物联网领域的实际用例,以展示跨行业的适应性。最后,讨论了对部署效率和更广泛影响的见解,并概述了 YOLO26 和 YOLO 谱系的未来方向 ...
生成推荐由于其扩展潜力和更强的模型能力,最近引起了业界的广泛关注。然而,在大规模广告中部署实时生成推荐需要超越大语言模型(LLM)式训练和服务菜谱的设计。我们提出了一种跨架构、学习和服务共同设计的面向生产的生成推荐器,名为 GR4AD(ADdvertising 生成推荐)。在标记化方面,GR4AD提出了UA-SID(统一广告语义ID)来捕获复杂的业务信息。此外,GR4AD 引入了 LazyAR,这是一种惰性自回归解码器,可以放松短期多候选生成的逐层依赖关系,在保持有效性的同时降低推理成本,从而有助于在固定服务预算下进行扩展。为了使优化与业务价值保持一致,GR4AD 采用 VSL(价值感知监督学习)并提出 RSPO(排名引导 Softmax 偏好优化),这是一种排名感知、列表式强化学习算法,可在列表级指标下优化基于价值的奖励,以实现持续在线更新。对于在线推理,我们进一步提出动态波束服务,它可以跨代级别和在线负载调整波束宽度来控制计算。大规模在线 A/B 测试显示,与现有的基于 DLRM 的堆栈相比,广告收入提高了 4.2%,并且模型扩展和推理时间扩展都获得了一致的收益。 GR4AD已全面部署在拥有超过4亿用户的快手广告系统中,并实现高吞吐量的实时服务 ...
我们提出了 Future-KL 影响策略优化(FIPO),这是一种强化学习算法,旨在克服大型语言模型中的推理瓶颈。虽然 GRPO 风格的训练可以有效扩展,但它通常依赖于基于结果的奖励(ORM),该奖励将全局优势均匀地分配给轨迹中的每个 Token 。我们认为,这种粗粒度的信用分配由于无法区分关键逻辑枢轴和琐碎标记而施加了性能上限。 FIPO 通过将贴现的未来 KL 分歧纳入政策更新来解决这个问题,创建一个密集的优势公式,根据 Token 对后续轨迹行为的影响重新加权。根据经验,FIPO 使模型能够突破标准基线中的长度停滞。在 Qwen2.5-32B 上进行评估,FIPO 将平均思想链长度从大约 4,000 个 Token 扩展到超过 10,000 个 Token ,并将 AIME 2024 Pass@1 准确率从 50.0% 提高到峰值 58.0%(收敛于约 56.0%)。这优于 DeepSeek-R1-Zero-Math-32B(约 47.0%)和 o1-mini(约 56.0%)。我们的结果表明,建立密集的优势公式是发展基于 ORM 的算法以释放基本模型的全部推理潜力的重要途径。我们开源了基于 verl 框架的培训系统 ...
我们研究实际有效的方法,以及通过多转化的强化学习来训练大型语言模型作为代理的训练。尽管进步很快,但现有的框架和定义是分散的,并且没有系统的表述或分析哪些设计选择在任务中很重要。我们首先将设计空间分解为三个相互关联的支柱(环境,奖励和政策),并从经验中得出了培训LLM代理的配方,以解决这一差距 ...
开放世界对象检测(OWOD)是一个具有挑战性的计算机视觉问题,其任务是检测一组已知的对象类别,同时识别未知对象。此外,模型必须逐步学习在下一个训练周期中已知的新类。与标准对象检测不同,OWOD 设置对生成潜在未知对象的高质量候选建议、将未知对象与背景分离以及检测不同的未知对象提出了重大挑战。在这里,我们介绍了一种新颖的基于端到端 Transformer 的框架 OW-DETR,用于开放世界对象检测。所提出的 OW-DETR 包括三个专用组件,即注意力驱动的伪标签、新颖性分类和客观性评分,以明确解决上述 OWOD 挑战。我们的 OW-DETR 显式编码多尺度上下文信息,具有较少的归纳偏差,能够实现从已知类到未知类的知识迁移,并且可以更好地区分未知对象和背景。在两个基准上进行了综合实验:MS-COCO 和 PASCAL VOC。广泛的消融揭示了我们提议的贡献的优点。此外,我们的模型优于最近引入的 OWOD 方法 ORE,在 MS-COCO 上的未知召回率方面绝对增益范围为 1.8% 到 3.3%。在增量对象检测的情况下,OW-DETR 的所有设置均优于 PASCAL VOC 上的最新设置。我们的代码可以在这个 https URL 上找到 ...
人类有识别环境中未知对象实例的自然本能。当相应的知识最终可用时,对这些未知实例的内在好奇心有助于了解它们。这促使我们提出一个新的计算机视觉问题,称为“开放世界对象检测”,其中模型的任务是:1)在没有明确监督的情况下将尚未引入的对象识别为“未知”,2)当逐渐接收到相应的标签时,逐步学习这些识别出的未知类别,而不会忘记以前学习的类别。我们提出了问题,引入了强大的评估协议并提供了一种新颖的解决方案,我们将其称为 ORE:开放世界对象检测器,基于对比聚类和基于能量的未知识别。我们的实验评估和消融研究分析了 ORE 在实现开放世界目标方面的功效。作为一个有趣的副产品,我们发现识别和表征未知实例有助于减少增量对象检测设置中的混乱,在该设置中我们无需额外的方法论努力即可实现最先进的性能。我们希望我们的工作能够吸引对这个新确定但至关重要的研究方向的进一步研究 ...
多轮工具调用对于大型语言模型 (LLM) 来说具有挑战性,因为奖励很少且探索成本高昂。当组内奖励变化较低时(例如,组中更多的推出获得全 0 或全 1 奖励),一种常见的方法(SFT 后跟 GRPO)可能会停滞,从而使组标准化优势变得无信息并产生消失的更新。为了解决这个问题,我们提出了 RC-GRPO(奖励条件组相对策略优化),它将探索视为通过离散奖励 Token 的可控转向问题。我们首先在混合质量轨迹上微调奖励条件轨迹策略(RCTP),并在提示中注入奖励目标特殊标记(例如 <|high_reward|>、<|low_reward|>),使模型能够学习如何根据需要生成不同的质量轨迹。然后,在强化学习期间,我们对每个 GRPO 组内的不同奖励 Token 进行采样,并对采样的 Token 进行条件部署,以提高组内多样性,从而提高优势收益。在 Berkeley Function Calling Leaderboard v4 (BFCLv4) 多轮基准测试中,我们的方法比基线获得了持续改进的性能,并且 Qwen-2.5-7B-Instruct 上的性能甚至超过了所有闭源 API 模型 ...
动作分块使视觉语言动作 (VLA) 模型能够实时运行,但简单的分块执行通常会在块边界处表现出不连续性。实时分块 (RTC) 缓解了这个问题,但它是策略外部的,导致虚假的多模式切换和本质上不平滑的轨迹。我们提出了 Legato,一种基于动作分块流的 VLA 策略的训练时间延续方法。具体来说,Legato 从已知动作和噪声的时间表形状的混合中初始化去噪,使模型暴露于部分动作信息。此外,Legato 重塑了学习到的流动力学,以确保去噪过程在每步指导下的训练和推理之间保持一致。 Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness.根据经验,Legato 会产生更平滑的轨迹,并减少执行过程中的虚假多模式切换,从而减少犹豫并缩短任务完成时间。大量的实际实验表明,Legato 在五项操作任务中始终优于 RTC,在轨迹平滑度和任务完成时间方面均实现了约 10% 的改进 ...
随着学生越来越多地采用大型语言模型(LLM)作为学习辅助工具,建立善于处理辅导细微差别的模型至关重要:它们需要识别学生的核心需求,具有适应性,提供个性化指导并且准确。为此,我们推出了TutorBench,这是一个数据集和评估基准,旨在严格评估 LLM 的核心辅导技能。该数据集包含由人类专家整理的 1,490 个样本,重点关注高中和 AP 级别课程。这些样本取自三个常见的辅导任务:(i) 针对学生的困惑生成自适应解释,(ii) 为学生的作业提供可操作的反馈,以及 (iii) 通过有效的提示生成促进主动学习。为了考虑到辅导的固有复杂性,样本附有特定于样本的评分标准,用于在评估过程中判断模型的反应。 TutorBench 使用可靠且细粒度的自动评估方法,该方法使用 LLM 法官和特定于样本的评估标准。我们在 TutorBench 上评估了 16 位前沿 LLM ,并对他们的表现和行为进行了详细分析。我们的结果显示,没有一个前沿 LLM 的分数超过 $56\%$,显示出很大的改进空间。我们发现 LLM 未能展示有效指导、诊断和支持学生所需的全方位辅导技能,所有前沿模型在与这些技能相关的评估标准上的通过率均低于 60\%$。我们还发现不同的模型系列表现出不同的优势和局限性:Claude 模型在支持主动学习方面优于其他模型,而在其他两个用例中则落后。通过发布TutorBench,我们提供了一个全面的、不饱和的基准来指导下一代人工智能导师的发展 ...