代理检索增强生成(Agentic RAG)已成为多跳问答和复杂知识推理广泛采用的范例,其中检索和推理在推理时交织在一起。随着推理轨迹越来越长,失败变得越来越常见。现有方法通常通过停止诊断分析或重新运行整个检索推理管道来解决此类故障,这会导致大量的计算开销和冗余推理。在本文中,我们提出了 Doctor-RAG (DR-RAG),这是一个统一的诊断和修复框架,可通过显式错误定位和前缀重用来纠正 Agentic RAG 中的故障,从而实现最小成本的干预。 DR-RAG 将故障处理分解为两个连续的阶段:(i)轨迹级故障诊断和定位,将错误归因于覆盖门控分类法,并识别推理轨迹中最早的故障点; (ii) 工具调节的局部修复,仅在诊断出的故障点进行干预,同时最大限度地重用经过验证的推理前缀和检索到的证据。通过明确地将错误归因与纠正分开,DR-RAG 能够实现精确的错误定位,从而避免昂贵的全流程重新运行并实现有针对性的高效修复。我们通过三个多跳问答基准、多个代理 RAG 基线和不同的骨干模型来评估 DR-RAG。实验结果表明,与基于重新运行的修复策略相比,DR-RAG 显着提高了答案准确性,同时显着减少了推理 Token 消耗 ...
传统相机会生成大量数据,在资源有限的应用中处理这些数据可能具有挑战性。通常,相机按照图像中像素的数量生成数据流。然而,对于许多下游计算机视觉算法来说,大部分捕获的数据都是多余的。我们提出了一种新颖的相机设计,我们称之为 SuperCam,它通过动态执行超像素分割来自适应处理捕获的数据。我们证明,在内存受限的情况下,SuperCam 的性能优于当前最先进的超像素算法。我们还比较了压缩数据用于下游计算机视觉任务时 SuperCam 的表现。我们的结果表明,在相机可用内存有限的情况下,所提出的设计为图像分割、对象检测和单目深度估计提供了卓越的输出。我们认为,随着更多计算机视觉推理模型部署在边缘设备中,超像素分割将发挥至关重要的作用。 SuperCam 将使计算机视觉工程师能够为这些应用设计更高效的系统 ...
多轮交互对于在线强化学习仍然具有挑战性。常见的解决方案是轨迹级优化,它将每个轨迹视为单个训练样本。然而,这种方法可能效率低下,并产生误导性的学习信号:无论难度如何,它都会在任务之间应用统一采样,惩罚失败轨迹中的正确中间动作,并产生高昂的样本收集成本。为了解决这些问题,我们提出了STEP(成功率感知轨迹高效策略优化),这是一个基于每个任务成功率动态分配采样并执行步骤级优化的框架。 STEP 保持平滑的成功率记录,以指导自适应轨迹重采样,将更多精力分配给更困难的任务。然后,它计算成功率加权优势并将轨迹分解为步骤级样本。最后,它应用阶梯级 GRPO 增强来优化低成功任务的更新。在 OSWorld 和 AndroidWorld 上的实验表明,与轨迹级 GRPO 相比,STEP 大幅提高了样本效率和训练稳定性,在相同的采样预算下收敛速度更快,泛化能力更好 ...
本研究对 Ultralytics YOLO26(也称为 YOLOv26)进行了全面分析,重点介绍了其关键架构增强功能和实时对象检测的性能基准测试。 YOLO26 于 2025 年 9 月发布,是 YOLO 系列中最新、最先进的成员,专为在边缘和低功耗设备上提供效率、准确性和部署就绪性而构建。论文依次详细介绍了YOLO26的架构创新,包括去除分布焦点损失(DFL)、采用端到端无NMS推理、ProgLoss和小目标感知标签分配(STAL)的集成,以及引入MuSGD优化器以实现稳定收敛。除了架构之外,该研究还将 YOLO26 定位为一个多任务框架,支持对象检测、实例分割、姿态/关键点估计、定向检测和分类。我们展示了 YOLO26 在 NVIDIA Jetson Nano 和 Orin 等边缘设备上的性能基准,并将其结果与 YOLOv8、YOLOv11、YOLOv12、YOLOv13 和基于 Transformer 的检测器(RF-DETR 和 RT-DETR)进行比较。本文进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及 INT8/FP16 的量化。重点介绍了 YOLO26 在机器人、制造和物联网领域的实际用例,以展示跨行业的适应性。最后,讨论了对部署效率和更广泛影响的见解,并概述了 YOLO26 和 YOLO 谱系的未来方向 ...
生成推荐由于其扩展潜力和更强的模型能力,最近引起了业界的广泛关注。然而,在大规模广告中部署实时生成推荐需要超越大语言模型(LLM)式训练和服务菜谱的设计。我们提出了一种跨架构、学习和服务共同设计的面向生产的生成推荐器,名为 GR4AD(ADdvertising 生成推荐)。在标记化方面,GR4AD提出了UA-SID(统一广告语义ID)来捕获复杂的业务信息。此外,GR4AD 引入了 LazyAR,这是一种惰性自回归解码器,可以放松短期多候选生成的逐层依赖关系,在保持有效性的同时降低推理成本,从而有助于在固定服务预算下进行扩展。为了使优化与业务价值保持一致,GR4AD 采用 VSL(价值感知监督学习)并提出 RSPO(排名引导 Softmax 偏好优化),这是一种排名感知、列表式强化学习算法,可在列表级指标下优化基于价值的奖励,以实现持续在线更新。对于在线推理,我们进一步提出动态波束服务,它可以跨代级别和在线负载调整波束宽度来控制计算。大规模在线 A/B 测试显示,与现有的基于 DLRM 的堆栈相比,广告收入提高了 4.2%,并且模型扩展和推理时间扩展都获得了一致的收益。 GR4AD已全面部署在拥有超过4亿用户的快手广告系统中,并实现高吞吐量的实时服务 ...
我们提出了 Future-KL 影响策略优化(FIPO),这是一种强化学习算法,旨在克服大型语言模型中的推理瓶颈。虽然 GRPO 风格的训练可以有效扩展,但它通常依赖于基于结果的奖励(ORM),该奖励将全局优势均匀地分配给轨迹中的每个 Token 。我们认为,这种粗粒度的信用分配由于无法区分关键逻辑枢轴和琐碎标记而施加了性能上限。 FIPO 通过将贴现的未来 KL 分歧纳入政策更新来解决这个问题,创建一个密集的优势公式,根据 Token 对后续轨迹行为的影响重新加权。根据经验,FIPO 使模型能够突破标准基线中的长度停滞。在 Qwen2.5-32B 上进行评估,FIPO 将平均思想链长度从大约 4,000 个 Token 扩展到超过 10,000 个 Token ,并将 AIME 2024 Pass@1 准确率从 50.0% 提高到峰值 58.0%(收敛于约 56.0%)。这优于 DeepSeek-R1-Zero-Math-32B(约 47.0%)和 o1-mini(约 56.0%)。我们的结果表明,建立密集的优势公式是发展基于 ORM 的算法以释放基本模型的全部推理潜力的重要途径。我们开源了基于 verl 框架的培训系统 ...
我们研究实际有效的方法,以及通过多转化的强化学习来训练大型语言模型作为代理的训练。尽管进步很快,但现有的框架和定义是分散的,并且没有系统的表述或分析哪些设计选择在任务中很重要。我们首先将设计空间分解为三个相互关联的支柱(环境,奖励和政策),并从经验中得出了培训LLM代理的配方,以解决这一差距 ...
开放世界对象检测(OWOD)是一个具有挑战性的计算机视觉问题,其任务是检测一组已知的对象类别,同时识别未知对象。此外,模型必须逐步学习在下一个训练周期中已知的新类。与标准对象检测不同,OWOD 设置对生成潜在未知对象的高质量候选建议、将未知对象与背景分离以及检测不同的未知对象提出了重大挑战。在这里,我们介绍了一种新颖的基于端到端 Transformer 的框架 OW-DETR,用于开放世界对象检测。所提出的 OW-DETR 包括三个专用组件,即注意力驱动的伪标签、新颖性分类和客观性评分,以明确解决上述 OWOD 挑战。我们的 OW-DETR 显式编码多尺度上下文信息,具有较少的归纳偏差,能够实现从已知类到未知类的知识迁移,并且可以更好地区分未知对象和背景。在两个基准上进行了综合实验:MS-COCO 和 PASCAL VOC。广泛的消融揭示了我们提议的贡献的优点。此外,我们的模型优于最近引入的 OWOD 方法 ORE,在 MS-COCO 上的未知召回率方面绝对增益范围为 1.8% 到 3.3%。在增量对象检测的情况下,OW-DETR 的所有设置均优于 PASCAL VOC 上的最新设置。我们的代码可以在这个 https URL 上找到 ...
人类有识别环境中未知对象实例的自然本能。当相应的知识最终可用时,对这些未知实例的内在好奇心有助于了解它们。这促使我们提出一个新的计算机视觉问题,称为“开放世界对象检测”,其中模型的任务是:1)在没有明确监督的情况下将尚未引入的对象识别为“未知”,2)当逐渐接收到相应的标签时,逐步学习这些识别出的未知类别,而不会忘记以前学习的类别。我们提出了问题,引入了强大的评估协议并提供了一种新颖的解决方案,我们将其称为 ORE:开放世界对象检测器,基于对比聚类和基于能量的未知识别。我们的实验评估和消融研究分析了 ORE 在实现开放世界目标方面的功效。作为一个有趣的副产品,我们发现识别和表征未知实例有助于减少增量对象检测设置中的混乱,在该设置中我们无需额外的方法论努力即可实现最先进的性能。我们希望我们的工作能够吸引对这个新确定但至关重要的研究方向的进一步研究 ...
多轮工具调用对于大型语言模型 (LLM) 来说具有挑战性,因为奖励很少且探索成本高昂。当组内奖励变化较低时(例如,组中更多的推出获得全 0 或全 1 奖励),一种常见的方法(SFT 后跟 GRPO)可能会停滞,从而使组标准化优势变得无信息并产生消失的更新。为了解决这个问题,我们提出了 RC-GRPO(奖励条件组相对策略优化),它将探索视为通过离散奖励 Token 的可控转向问题。我们首先在混合质量轨迹上微调奖励条件轨迹策略(RCTP),并在提示中注入奖励目标特殊标记(例如 <|high_reward|>、<|low_reward|>),使模型能够学习如何根据需要生成不同的质量轨迹。然后,在强化学习期间,我们对每个 GRPO 组内的不同奖励 Token 进行采样,并对采样的 Token 进行条件部署,以提高组内多样性,从而提高优势收益。在 Berkeley Function Calling Leaderboard v4 (BFCLv4) 多轮基准测试中,我们的方法比基线获得了持续改进的性能,并且 Qwen-2.5-7B-Instruct 上的性能甚至超过了所有闭源 API 模型 ...