无线网络的快速发展带来了许多挑战,这些挑战源于它们对服务质量对创新体验质量指标(例如,触觉应用的物理体验感方面的用户定义指标)的广泛需求。与此同时,大型语言模型(LLM)成为许多困难且复杂的应用程序/任务的有前途的解决方案。这些导致了 LLM 和无线网络整合的概念。然而,这种集成具有挑战性,需要在设计时仔细注意。因此,在本文中,我们提出了由 \emph{电信 LLM} 提供支持的合理无线网络的概念,即 \emph{LLM 本地无线系统}。我们提供 LLM 原生无线系统的分布式实施的基础知识、愿景和案例研究。在案例研究中,我们提出了一种基于双深度 Q 学习 (DDQN) 的解决方案,其性能优于现有的 DDQN 解决方案。最后,我们提供公开挑战 ...

0 0 0 0 2026/04/03 arXiv:2506.10651v1 7152667

我们推出了 OmniVoice,这是一个大型多语言零样本文本转语音 (TTS) 模型,可扩展到 600 多种语言。其核心是一种新颖的扩散语言模型风格的离散非自回归(NAR)架构。与在复杂的两级(文本到语义到声学)管道中遇到性能瓶颈的传统离散 NAR 模型不同,OmniVoice 直接将文本映射到多码本声学标记。这种简化的方法得益于两项关键的技术创新:(1) 用于高效训练的全码本随机屏蔽策略,以及 (2) 从预训练的 LLM 进行初始化,以确保卓越的清晰度。通过利用完全由开源数据整理的 581,000 小时多语言数据集,OmniVoice 实现了迄今为止最广泛的语言覆盖范围,并在中文、英语和多种多语言基准测试中提供了最先进的性能。我们的代码和预训练模型可通过此 https URL 公开获取 ...

0 0 0 0 2026/04/03 arXiv:2604.00688v2 liangmin0020

基于大型语言模型 (LLM) 的智能体越来越多地接受强化学习 (RL) 训练,以增强其通过工具使用与外部环境交互的能力,特别是在需要多轮推理和知识获取的基于搜索的环境中。然而,现有的方法通常依赖于基于结果的奖励,这些奖励仅在生成最终答案时提供。这种奖励稀疏性在多回合设置中变得尤其成问题,其中长轨迹加剧了三个关键问题:(i)优势崩溃,其中所有推出都获得相同的奖励并且不提供有用的学习信号; (ii) 缺乏细粒度的信用分配,中间转弯的正确性被掩盖,特别是在长期任务中; (iii) 样本效率差,每次推出仅产生单个结果信号,导致数据利用率低。在本文中,我们提出了基于信息增益的策略优化(IGPO),这是一种简单而有效的 RL 框架,可为多轮智能体训练提供密集且内在的监督。 IGPO 将每个交互回合建模为获取有关基本事实信息的增量过程,并将回合级别奖励定义为策略产生正确答案的概率的边际增长。与先前依赖于外部奖励模型或昂贵的蒙特卡洛估计的过程级奖励方法不同,IGPO 直接从模型自身的信念更新中获得内在奖励。这些内在的回合级奖励与结果级监督相结合,形成密集的奖励信号。对域内和域外基准的大量实验表明,IGPO 在多轮场景中始终优于强大的基准,实现了更高的准确性并提高了数据效率。我们的代码可以在这个 https URL 上找到 ...

0 0 0 0 2026/04/03 arXiv:2510.14967v2 qianzhihe521

代理检索增强生成(Agentic RAG)已成为多跳问答和复杂知识推理广泛采用的范例,其中检索和推理在推理时交织在一起。随着推理轨迹越来越长,失败变得越来越常见。现有方法通常通过停止诊断分析或重新运行整个检索推理管道来解决此类故障,这会导致大量的计算开销和冗余推理。在本文中,我们提出了 Doctor-RAG (DR-RAG),这是一个统一的诊断和修复框架,可通过显式错误定位和前缀重用来纠正 Agentic RAG 中的故障,从而实现最小成本的干预。 DR-RAG 将故障处理分解为两个连续的阶段:(i)轨迹级故障诊断和定位,将错误归因于覆盖门控分类法,并识别推理轨迹中最早的故障点; (ii) 工具调节的局部修复,仅在诊断出的故障点进行干预,同时最大限度地重用经过验证的推理前缀和检索到的证据。通过明确地将错误归因与纠正分开,DR-RAG 能够实现精确的错误定位,从而避免昂贵的全流程重新运行并实现有针对性的高效修复。我们通过三个多跳问答基准、多个代理 RAG 基线和不同的骨干模型来评估 DR-RAG。实验结果表明,与基于重新运行的修复策略相比,DR-RAG 显着提高了答案准确性,同时显着减少了推理 Token 消耗 ...

0 0 0 0 2026/04/03 arXiv:2604.00865v1 头秃代码狗

传统相机会生成大量数据,在资源有限的应用中处理这些数据可能具有挑战性。通常,相机按照图像中像素的数量生成数据流。然而,对于许多下游计算机视觉算法来说,大部分捕获的数据都是多余的。我们提出了一种新颖的相机设计,我们称之为 SuperCam,它通过动态执行超像素分割来自适应处理捕获的数据。我们证明,在内存受限的情况下,SuperCam 的性能优于当前最先进的超像素算法。我们还比较了压缩数据用于下游计算机视觉任务时 SuperCam 的表现。我们的结果表明,在相机可用内存有限的情况下,所提出的设计为图像分割、对象检测和单目深度估计提供了卓越的输出。我们认为,随着更多计算机视觉推理模型部署在边缘设备中,超像素分割将发挥至关重要的作用。 SuperCam 将使计算机视觉工程师能够为这些应用设计更高效的系统 ...

0 0 0 0 2026/04/03 arXiv:2603.26900v1 zcr10086

多轮交互对于在线强化学习仍然具有挑战性。常见的解决方案是轨迹级优化,它将每个轨迹视为单个训练样本。然而,这种方法可能效率低下,并产生误导性的学习信号:无论难度如何,它都会在任务之间应用统一采样,惩罚失败轨迹中的正确中间动作,并产生高昂的样本收集成本。为了解决这些问题,我们提出了STEP(成功率感知轨迹高效策略优化),这是一个基于每个任务成功率动态分配采样并执行步骤级优化的框架。 STEP 保持平滑的成功率记录,以指导自适应轨迹重采样,将更多精力分配给更困难的任务。然后,它计算成功率加权优势并将轨迹分解为步骤级样本。最后,它应用阶梯级 GRPO 增强来优化低成功任务的更新。在 OSWorld 和 AndroidWorld 上的实验表明,与轨迹级 GRPO 相比,STEP 大幅提高了样本效率和训练稳定性,在相同的采样预算下收敛速度更快,泛化能力更好 ...

0 0 0 0 2026/04/03 arXiv:2511.13091v1 qianzhihe521

本研究对 Ultralytics YOLO26(也称为 YOLOv26)进行了全面分析,重点介绍了其关键架构增强功能和实时对象检测的性能基准测试。 YOLO26 于 2025 年 9 月发布,是 YOLO 系列中最新、最先进的成员,专为在边缘和低功耗设备上提供效率、准确性和部署就绪性而构建。论文依次详细介绍了YOLO26的架构创新,包括去除分布焦点损失(DFL)、采用端到端无NMS推理、ProgLoss和小目标感知标签分配(STAL)的集成,以及引入MuSGD优化器以实现稳定收敛。除了架构之外,该研究还将 YOLO26 定位为一个多任务框架,支持对象检测、实例分割、姿态/关键点估计、定向检测和分类。我们展示了 YOLO26 在 NVIDIA Jetson Nano 和 Orin 等边缘设备上的性能基准,并将其结果与 YOLOv8、YOLOv11、YOLOv12、YOLOv13 和基于 Transformer 的检测器(RF-DETR 和 RT-DETR)进行比较。本文进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及 INT8/FP16 的量化。重点介绍了 YOLO26 在机器人、制造和物联网领域的实际用例,以展示跨行业的适应性。最后,讨论了对部署效率和更广泛影响的见解,并概述了 YOLO26 和 YOLO 谱系的未来方向 ...

0 0 0 0 2026/04/03 arXiv:2509.25164v5 hanzhi

生成推荐由于其扩展潜力和更强的模型能力,最近引起了业界的广泛关注。然而,在大规模广告中部署实时生成推荐需要超越大语言模型(LLM)式训练和服务菜谱的设计。我们提出了一种跨架构、学习和服务共同设计的面向生产的生成推荐器,名为 GR4AD(ADdvertising 生成推荐)。在标记化方面,GR4AD提出了UA-SID(统一广告语义ID)来捕获复杂的业务信息。此外,GR4AD 引入了 LazyAR,这是一种惰性自回归解码器,可以放松短期多候选生成的逐层依赖关系,在保持有效性的同时降低推理成本,从而有助于在固定服务预算下进行扩展。为了使优化与业务价值保持一致,GR4AD 采用 VSL(价值感知监督学习)并提出 RSPO(排名引导 Softmax 偏好优化),这是一种排名感知、列表式强化学习算法,可在列表级指标下优化基于价值的奖励,以实现持续在线更新。对于在线推理,我们进一步提出动态波束服务,它可以跨代级别和在线负载调整波束宽度来控制计算。大规模在线 A/B 测试显示,与现有的基于 DLRM 的堆栈相比,广告收入提高了 4.2%,并且模型扩展和推理时间扩展都获得了一致的收益。 GR4AD已全面部署在拥有超过4亿用户的快手广告系统中,并实现高吞吐量的实时服务 ...

0 0 0 0 2026/04/03 arXiv:2602.22732v3 neverend

我们提出了 Future-KL 影响策略优化(FIPO),这是一种强化学习算法,旨在克服大型语言模型中的推理瓶颈。虽然 GRPO 风格的训练可以有效扩展,但它通常依赖于基于结果的奖励(ORM),该奖励将全局优势均匀地分配给轨迹中的每个 Token 。我们认为,这种粗粒度的信用分配由于无法区分关键逻辑枢轴和琐碎标记而施加了性能上限。 FIPO 通过将贴现的未来 KL 分歧纳入政策更新来解决这个问题,创建一个密集的优势公式,根据 Token 对后续轨迹行为的影响重新加权。根据经验,FIPO 使模型能够突破标准基线中的长度停滞。在 Qwen2.5-32B 上进行评估,FIPO 将平均思想链长度从大约 4,000 个 Token 扩展到超过 10,000 个 Token ,并将 AIME 2024 Pass@1 准确率从 50.0% 提高到峰值 58.0%(收敛于约 56.0%)。这优于 DeepSeek-R1-Zero-Math-32B(约 47.0%)和 o1-mini(约 56.0%)。我们的结果表明,建立密集的优势公式是发展基于 ORM 的算法以释放基本模型的全部推理潜力的重要途径。我们开源了基于 verl 框架的培训系统 ...

0 0 0 0 2026/04/03 arXiv:2603.19835v3 qianzhihe521

我们研究实际有效的方法,以及通过多转化的强化学习来训练大型语言模型作为代理的训练。尽管进步很快,但现有的框架和定义是分散的,并且没有系统的表述或分析哪些设计选择在任务中很重要。我们首先将设计空间分解为三个相互关联的支柱(环境,奖励和政策),并从经验中得出了培训LLM代理的配方,以解决这一差距 ...

0 1 0 0 2026/04/03 arXiv:2510.01132v2 qianzhihe521