尽管过去几年语言模型取得了重大进展,但当用作代理时,此类模型常常尝试执行不仅对于给定状态而言不是最佳的操作,而且受到外部环境的严格禁止。例如,在最近的 Kaggle GameArena 国际象棋比赛中,Gemini-2.5-Flash 78% 的损失归因于非法走棋。通常人们会在 LLM 周围手动编写“工具”来防止此类失败。在本文中,我们证明 Gemini-2.5-Flash 可以根据(游戏)环境的反馈,使用少量迭代代码细化来自动合成这样的代码工具。由此产生的安全带可防止 145 种不同的 TextArena 游戏(1 人游戏和 2 人游戏)中的所有非法动作,使较小的 Gemini-2.5-Flash 模型能够胜过较大的模型,例如 Gemini-2.5-Pro。将我们的技术推向极限,我们可以让 Gemini-2.5-Flash 在代码中生成整个策略,从而消除在决策时使用 LLM 的需要。在 16 场 TextArena 1 人游戏中,生成的代码策略获得的平均奖励高于 Gemini-2.5-Pro 和 GPT-5.2-High。我们的结果表明,使用较小的模型来合成自定义代码工具(或整个策略)可以优于较大的模型,同时也更具成本效益 ...
大型语言模型 (LLM) 代理越来越多地用于复杂任务,但部署的代理通常保持静态,无法适应用户需求的变化。这就在持续服务的需求和更新功能以匹配不断变化的任务分配的必要性之间造成了紧张。在 OpenClaw 等跨 20 多个渠道处理不同工作负载的平台上,现有方法要么存储原始轨迹而不提取知识,要么维护静态技能库,要么需要中断性停机进行再训练。我们提出了 MetaClaw,一个持续的元学习框架,它共同发展了基本的 LLM 政策和可重用的行为技能库。 MetaClaw 采用两种互补机制。技能驱动的快速适应通过 LLM 进化器分析失败轨迹以综合新技能,从而实现零停机时间的立即改进。机会策略优化通过云 LoRA 微调和带有过程奖励模型 (RL-PRM) 的强化学习来执行基于梯度的更新。这是在用户不活动窗口期间由机会元学习调度程序 (OMLS) 触发的,该调度程序监视系统不活动和日历数据。这些机制是相辅相成的:完善的政策为技能综合提供更好的轨迹,而更丰富的技能为政策优化提供更高质量的数据。为了防止数据污染,版本控制机制将支持数据和查询数据分开。 MetaClaw 基于基于代理的架构构建,无需本地 GPU 即可扩展到生产规模的 LLM。 MetaClaw-Bench 和 AutoResearchClaw 上的实验表明,技能驱动的适应相对准确率提高了 32%。完整的流程将 Kimi-K2.5 的精度从 21.4% 提高到 40.6%,并将复合材料的稳健性提高 18.3%。代码可从此 https URL 获取 ...
大型语言模型 (LLM) 的迅速出现引发了人工智能领域的深刻范式转变,带来了巨大的工程成功,对现代社会的影响日益增大。然而,当前领域中仍然存在一个关键的悖论:尽管具有实证效力,但我们对 LLM 的理论理解仍然处于不成比例的新生阶段,迫使这些系统在很大程度上被视为“黑匣子”。为了解决这种理论碎片化问题,本次调查提出了一种基于生命周期的统一分类法,将研究领域分为六个不同的阶段:数据准备、模型准备、训练、对齐、推理和评估。在此框架内,我们对驱动 LLM 绩效的基础理论和内部机制进行了系统回顾。具体来说,我们分析了核心理论问题,例如数据混合的数学合理性、各种架构的表示限制以及对齐算法的优化动态。超越当前的最佳实践,我们确定了关键的前沿挑战,包括合成数据自我改进的理论限制、安全保证的数学界限以及新兴智能的机械起源。通过将经验观察与严格的科学探究联系起来,这项工作为将 LLM 发展从工程启发法转向有原则的科学学科提供了一个结构化的路线图 ...
我们提出了一种基于知识图的时间规则锚定证据链(TRACE),用于可解释的股票走势预测,它将符号关系先验、动态图探索和 LLM 引导的决策统一在单个端到端管道中。该方法执行仅限于可接受的关系序列的规则引导的多跳探索,在同时期新闻中建立候选推理链,并将完全有根据的证据聚合成可审计的 \texttt{UP}/\texttt{DOWN} 判决,并具有连接文本和结构的人类可读路径。在 S\&P~500 基准上,该方法实现了 55.1\% 准确率、55.7\% 精度、71.5\% 召回率和 60.8\% F1,超越了强基线,并在相同评估下比最佳图基线提高了召回率和 F1。收益源于(i)规则引导的探索,重点搜索具有经济意义的主题而不是任意行走;(ii)基于文本的整合,有选择地聚合高置信度、完全有根据的假设,而不是统一汇集弱信号。总之,这些选择可以在不牺牲选择性的情况下产生更高的灵敏度,通过忠实的、可审计的可解释解释提供预测提升 ...
检索增强生成(RAG)已成为增强知识密集型和推理任务中大型语言模型的强大框架。然而,随着推理链加深或搜索树扩展,RAG 系统经常面临两个持续性故障:证据遗忘(检索到的知识没有得到有效使用)和低效率(不受控制的查询扩展和冗余检索导致)。这些问题揭示了当前 RAG 架构中检索和证据利用之间的关键差距。我们提出了 PruneRAG,一种置信引导的查询分解框架,它构建结构化查询分解树来执行稳定高效的推理。 PruneRAG 引入了三个关键机制:调节树宽度和深度的自适应节点扩展、接受可靠答案并修剪不确定分支的置信引导决策以及提取实体级锚点以提高检索精度的细粒度检索。这些组件一起在整个多跳推理过程中保留显着的证据,同时显着减少检索开销。为了更好地分析证据滥用,我们将证据遗忘率定义为量化黄金证据被检索但未正确使用的案例的指标。跨各种多跳 QA 基准的大量实验表明,PruneRAG 比最先进的基准实现了更高的准确性和效率 ...
基础模型现在为深度学习中大多数令人兴奋的应用程序提供支持,几乎普遍基于 Transformer 架构及其核心注意力模块。许多次二次时间架构(例如线性注意力、门控卷积和循环模型以及结构化状态空间模型(SSM))已经被开发出来,以解决 Transformers 在长序列上的计算效率低下的问题,但它们在诸如语言等重要模态上的表现并不好。我们发现此类模型的一个关键弱点是它们无法执行基于内容的推理,并做出一些改进。首先,简单地让 SSM 参数作为输入的函数,可以解决其离散模态的弱点,允许模型根据当前标记选择性地沿序列长度维度传播或忘记信息。其次,尽管这种变化阻止了高效卷积的使用,但我们在循环模式下设计了一种硬件感知的并行算法。我们将这些选择性 SSM 集成到简化的端到端神经网络架构中,无需注意力机制,甚至不需要 MLP 模块 (Mamba)。 Mamba 享有快速推理(比 Transformer 高 5 倍的吞吐量)和序列长度的线性缩放,并且其性能在高达百万长度序列的实际数据上得到提高。作为通用序列模型骨干,Mamba 在语言、音频和基因组学等多种模式上实现了最先进的性能。在语言建模方面,我们的 Mamba-3B 模型在预训练和下游评估方面都优于相同大小的 Transformer,并且与两倍大小的 Transformer 相匹配 ...
检索增强生成 (RAG) 框架引入了检索模块,可将检索到的信息动态注入到大型语言模型 (LLM) 的输入上下文中,并在各种 NLP 任务中取得了显着的成功。然而,目前的研究指出,RAG框架中的检索者和LLM之间存在偏好差距,这限制了系统性能的进一步提升。一些高度相关的段落可能会干扰 LLM 的推理,因为它们包含复杂或矛盾的信息;而一些间接相关甚至不准确的内容可能会通过提供暗示性信息或逻辑线索来帮助LLM生成更准确的答案。为了解决这个问题,我们提出了 GainRAG,这是一种新颖的方法,通过定义一个新的指标“增益”来调整检索者和 LLM 的偏好,“增益”衡量输入段落对正确输出的贡献程度。具体来说,我们提出了一种方法来估计这些增益信号并训练一个中间件,该中间件仅使用有限的数据来调整检索器和 LLM 的偏好。此外,我们引入了伪传代策略来减轻降解。 6个数据集上的实验结果验证了GainRAG的有效性 ...
视觉语言导航(VLN)需要智能代理通过解释语言指令和视觉观察来导航环境,这是嵌入式人工智能的基石任务。目前针对无人机 (UAV) 的 VLN 研究依赖于详细的、预先指定的指令来引导无人机沿预定路线行驶。然而,现实世界的户外探索通常发生在无法获得详细导航说明的未知环境中。相反,只能提供粗粒度的位置或方向引导,要求无人机通过连续规划和避障来自主导航。为了弥补这一差距,我们提出了 AutoFly,一种用于自主无人机导航的端到端视觉-语言-动作(VLA)模型。 AutoFly 采用了伪深度编码器,可从 RGB 输入中派生深度感知特征以增强空间推理,再加上渐进式两阶段训练策略,可有效地将视觉、深度和语言表示与动作策略保持一致。此外,现有的 VLN 数据集对于现实世界的自主导航存在根本性的限制,因为它们严重依赖于自主决策的明确指令跟踪以及现实世界数据的不足。为了解决这些问题,我们构建了一个新颖的自主导航数据集,通过以下方式将范式从遵循指令转变为自主行为建模:(1)轨迹收集,强调连续避障、自主规划和识别工作流程; (2)全面的现实世界数据集成。实验结果表明,与最先进的 VLA 基线相比,AutoFly 的成功率提高了 3.9%,并且在模拟和真实环境中具有一致的性能 ...
基于 Transformer 的模型在 NLP 任务中取得了显着的性能。然而,它们的结构特征——多层和注意力头——给推理和部署带来了效率挑战。为了应对这些挑战,最近提出了各种修剪方法 ...
代理编码需要代理与运行时环境(例如命令行界面(CLI))有效交互,以完成解决依赖性问题、修复系统问题等任务。但如何大规模获得此类环境密集型任务以增强代理的能力仍有待探索。为了解决这个问题,基于 Dockerfile 和代理任务之间的类比,我们建议使用代理在执行反馈的指导下模拟和探索环境历史。通过跟踪健康环境的历史,可以将其状态反转到运行时失败的早期状态,然后可以通过打包有问题的状态和相应的错误消息来派生任务。通过我们名为 CLI-Gym 的方法,总共导出了 1,655 个环境密集型任务,是同类中最大的集合。此外,通过精心策划的成功轨迹,我们名为 LiberCoder 的微调模型在 Terminal-Bench 上实现了 +21.1%(至 46.1%)的大幅绝对改进,优于各种强大的基线。 To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks. ...