尖端的代理人工智能系统建立在基础模型的基础上,这些模型可以适应计划、推理以及与外部工具交互,以执行日益复杂和专业的任务。随着这些系统的能力和范围不断增长,适应成为提高性能、可靠性和通用性的核心机制。在本文中,我们将快速扩展的研究领域统一到一个涵盖代理适应和工具适应的系统框架中。我们进一步将它们分解为代理适应的工具执行信号和代理输出信号形式,以及工具适应的代理不可知和代理监督形式。我们证明,该框架有助于阐明代理人工智能中适应策略的设计空间,使它们的权衡变得明确,并为系统设计过程中选择或切换策略提供实用指导。然后,我们回顾每个类别的代表性方法,分析它们的优势和局限性,并强调关键的开放挑战和未来机遇。总的来说,本文旨在为寻求构建更强大、更高效、更可靠的代理人工智能系统的研究人员和从业者提供概念基础和实践路线图 ...

0 0 0 0 2025/12/30 arXiv:2512.16301v2 odenkkk

针对物理问题的机器学习框架必须捕获并强制执行保留动态系统结构的物理约束。许多现有方法通过将物理算子集成到神经网络中来实现这一点。虽然这些方法提供了理论上的保证,但它们面临两个关键限制:(i)它们主要对相邻时间步之间的局部关系进行建模,忽略了更远距离或更高级别的物理相互作用;(ii)它们专注于正向模拟,而忽略了更广泛的物理推理任务。我们提出了去噪哈密顿网络(DHN),这是一种新颖的框架,它将哈密顿力学算子推广为更灵活的神经算子。 DHN 捕获非局部时间关系并通过去噪机制减轻数值积分误差。 DHN 还支持具有全局调节机制的多系统建模。我们在具有不同输入和输出的三个不同物理推理任务中展示了其有效性和灵活性 ...

0 0 0 0 2025/12/19 arXiv:2503.07596v1 odenkkk

在深度学习中,模型通常对所有输入重用相同的参数。专家混合 (MoE) 违背了这一点,而是为每个传入的示例选择不同的参数。结果是一个稀疏激活的模型——参数数量惊人——但计算成本恒定。然而,尽管 MoE 取得了一些显着的成功,但复杂性、通信成本和培训不稳定阻碍了广泛采用 - 我们通过 Switch Transformer 解决这些问题。我们简化了 MoE 路由算法,并设计了直观的改进模型,降低了通信和计算成本。我们提出的训练技术有助于解决不稳定性问题,并且我们首次展示了大型稀疏模型可以使用较低精度(bfloat16)格式进行训练。我们基于 T5-Base 和 T5-Large 设计模型,以在相同的计算资源下获得高达 7 倍的预训练速度提升。这些改进扩展到多语言设置,我们在所有 101 种语言中衡量 mT5-Base 版本的增益。最后,我们通过在“Colossal Clean Crawled Corpus”上预训练多达万亿参数的模型来推进当前语言模型的规模,并实现比 T5-XXL 模型 4 倍的加速 ...

0 0 0 0 2025/12/18 arXiv:2101.03961v3 odenkkk

在语言模型中寻找人类可理解的电路是机械可解释性领域的中心目标。我们通过将模型的大部分权重限制为零来训练模型,使其具有更易于理解的电路,以便每个神经元只有几个连接。为了恢复多个手工任务背后的细粒度电路,我们修剪模型以隔离负责任务的部分。这些电路通常包含与自然概念相对应的神经元和残余通道,它们之间有少量可直接解释的连接。我们研究了这些模型如何缩放,发现权重稀疏会牺牲可解释性的能力,而缩放模型大小可以改善能力-可解释性边界。然而,将稀疏模型扩展到数千万个非零参数之外,同时保持可解释性仍然是一个挑战。除了从头训练权重稀疏模型之外,我们还展示了初步结果,表明我们的方法也可以适用于解释现有的密集模型。我们的工作产生的电路达到了前所未有的人类可理解性水平,并以相当严格的方式对其进行了验证 ...

0 0 0 0 2025/12/15 arXiv:2511.13653v1 odenkkk

我们提出了通过智能基础模型(IFM)来研究通用人工智能(AGI)的新视角。现有的基础模型(FM)专注于语言、视觉或时间序列等特定领域的模式学习,而 IFM 则不同,它的目标是通过直接从不同的智能行为中学习来获取智能的底层机制。视觉、语言和其他认知能力是智能行为的表现;从广泛的行为中学习使系统能够内化智能的一般原理。基于智能行为源自生物神经系统的集体动力学这一事实,IFM 由两个核心组成部分组成:一种新颖的网络架构,称为状态神经网络,它捕获类似神经元的动态过程;以及一个新的学习目标,即神经元输出预测,它训练系统从集体动力学中预测神经元输出。状态神经网络模拟生物神经元的时间动态,允许系统随着时间的推移存储、集成和处理信息,而神经元输出预测目标为从智能行为中学习这些结构动态提供了统一的计算原理。这些创新共同为构建能够跨领域泛化、推理和自适应学习的系统奠定了生物基础和计算可扩展的基础,代表着向真正的 AGI 迈出了一步 ...

0 0 0 0 2025/12/10 arXiv:2511.10119v3 odenkkk

尽管大型语言模型 (LLM) 表现出先进的推理能力,但传统的对齐方式仍然主要由仅判断最终答案的结果奖励模型 (ORM) 主导。过程奖励模型(PRM)通过在步骤或轨迹级别评估和指导推理来解决这一差距。这项调查通过整个循环系统地概述了 PRM:如何生成过程数据、构建 PRM 以及使用 PRM 进行测试时间扩展和强化学习。我们总结了数学、代码、文本、多模式推理、机器人和代理的应用,并回顾了新兴的基准。我们的目标是阐明设计空间,揭示开放的挑战,并指导未来的研究朝着细粒度、稳健的推理方向发展 ...

0 0 0 0 2025/12/09 arXiv:2510.08049v2 odenkkk

由于能够遵循自然语言指令,视觉-语言-动作 (VLA) 模型在其前身—— LLM 和 VLM 取得广泛成功之后,在具体人工智能领域越来越普遍。在本文中,我们讨论了 VLA 模型持续开发的 10 个主要里程碑——多模态、推理、数据、评估、跨机器人动作泛化、效率、全身协调、安全性、代理以及与人类的协调。此外,我们还讨论了使用空间理解、建模世界动态、后期训练和数据合成的新兴趋势——所有这些都是为了实现这些里程碑。通过这些讨论,我们希望引起人们对可能加速 VLA 模型发展并获得更广泛接受的研究途径的关注 ...

0 0 0 0 2025/12/08 arXiv:2511.05936v1 odenkkk

基于大型语言模型 (LLM) 的代理已成为一种新范式,它将 LLM 的功能从文本生成扩展到与外部环境的动态交互。通过将推理与感知、记忆和工具使用相结合,代理越来越多地部署在网络导航和家用机器人等不同领域。然而,一个关键的挑战在于确保代理的通用性,即在不同的指令、任务、环境和领域(尤其是代理微调数据之外的指令、任务、环境和领域)中保持一致性能的能力。尽管人们的兴趣日益浓厚,但基于 LLM 的代理的普遍性概念仍然没有明确定义,并且缺乏衡量和改进它的系统方法。在本次调查中,我们首次对基于 LLM 的代理的普遍性进行了全面审查。我们首先通过吸引利益相关者来强调代理普遍性的重要性,并通过将代理普遍性置于分层领域任务本体中来澄清代理普遍性的边界。然后,我们审查数据集、评估维度和指标,强调它们的局限性。接下来,我们将提高泛化性的方法分为三组:用于主干 LLM 的方法、用于代理组件的方法以及用于它们交互的方法。此外,我们介绍了可泛化框架和可泛化代理之间的区别,并概述了如何将可泛化框架转化为代理级的泛化性。最后,我们确定了关键挑战和未来方向,包括开发标准化框架、基于方差和成本的指标,以及将方法创新与架构级设计相结合的方法。通过综合进展并强调机会,本次调查旨在为构建基于 LLM 的代理的原则性研究奠定基础,这些代理可以在不同的应用程序中可靠地推广 ...

0 0 0 0 2025/12/08 arXiv:2509.16330v1 odenkkk

当代自回归 Transformer 在开环中运行:每个隐藏状态都是在一次前向传递中计算的,并且从未被修改,导致错误在序列中未经纠正地传播。我们将这种开环瓶颈确定为一个基本的架构限制,它是长期推理、事实一致性和多步骤规划中记录良好的失败的基础。为了解决这个限制,我们引入了闭环预测原理,该原理要求模型迭代地细化潜在表示,直到在提交每个 Token 之前达到自洽平衡。我们将这一原理实例化为平衡 Transformer (EqT),它通过平衡细化模块增强了标准 Transformer 层,该模块通过潜在空间中的梯度下降最小化学习的能量函数。能量函数强制执行双向预测一致性、情景记忆一致性和输出置信度,所有这些都无需外部监督即可计算。从理论上讲,我们证明 EqT 在基于潜在能量的模型中执行近似 MAP 推理,建立线性收敛保证,并表明细化可以提高对一次性推理次优的硬实例的精确预测。该框架将深度均衡模型、扩散语言模型和测试时训练作为特殊情况统一起来。对二进制奇偶校验任务的初步实验表明,在具有挑战性的序列上平均提高了 +3.28%,当标准 Transformer 接近随机性能时,增益达到 +8.07%,这验证了深思熟虑的好处与任务难度成正比。正如注意力机制解决了循环网络的顺序瓶颈一样,我们提出闭环平衡可以解决开环自回归的承诺瓶颈,这代表着向语言模型迈出的基础性一步 ...

0 0 0 0 2025/12/08 arXiv:2511.21882v1 odenkkk

Transformer 依靠自注意力来捕获依赖关系,在各个领域都取得了巨大的成功。然而,标准的一阶注意力机制通常受到低秩瓶颈的限制,难以捕获单层内复杂的多跳关系。在本文中,我们提出了 Nexus,这是一种新颖的架构,旨在通过递归框架增强表示能力。与使用静态线性投影进行查询和键的标准方法不同,Nexus 通过嵌套的自注意力机制动态地细化这些表示。具体来说,查询和密钥向量本身就是内部注意力循环的输出,允许 Token 聚合全局上下文并在最终注意力计算之前对高阶相关性 \textit{prior} 进行建模。我们在递归步骤中强制执行参数有效的权重共享策略,确保这种增强的表达能力产生 $\mathcal{O}(1)$ 额外参数。我们提供的理论分析证明我们的方法打破了标准注意力的线性瓶颈。根据经验,Nexus 在多个基准测试中优于标准 Transformer ...

0 0 0 0 2025/12/08 arXiv:2512.03377v2 odenkkk