在实际的LLM应用中,用户反复表达稳定的偏好和要求,例如减少幻觉、遵循机构写作惯例或避免过于技术性的措辞,但这种交互体验很少被整合为可重用的知识。因此,LLM 代理通常无法跨会话积累个性化能力。我们提出了 AutoSkill,一个经验驱动的终身学习框架,使 LLM 代理能够从对话和交互跟踪中自动派生、维护和重用技能。 AutoSkill 从用户体验中抽象技能,支持其持续自我进化,并动态地将相关技能注入到未来的请求中,而无需重新训练底层模型。它被设计为与模型无关的插件层,与现有的 LLM 兼容,并引入了标准化的技能表示,以便在代理、用户和任务之间共享和传输。通过这种方式,AutoSkill 将短暂的交互体验转变为明确的、可重用的和可组合的功能。本文描述了 AutoSkill 的动机、架构、技能生命周期和实现,并将其与先前有关记忆、检索、个性化和代理系统的工作进行了定位。 AutoSkill 强调了一条通往终身个性化代理和个人数字代理人的实用且可扩展的道路 ...

0 0 0 0 2026/03/12 arXiv:2603.01145v2 zhangnan

使用 KV 绑定作为序列建模层的测试时训练 (TTT) 通常被解释为一种在线元学习形式,可在测试时记住键值映射。然而,我们的分析揭示了多种与这种基于记忆的解释相矛盾的现象。受这些发现的启发,我们重新审视了 TTT 的表述,并表明一类广泛的 TTT 架构可以表示为一种学习线性注意算子的形式。除了解释以前令人费解的模型行为之外,这种观点还带来了多种实际好处:它实现了原则性的架构简化,允许在提高效率的同时保留性能的完全并行公式,并系统地将各种 TTT 变体减少为标准的线性注意力形式。总体而言,我们的结果将 TTT 重新定义为不作为测试时记忆,而是作为学习的线性注意力和增强的表征能力 ...

0 0 0 0 2026/03/12 arXiv:2602.21204v2 473414095

受深度感知固有模糊性的限制,当代基于相机的 3D 物体检测方法陷入了性能瓶颈。直观地说,利用时间多视图立体 (MVS) 技术是解决这种模糊性的自然知识。然而,MVS 的传统尝试在应用于 3D 目标检测场景时存在两个方面的缺陷:1)所有视图之间的亲和力测量承受昂贵的计算成本; 2)难以处理物体经常移动的室外场景。为此,我们引入了一种有效的时间立体方法来动态选择匹配候选者的尺度,从而能够显着减少计算开销。更进一步,我们设计了一种迭代算法来更新更有价值的候选者,使其适应移动候选者。我们将我们提出的方法实例化为多视图 3D 检测器,即 BEVStereo。 BEVStereo 在 nuScenes 数据集的仅相机轨道上实现了新的最先进性能(即 52.5% mAP 和 61.0% NDS)。同时,大量实验表明我们的方法可以比当代 MVS 方法更好地处理复杂的户外场景。代码已在此 https URL 发布 ...

0 0 0 0 2026/03/12 arXiv:2209.10248v1 mk123

本文对英特尔 Gaudi NPU 作为 NVIDIA GPU 的替代品进行了全面评估,NVIDIA GPU 是目前人工智能系统设计的事实上的标准。首先,我们创建了一套微基准来将 Intel Gaudi-2 与 NVIDIA A100 进行比较,结果表明 Gaudi-2 不仅在原始 AI 计算、内存和通信操作方面,而且在端到端执行多个重要的 AI 工作负载方面都实现了具有竞争力的性能。然后,我们通过讨论用于实现关键 FBGEMM 运算符和 vLLM 的几种软件级优化策略来评估 Gaudi NPU 的可编程性,并根据 GPU 优化的对应方案评估其效率。结果表明,Gaudi-2 的能效与 A100 相当,但在软件成熟度方面还有显着的改进空间。总的来说,我们的结论是,通过有效集成到高级人工智能框架中,Gaudi NPU 可以挑战 NVIDIA GPU 在人工智能服务器市场的主导地位,尽管还需要进一步改进才能与 NVIDIA 强大的软件生态系统充分竞争 ...

0 0 0 0 2026/03/12 arXiv:2501.00210v2 jane88

绝大多数材料科学知识都以非结构化自然语言存在,但结构化数据对于创新和系统的材料设计至关重要。传统上,该领域依赖手动管理和部分自动化来提取特定用例的数据。大型语言模型 (LLM) 的出现代表了一个重大转变,有可能使非专家能够从非结构化文本中高效提取结构化、可操作的数据。虽然将 LLM 应用于材料科学数据提取提出了独特的挑战,但领域知识提供了指导和验证 LLM 输出的机会。这篇综述全面概述了材料科学中基于 LLM 的结构化数据提取,综合了当前的知识并概述了未来的方向。我们解决了缺乏标准化指南的问题,并提出了利用 LLM 和材料科学专业知识之间协同作用的框架。这项工作为旨在利用 LLM 进行数据驱动材料研究的研究人员提供了基础资源。这里提出的见解可以显着提高跨学科研究人员获取和利用科学信息的方式,有可能加速满足关键社会需求的新型材料的开发 ...

0 0 0 0 2026/03/12 arXiv:2407.16867v2 DoubleSails

大型语言模型(LLM)在复杂的推理任务中取得了显着的成功,但它们的推理在计算上仍然效率低下。我们在许多流行的 LLM 中观察到一种常见的失败模式,即过度思考,其中模型即使对于简单的查询也会生成冗长且离题的推理痕迹。最近的工作试图通过强制执行固定的 Token 预算来缓解这一问题,然而,这可能会导致思考不足,尤其是在更困难的问题上。通过实证分析,我们发现这种低效率往往源于问题解决策略不明确。为了形式化这一点,我们开发了一个理论模型 BAM(预算分配模型),它将推理建模为一系列具有不同不确定性的子问题,并引入 E3 度量来捕获正确性和计算效率之间的权衡。基于 BAM 的理论结果,我们提出了计划和预算,这是一个与模型无关的测试时间框架,它将复杂的查询分解为子问题,并使用自适应调度根据估计的复杂性分配 Token 预算。 Plan-and-Budget 提高了一系列任务和模型的推理效率,实现了高达 70% 的准确率提升、39% 的标记减少以及 E3 的 193.8% 改进。值得注意的是,它提高了较小模型 (DS-Qwen-32B) 的效率,以匹配较大模型 (DS-LLaMA-70B) 的效率,这证明了 Plan-and-Budget 无需重新训练即可缩小性能差距的能力。我们的代码可以在这个 https URL 上找到 ...

0 0 0 0 2026/03/12 arXiv:2505.16122v3 nrc

本文提出了 SimCSE,这是一个简单的对比学习框架,它极大地推进了最先进的句子嵌入。我们首先描述一种无监督方法,该方法采用输入句子并在对比目标中预测自身,仅使用标准 dropout 作为噪声。这种简单的方法效果出人意料地好,与之前的监督方法相当。我们发现 dropout 起到了最小的数据增强作用,删除它会导致表示崩溃。然后,我们提出了一种监督方法,通过使用“蕴涵”对作为正例,使用“矛盾”对作为硬负例,将自然语言推理数据集中的注释对合并到我们的对比学习框架中。我们在标准语义文本相似性(STS)任务上评估 SimCSE,我们使用 BERT 基础的无监督和监督模型平均分别达到 76.3% 和 81.6% Spearman 相关性,与之前的最佳结果相比分别提高了 4.2% 和 2.2%。我们还从理论上和经验上表明,对比学习目标将预训练的嵌入的各向异性空间正则化,使其更加均匀,并且当监督信号可用时,它可以更好地对齐正对 ...

0 0 0 0 2026/03/12 arXiv:2104.08821v4 baohuawu

检索增强生成(RAG)方法通过有效过滤 LLM 的相关上下文、减少幻觉和推理成本来增强 LLM 的性能。然而,大多数现有的 RAG 方法侧重于单步检索,这通常不足以回答需要多步搜索的复杂问题。最近,出现了多步检索方法,通常涉及小型 LLM 的微调来执行多步检索。这种类型的微调是高度资源密集型的,并且无法使用更大的 LLM 。在这项工作中,我们提出了 Q-RAG,这是一种使用强化学习 (RL) 微调 Embedder 模型以进行多步骤检索的新颖方法。 Q-RAG 为开放域问答的现有多步检索方法提供了一种有竞争力的、资源高效的替代方案,并在流行的长上下文基准 Babilong 和 RULER 上针对高达 10M 个 Token 的上下文实现了最先进的结果 ...

0 0 0 0 2026/03/12 arXiv:2511.07328v1 hxh123

我们提出了 DuoMo,一种生成方法,可以从带有噪声或不完整观察的无约束视频中恢复世界空间坐标中的人体运动。重建这种运动需要解决一个基本的权衡:从多样化和嘈杂的视频输入中进行概括,同时保持全局运动一致性。我们的方法通过将运动学习分解为两个扩散模型来解决这个问题。相机空间模型首先估计相机坐标中视频的运动。然后,世界空间模型将这个初始估计提升到世界坐标中,并将其细化为全局一致。这两个模型一起可以重建不同场景和轨迹的运动,即使是在高噪声或不完整的观察中也是如此。此外,我们的公式是通用的,直接生成网格顶点的运动并绕过参数模型。 DuoMo 实现了最先进的性能。在 EMDB 上,我们的方法在保持低脚滑行的同时,世界空间重建误差减少了 16%。在 RICH 上,它的世界空间误差降低了 30%。项目页面:此 https URL ...

0 0 0 0 2026/03/12 arXiv:2603.03265v1 happy

强化学习 (RL) 已成为推进现代大型语言模型 (LLM) 的关键,但现有的同步 RL 系统面临严重的性能瓶颈。部署阶段在端到端迭代时间中占主导地位,由于固有的工作负载不平衡,存在严重的长尾延迟和资源利用率低下的问题。我们提出了 Seer,一种新颖的在线上下文学习系统,它通过利用先前被忽视的输出长度和共享相同提示的请求之间的生成模式的相似性来解决这些挑战。 Seer 介绍了三种关键技术:动态负载平衡的分段推出、上下文感知调度和自适应分组推测解码。这些机制共同大大减少了长尾延迟并提高了部署期间的资源效率。对生产级 RL 工作负载的评估表明,与最先进的同步 RL 系统相比,Seer 将端到端推出吞吐量提高了 74% 至 97%,并将长尾延迟降低了 75% 至 93%,从而显着加速了 RL 训练迭代 ...

0 0 0 0 2026/03/12 arXiv:2511.14617v2 huaiop