强化学习在增强大型语言模型的推理能力方面表现出潜力,但在推出阶段由于样本效率较低而难以扩展。现有方法试图通过根据问题难点来调度问题来提高效率。然而,这些方法对问题难度的估计不稳定且有偏差,并且无法捕捉强化学习训练中模型能力和问题难度之间的一致性,从而导致结果不理想。为了解决这些限制,本文引入了 $\textbf{C}$ompetence-$\textbf{D}$ifficulty $\textbf{A}$lignment $\textbf{S}$ampling ($\textbf{CDAS}$),它可以通过聚合问题的历史性能差异来准确、稳定地估计问题难度。然后,使用定点系统对模型能力进行量化,以自适应地选择其难度与模型当前能力一致的问题。一系列具有挑战性的数学基准的实验结果表明,CDAS 在准确性和效率方面都取得了巨大的进步。 CDAS 相对于基线获得了最高的平均准确度,并且与 DAPO 中的竞争策略动态采样相比表现出显着的速度优势,动态采样比 CDAS 慢 2.33 倍 ...
具有可验证奖励的强化学习(RLVR)已成为训练 LLM 代理的主流技术。然而,RLVR 高度依赖于精心设计的任务查询和相应的真实答案来提供准确的奖励,这需要大量的人力并阻碍 RL 流程的扩展,尤其是在代理场景中。尽管最近的一些工作探索了任务合成方法,但生成的代理任务的难度很难控制以提供有效的强化学习训练优势。为了实现具有更高可扩展性的代理 RLVR,我们探索了深度搜索代理的自玩训练,其中学习 LLM 利用多轮搜索引擎调用,并同时充当任务提议者和问题解决者。任务提议者的目标是生成具有明确定义的真实答案的深度搜索查询并增加任务难度。问题解决器尝试处理生成的搜索查询并输出正确的答案预测。为了确保每个生成的搜索查询具有准确的地面事实,我们从提议者的轨迹中收集所有搜索结果作为外部知识,然后进行检索增强生成(RAG)以测试所提供的所有必要搜索文档是否可以正确回答所提出的查询。在这个搜索自我博弈(SSP)游戏中,提议者和求解者通过竞争和合作共同进化他们的代理能力。通过大量的实验结果,我们发现 SSP 可以在从头开始和连续 RL 训练设置下无需任何监督的情况下,在各种基准上统一显着提高搜索代理的性能。代码位于此 https URL ...
Web 代理越来越多地被部署来在真实的 Web 环境中执行复杂的任务,但它们的安全评估仍然分散且难以标准化。我们推出了 WebTrap Park,这是一个自动化平台,通过直接观察 Web 代理与实时网页的具体交互来系统地评估 Web 代理的安全性。 WebTrap Park 将三个主要安全风险源实例化为 1,226 个可执行评估任务,并无需修改代理即可实现基于操作的评估。我们的结果揭示了代理框架之间明显的安全差异,突出了代理架构超越底层模型的重要性。 WebTrap Park 可通过此 https URL 公开访问,并为可重复的 Web 代理安全评估提供可扩展的基础 ...
本文强调了大型语言模型中个性化的重要性,并介绍了 LaMP 基准——一种用于训练和评估语言模型以生成个性化输出的新颖基准。 LaMP 提供了一个全面的评估框架,其中包含不同的语言任务以及针对每个用户配置文件的多个条目。它由七个个性化任务组成,涵盖三个文本分类和四个文本生成任务。我们还提出了两种检索增强方法,从每个用户配置文件中检索个人项目,以个性化语言模型输出。为此,我们研究了各种检索模型,包括术语匹配、语义匹配和时间感知方法。针对零样本和微调语言模型的 LaMP 进行了大量实验,证明了所提出的检索增强方法的有效性,并强调了个性化在各种自然语言任务中的影响 ...
我们推出了 STEP3-VL-10B,这是一种轻量级开源基础模型,旨在重新定义紧凑效率和前沿级多模态智能之间的权衡。 STEP3-VL-10B是通过两个战略转变来实现的:首先,在1.2T多模态 Token 上采用统一的、完全解冻的预训练策略,将语言对齐的感知编码器与Qwen3-8B解码器集成在一起,以建立内在的视觉语言协同作用;其次,一个规模化的训练后管道,具有超过 1000 次强化学习迭代。至关重要的是,我们实现了并行协调推理(PaCoRe)来扩展测试时计算,将资源分配给可扩展的感知推理,以探索和综合不同的视觉假设。因此,尽管 STEP3-VL-10B 占用空间紧凑,但 STEP3-VL-10B 可以与大 10$\times$-20$\times$ 的型号(例如 GLM-4.6V-106B、Qwen3-VL-235B)以及 Gemini 2.5 Pro 和 Seed-1.5-VL 等顶级专有旗舰产品相媲美或超越。它提供了一流的性能,在 MMBench 上得分为 92.2%,在 MMMU 上得分为 80.11%,同时在复杂推理方面表现出色,在 AIME2025 上得分为 94.43%,在 MathVision 上得分为 75.95%。我们发布了完整的模型套件,为社区提供强大、高效且可重复的基线 ...
机器学习和图形分析应用程序等重要工作负载大量涉及稀疏线性代数运算。这些操作使用稀疏矩阵压缩作为避免存储零和对零元素执行不必要的计算的有效手段。然而,如今广泛使用的压缩稀疏行 (CSR) 等压缩技术会引入大量指令开销和昂贵的指针追踪操作来发现非零元素的位置。在本文中,我们将非零元素的位置(即索引)发现视为基于稀疏矩阵的工作负载的关键瓶颈,这大大降低了压缩的好处。我们提出了 SMASH,一种软硬件协作机制,可以实现稀疏矩阵的高效索引和存储。 SMASH 的关键思想是显式地使硬件能够识别和利用数据的稀疏性。为此,我们设计了一种基于位图层次结构的新颖软件编码。这种编码可用于有效地压缩任何稀疏矩阵,无论稀疏性的程度和结构如何。同时,位图编码可以由硬件直接解释。我们设计了一个轻量级硬件单元,位图管理单元(BMU),它缓冲和扫描位图层次结构以执行稀疏矩阵的高效索引。 SMASH 公开了一个富有表现力且丰富的 ISA 来与 BMU 进行通信,这使其能够用于加速任何稀疏矩阵计算。我们在四个用例上展示了 SMASH 的优势,其中包括稀疏矩阵内核和图形分析应用程序 ...
大语言模型 (LLM) 个性化旨在根据个人用户的历史交互来定制模型行为。然而,它的有效性常常受到两个关键挑战的阻碍:\textit{冷启动问题},即历史记录有限的用户无法为准确的个性化提供足够的上下文;以及\textit{偏差问题},即具有丰富但倾斜历史记录的用户导致模型过度拟合狭窄的偏好。我们将这两个问题视为共同的潜在限制的症状,即无法对用户之间的集体知识进行建模。为了解决这个问题,我们提出了一种局部-全局记忆框架(LoGo),它将个性化局部记忆与捕捉整个人群共同兴趣的集体全局记忆结合起来。为了协调这两个内存源之间的差异,我们引入了一个调解器模块,旨在解决本地信号和全局信号之间的冲突。对多个基准的大量实验表明,LoGo 通过预热冷启动用户和减少有偏见的预测,持续提高个性化质量。这些结果凸显了整合集体知识以增强 LLM 个性化的重要性 ...
星际文件系统(IPFS)是一种点对点分布式文件系统,旨在将所有计算设备与同一文件系统连接起来。在某些方面,IPFS 与 Web 类似,但 IPFS 可以被视为单个 BitTorrent 群,在一个 Git 存储库中交换对象。换句话说,IPFS 提供了一种高吞吐量的内容寻址块存储模型,具有内容寻址超链接。这形成了广义的 Merkle DAG,这是一种可以构建版本化文件系统、区块链甚至永久网络的数据结构。 IPFS 结合了分布式哈希表、激励性块交换和自认证命名空间。 IPFS没有单点故障,节点之间不需要相互信任 ...
近年来,大型语言模型(LLM)取得了巨大的成功,实现了广泛的应用,包括支持用户日常生活和工作的智能助手。构建此类助手的一个关键因素是 LLM 的个性化,因为用户的偏好和需求差异很大。激活引导直接利用 LLM 激活空间中代表用户偏好的方向来调整其行为,提供了一种经济有效的方法来使模型的输出与个人用户保持一致。然而,现有的方法依赖于所有历史数据来计算引导向量,忽略了并非所有内容都反映真实的用户偏好,这破坏了个性化信号。为了解决这个问题,我们提出了 SteerX,一种分离的转向方法,它将偏好驱动的组件与偏好无关的组件隔离开来。 SteerX 以因果推理理论为基础,估计 Token 级别的因果效应,以识别偏好驱动的 Token ,将这些离散信号转换为连贯的描述,然后利用它们来引导个性化的 LLM 生成。通过关注真正偏好驱动的信息,SteerX 可以生成更准确的激活引导向量并增强个性化。在现实世界数据集中对两种代表性转向骨干方法进行的实验表明,SteerX 持续增强了转向矢量质量,为更有效的 LLM 个性化提供了实用的解决方案 ...
表面参数化在众多计算机图形和几何处理应用中起着至关重要的作用。传统的参数化方法是为专门的3D建模人员辛苦创建的高质量网格而设计的,因此无法满足当前普通3D数据爆炸式增长的处理需求。此外,它们的工作机制通常仅限于某些简单的拓扑,因此依赖于繁琐的手动工作(例如表面切割、零件分割)进行预处理。在本文中,我们介绍了 Flatten Anything Model (FAM),这是一种无监督神经架构,通过学习目标几何表面上的 3D 点与 2D 参数域内自适应变形 UV 坐标之间的逐点映射来实现全局自由边界表面参数化。为了模仿实际的物理过程,我们巧妙地构建了具有表面切割、UV变形、展开和包裹等特定功能的几何可解释子网络,并将其组装成双向循环映射框架。与之前的方法相比,我们的FAM直接对离散表面点进行操作,无需利用连通性信息,从而大大降低了对网格质量的严格要求,甚至适用于非结构化点云数据。更重要的是,我们的 FAM 是全自动的,无需预切割,并且可以处理高度复杂的拓扑,因为它的学习过程自适应地找到合理的切割缝和 UV 边界。大量的实验证明了我们提出的神经表面参数化范式的普遍性、优越性和启发潜力。我们的代码可以在这个 https URL 上找到 ...