用于视频生成的组相对策略优化 (GRPO) 方法(例如 FlowGRPO)仍然远不如语言模型和图像的对应方法可靠。出现这种差距的原因是视频生成具有复杂的解决方案空间,并且用于探索的 ODE 到 SDE 转换可能会注入过多的噪声,降低推出质量并使奖励估计不太可靠,从而破坏训练后对齐的稳定性。为了解决这个问题,我们将预训练模型视为定义有效的视频数据流形,并将核心问题表述为限制该流形附近的探索,确保保留推出质量并且奖励估计保持可靠。我们提出了 SAGE-GRPO(通过探索实现稳定对齐),它在微观和宏观层面都施加了约束。在微观层面,我们推导出具有对数曲率校正的精确流形感知 SDE,并引入梯度范数均衡器来稳定跨时间步长的采样和更新。在宏观层面,我们使用具有周期性移动锚和逐步约束的双重信任区域,以便信任区域跟踪更接近流形的检查点并限制长范围漂移。我们使用原始 VideoAlign 作为奖励模型在 HunyuanVideo1.5 上评估 SAGE-GRPO,并在 VQ、MQ、TA 和视觉指标(CLIPScore、PickScore)方面观察到与之前的方法相比一致的增益,在奖励最大化和整体视频质量方面表现出卓越的性能。代码和视觉库可从此 https URL 获取 ...
确保稳健和公平的面试评估仍然是人工智能驱动评估的一个关键挑战。本文介绍了 CoMAI,这是一种专为不同评估场景而设计的通用多智能体面试框架。与基于大型语言模型 (LLM) 的整体单代理系统相比,CoMAI 采用通过集中式有限状态机协调的模块化任务分解架构。该系统由四个专门负责问题生成、安全、评分和摘要的代理组成。这些代理协同工作,提供针对即时注入的多层安全防御,支持具有自适应难度调整的多维评估,并实现基于量规的结构化评分,减少主观偏见。实验结果表明,CoMAI 的准确率达到 90.47%,召回率达到 83.33%,候选人满意度达到 84.41%。这些结果凸显了 CoMAI 作为人工智能驱动的面试评估的稳健、公平和可解释的范例 ...
基于大语言模型 (LLM) 的多智能体系统 (MAS) 在解决复杂任务方面表现出了卓越的能力,但其有效性在很大程度上取决于协调智能体交互的底层通信拓扑。在这些系统中,成功解决问题通常需要特定于任务的小组结构来划分和克服子任务。然而,大多数现有方法以以节点为中心的方式生成通信拓扑,使组结构从本地连接决策中隐式出现,而不是显式地对其进行建模,这通常会导致次优协调和不必要的通信开销。为了解决这个限制,我们提出了 GoAgent(代理组),这是一种通信拓扑生成方法,明确将协作组视为 MAS 构建的原子单元。具体来说,GoAgent首先通过LLM枚举与任务相关的候选组,然后自回归选择并连接这些组作为原子单元以构建最终的通信图,共同捕获组内凝聚力和组间协调。为了减轻扩展拓扑中固有的通信冗余和噪声传播,我们进一步引入了条件信息瓶颈(CIB)目标,该目标可以压缩组间通信,保留与任务相关的信号,同时滤除冗余的历史噪声。对六个基准的广泛实验证明了 GoAgent 的最先进性能,平均准确度为 93.84%,同时减少了约 17% 的 Token 消耗 ...
大型语言模型 (LLM) 是现代自然语言处理的核心,可在各种任务中提供卓越的性能。然而,它们大量的计算和内存需求带来了挑战,特别是对于 DRAM 容量有限的设备。本文通过将模型参数存储在闪存中,但按需将它们传送到 DRAM,解决了高效运行超出可用 DRAM 容量的 LLM 的挑战。我们的方法涉及构建一个考虑闪存特性的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量以及以更大、更连续的块读取数据。在这个硬件知情的框架内,我们介绍了两种主要技术。首先,“窗口化”通过重用先前激活的神经元来战略性地减少数据传输,其次,针对闪存的顺序数据访问优势定制的“行列捆绑”增加了从闪存读取的数据块的大小。这些方法共同支持运行高达可用 DRAM 大小两倍的模型,与 CPU 和 GPU 中的简单加载方法相比,推理速度分别提高了 4-5 倍和 20-25 倍。我们将稀疏性意识、上下文自适应加载和面向硬件的设计集成在一起,为在内存有限的设备上有效推理 LLM 铺平了道路 ...
多变量时间序列预测方法可以整合外生变量的信息,从而显着提高预测精度。 Transformer 架构由于其捕获长程顺序依赖关系的能力,已广泛应用于各种时间序列预测模型。然而, Transformer 的简单应用通常很难有效地模拟变量之间随时间变化的复杂关系。为了缓解这个问题,我们提出了一种新颖的架构,即谱算子神经网络(Sonnet)。 Sonnet 将可学习的小波变换应用于输入,并使用 Koopman 算子进行频谱分析。其预测能力依赖于多变量相干注意力(MVCA),这是一种利用谱相干性来建模变量依赖性的操作。我们的实证分析表明,在 47 美元的预测任务中,Sonnet 在 34 美元上取得了最佳性能,与最具竞争力的基线(每个任务不同)相比,平均绝对误差 (MAE) 降低了 1.1\%$。我们进一步表明,当 MVCA 取代各种深度学习模型中使用的朴素注意力时,可以弥补其缺陷,在最具挑战性的预测任务中平均将 MAE 降低 10.7%$ ...
代理强化学习 (RL) 已成为云集群中的变革性工作负载,使大型语言模型 (LLM) 能够通过与现实世界的交互来解决复杂问题。然而,与传统强化学习不同,代理强化学习需要大量外部云资源,例如用于代码执行的 CPU 和用于奖励模型的 GPU,这些资源存在于主训练集群之外。现有的代理强化学习框架通常依赖于静态过度配置,即资源通常与长期轨迹相关或被任务隔离,这导致严重的资源效率低下。我们提出了行动级编排,并将其纳入ARL-Tangram,这是一个统一的资源管理系统,可实现细粒度的外部资源共享和弹性。 ARL-Tangram 利用统一的动作级公式和弹性调度算法来最小化动作完成时间(ACT),同时满足异构资源约束。此外,异构资源管理器经过定制,可以有效地支持具有异构特征和拓扑的资源上的操作级执行。对现实世界代理强化学习任务的评估表明,ARL-Tangram 将平均 ACT 提高高达 4.3$\times$,将 RL 训练的步骤持续时间加快高达 1.5$\times$,并节省高达 71.2$\%$ 的外部资源。该系统已部署用于支持 MiMo 系列模型的训练 ...
开放集识别(OSR)问题旨在从不属于训练类的新语义类中识别测试样本,这一任务在许多实际场景中至关重要。然而,现有的 OSR 方法在应用损失函数之前对逻辑使用恒定的比例因子(温度),这阻碍了模型探索表示学习中的两端——从实例级到语义级特征。在本文中,我们通过使用一组提议的温度计划(包括我们新颖的负余弦计划)实现温度调制表示学习来解决这个问题。我们的温度计划允许模型在训练开始时通过关注较少的邻居来形成粗略的决策边界,并逐渐优先考虑更多的邻居以平滑粗糙的边缘。这种渐进的任务切换导致了更丰富、更通用的表示空间。虽然其他 OSR 方法通过包含正则化或辅助负样本(例如混合)而受益,从而增加了显着的计算开销,但我们的时间表可以折叠到任何现有的 OSR 损失函数中,而无需任何开销。我们使用交叉熵、对比和 ARPL 损失函数在许多基线之上实现了新颖的调度,并发现它在大多数情况下提高了 OSR 和封闭集性能,特别是在更严格的语义转换基准上。项目代码将可用 ...
大型语言模型 (LLM) 在各种推理基准上表现出色,但之前的研究表明,它们有时很难推广到未见过的问题,这可能是由于过度依赖记忆的训练示例。然而, LLM 在文本生成过程中在推理和记忆之间切换的确切条件仍不清楚。在这项工作中,我们通过识别模型残余流中控制真实推理和记忆回忆之间平衡的一组线性特征,提供了对 LLM 推理记忆动态的机械理解。这些特征不仅可以区分推理任务和内存密集型任务,还可以进行操作以因果性地影响推理任务的模型性能。此外,我们表明,干预这些推理功能有助于模型在答案生成过程中更准确地激活最相关的问题解决能力。我们的研究结果为 LLM 推理和记忆的基本机制提供了新的见解,并为开发更强大和可解释的生成人工智能系统铺平了道路 ...
有大量文献研究了大型语言模型 (LLM) 的数学推理能力,特别是它们在自回归架构中的精确算术运算上的性能。然而,它们在非正式、快节奏的数学运算中执行近似推理的能力受到的关注要少得多,特别是在非自回归解码器模型中。我们的工作通过引入 StreetMath 来解决这一差距,这是一个旨在评估模型在现实近似场景下的近似能力的基准。我们对不同的 LLM 架构进行了广泛的评估:Qwen3-4B-Instruct-2507、Qwen3-4B-Thinking-2507、Dream-v0-Instruct-7B、Falcon-Mamba-7B-Instruct 和 Mamba-GPT-3B。此外,我们应用机械可解释性技术来探测它们的内部计算状态。我们的分析表明, LLM 通常会尝试计算精确值或调用外部工具,即使在需要近似值的任务中也是如此。此外,虽然模型有时会在早期层或步骤中达到正确答案,但它们在解决近似任务时仍然会消耗更多标记。其他实验表明,精确和近似算术运算很大程度上依赖于独立的神经组件。根据认知心理学的研究,我们认为 LLM 不会像人类在街头数学环境中那样表现出认知吝啬。我们通过此 https URL 开源我们的工作 ...
理解神经网络的决策过程是机械可解释性的核心目标。在大型语言模型(LLM)的背景下,这涉及揭示底层机制并识别各个模型组件(例如神经元和注意力头)的作用,以及模型抽象,例如稀疏自编码器(SAE)提取的学习稀疏特征。快速增长的工作线通过使用强大的生成器模型为这些组件生成开放词汇、自然语言概念描述来应对这一挑战。在本文中,我们首次对模型组件和抽象的概念描述这一新兴领域进行了调查。我们绘制了生成这些描述的关键方法、用于评估它们的自动化和人工指标的不断发展的前景,以及支持这项研究的数据集。我们的综合表明,对更严格的因果评估的需求日益增长。通过概述最新技术并确定关键挑战,这项调查为未来研究提供了路线图,使模型更加透明 ...