基于大型语言模型 (LLM) 的代理越来越多地在高风险环境中采用,但当前的基准测试主要评估任务是否完成,而不是如何完成。我们引入了过程感知评估(PAE),这是一个框架,它将代理程序形式化为结构化观察,并揭示代理观察、通信和执行之间的一致性关系。 PAE 沿着互补轴(效用、效率、交互质量、程序完整性)评估代理,并应用多维门控来明确取消腐败结果。在 tau 工作台上评估最先进的 LLM 代理可以得出轴、合规性和基准水平的结果。在轴级别,维度捕获非冗余故障模式:实用性掩盖了可靠性差距,速度并不意味着精度,简洁性并不预示意图的遵守。在程序合规层面,27-78% 的基准报告成功案例是腐败成功案例,掩盖了互动和诚信方面的违规行为。此外,门控会大幅降低通过^4 率并影响模型排名。对腐败成功案例的分析揭示了每个模型独特的失败特征:GPT-5 将错误分散到政策、执行和意图维度; Kimi-K2-Thinking将78%的违规行为集中在政策忠实度和合规性方面; Mistral-Large-3 则以忠诚失败为主。在基准测试层面,我们的分析暴露了基准测试设计中的结构性缺陷,包括任务范围差距、相互矛盾的奖励信号以及产生意外成功的模拟器工件 ...
深度研究代理的评估是一项严峻的挑战,因为传统的基于结果的指标无法捕捉其复杂推理的细微差别。当前的评估面临两个主要挑战:1)依赖像Pass@1这样的单一指标,造成“高分错觉”,忽略了推理过程的质量、效率和健全性; 2)静态基准测试未能量化鲁棒性和潜在能力等关键属性。为了解决这些差距,我们引入了 TRACE(轨迹感知综合评估),这是一个全面评估整个问题解决轨迹的框架。为了对抗“高分错觉”,我们提出了一种分层轨迹效用函数,该函数可以量化过程效率和认知质量,包括证据基础和准确性。为了衡量更深层次的属性,TRACE 引入了脚手架能力评估协议,通过确定成功所需的最低指导来量化代理的潜在能力。我们的贡献包括 TRACE 框架、其新颖的指标以及附带的具有可控复杂性的 DeepResearch-Bench。实验表明,TRACE 提供了精细的排名,揭示了单一指标完全忽略的代理准确性、效率和稳健性之间的关键权衡 ...
我们解决了运行时轨迹异常检测的问题,这是启用值得信赖的 LLM 代理的关键功能。当前的安全措施主要集中在静态输入/输出过滤。 However, we argue that ensuring LLM agents reliability requires auditing the intermediate execution process.在这项工作中,我们制定了轨迹异常检测的任务。目标不仅仅是检测,而是精确的错误定位。此功能对于实现高效的回滚和重试至关重要。为了实现这一目标,我们构建了 TrajBench,这是一个通过扰动和完整策略合成的数据集,以涵盖各种程序异常。使用这个基准,我们研究了模型在过程监督中的能力。我们观察到,通用的 LLM ,即使有零样本提示,也很难识别和定位这些异常。这表明通用能力不会自动转化为过程可靠性。为了解决这个问题,我们提出了 TrajAD,这是一种接受过细粒度流程监督培训的专业验证者。我们的方法优于基线,表明专门的监督对于建立值得信赖的代理至关重要 ...
一致的姿势驱动的角色动画在单角色场景中取得了显着的进步。然而,将这些进步扩展到多角色设置并非易事,特别是在涉及位置交换时。除了单纯的缩放之外,核心挑战还在于在参考帧和生成帧中的角色之间强制执行正确的身份对应(IC)。为了解决这个问题,我们推出了EverybodyDance,这是一个针对多角色动画中 IC 正确性的系统解决方案。 EverybodyDance 围绕身份匹配图 (IMG) 构建,它将生成帧和参考帧中的角色建模为加权完整二分图中的两个节点集。通过我们提出的掩模查询注意力(MQA)计算的边缘权重量化每对字符之间的亲和力。我们的主要见解是将 IC 正确性形式化为图结构指标,并在训练期间对其进行优化。我们还提出了一系列针对多角色动画量身定制的针对性策略,包括身份嵌入指导、多尺度匹配策略和预分类采样,这些策略协同作用。最后,为了评估 IC 性能,我们策划了身份对应评估基准,致力于多字符 IC 的正确性。大量实验表明,EverybodyDance 在 IC 和视觉保真度方面均远远优于最先进的基线 ...
听觉、视觉和视听语音识别(分别为 ASR、VSR 和 AVSR)的研究传统上都是独立进行的。即使最近同时解决两个或所有三个任务的自我监督研究也往往会产生单独的模型,导致不相交的推理管道,增加内存需求和冗余。本文提出了这些系统的统一训练策略。我们证明,为所有三项任务训练单个模型可以增强 VSR 和 AVSR 性能,克服从头开始训练时的典型优化挑战。此外,我们引入了一种贪婪的伪标记方法来更有效地利用未标记的样本,解决相关自监督方法的缺点。最后,我们在我们的框架内开发了一种自我监督的预训练方法,并证明了其与我们的半监督方法的有效性。尽管对所有任务使用单一模型,但与 ASR、VSR 和 AVSR 的 LRS3 和 LRS2 以及新发布的 WildVSR 数据集上的最新方法相比,我们的统一方法实现了最先进的性能。代码和模型可从此 https URL 获取 ...
键值 (KV) 缓存在加速基于 Transformer 的自回归大语言模型 (LLM) 的解码方面发挥着至关重要的作用。然而,在长序列长度和大批量大小时,存储 KV 缓存所需的内存量可能会变得过高。自从 Transformer 发明以来,减少 KV 缓存大小的两个最有效的干预措施是多查询注意(MQA)及其泛化,分组查询注意(GQA)。 MQA 和 GQA 都修改了注意力块的设计,以便多个查询头可以共享单个键/值头,从而大大减少了不同键/值头的数量,同时仅最小程度地降低了准确性。在本文中,我们表明可以通过在相邻层之间共享键和值头来进一步推进多查询注意力,从而产生一种新的注意力设计,我们称之为跨层注意力(CLA)。使用 CLA,我们发现可以将 KV 缓存的大小再减少 2 倍,同时保持与未修改的 MQA 几乎相同的精度。在从头开始训练 1B 和 3B 参数模型的实验中,我们证明 CLA 相对于传统 MQA 可能实现的内存/准确性权衡提供了帕累托改进,从而能够进行比其他方式更长的序列长度和更大的批量大小的推理 ...
最先进的视频生成模型可以产生有前景的视觉内容,但往往违反基本物理原理,限制了它们的实用性。虽然有些人将这种缺陷归因于预训练的物理理解不足,但我们发现物理合理性的不足也源于次优的推理策略。因此,我们引入 WMReward 并将提高视频生成的物理合理性视为推理时间对齐问题。特别是,我们利用潜在世界模型(此处为 VJEPA-2)的强大物理先验作为搜索和引导多个候选去噪轨迹的奖励,从而能够扩展测试时间计算以获得更好的生成性能。根据经验,我们的方法大大提高了图像条件、多帧条件和文本条件生成设置的物理合理性,并得到了人类偏好研究的验证。值得注意的是,在ICCV 2025感知测试PhysicsIQ挑战赛中,我们取得了62.64%的最终成绩,获得第一名,比之前的最佳水平高出7.42%。我们的工作证明了使用潜在世界模型来提高视频生成的物理合理性的可行性,超越了这种特定的实例化或参数化 ...
扩散 Transformer (DiT) 已成为生成高质量图像和视频的事实上的选择,这主要是由于其可扩展性,可以构建更大的模型以增强性能。然而,这些模型尺寸的增加导致推理成本更高,从而使其对实时应用程序的吸引力降低。我们提出了快速前向缓存 (FORA),这是一种简单而有效的方法,旨在通过利用扩散过程的重复性来加速 DiT。 FORA 实现了一种缓存机制,可以跨去噪步骤存储和重用注意力层和 MLP 层的中间输出,从而减少计算开销。这种方法不需要模型重新训练,并且与现有的基于 Transformer 的扩散模型无缝集成。实验表明,FORA 可以将扩散 Transformer 加速数倍,同时对 IS 分数和 FID 等性能指标的影响极小。通过以最小的质量权衡实现更快的处理速度,FORA 代表了为实时应用部署扩散 Transformer 的重大进步。代码将在以下位置公开发布:此 https URL ...
毫米波(mmWave)和太赫兹(THz)通信系统采用大型天线阵列来保证足够的接收信号功率。然而,调整这些天线阵列的窄波束通常会产生高波束训练开销,该开销随着天线数量的增加而增加。最近提出的视觉辅助波束预测解决方案利用基站捕获的 \textit{原始 RGB 图像}来预测最佳波束,已显示出初步有希望的结果。然而,它们仍然具有相当大的计算复杂性,限制了它们在现实世界中的采用。为了应对这些挑战,本文重点开发和比较从视觉数据中提取轻量级语义信息的各种方法。结果表明,与之前提出的视觉辅助解决方案相比,所提出的解决方案可以显着降低计算要求,同时实现类似的光束预测精度 ...
传统中医 (TCM) 中的隐喻表达非常丰富,通过文化丰富且通常抽象的术语来传达复杂的疾病机制和整体健康概念。将这些隐喻与解剖学驱动的西方医学 (WM) 概念联系起来,给自动化语言处理和现实世界的临床实践带来了重大挑战。为了解决这一差距,我们提出了一种新颖的多主体和思想链(CoT)框架,旨在准确解释中医隐喻并将其映射到 WM 病理生理学。具体来说,我们的方法将领域专业代理(TCM 专家、WM 专家)与协调代理相结合,利用逐步的思想链提示来确保透明的推理和冲突解决。我们详细介绍了构建隐喻丰富的中医数据集的方法,讨论了有效整合多主体协作和 CoT 推理的策略,并阐明了指导跨不同医学范式的隐喻解释的理论基础。我们提出了一个全面的系统设计,并强调了我们方法的潜在好处和局限性,同时为未来的实验验证留下了占位符。我们的工作旨在支持临床决策、跨系统教育计划和综合医疗保健研究,最终为协调中医的符号语言与西医的机械焦点提供一个强大的支架 ...