LLM可以通过思想链(CoT)进行多步推理,但他们无法可靠地验证自己的逻辑。即使他们得出了正确的答案,潜在的推理也可能存在缺陷,从而破坏了对高风险场景的信任。为了缓解这个问题,我们引入了 VeriCoT,这是一种神经符号方法,可以从 CoT 推理中提取并验证形式逻辑论证。 VeriCoT 将每个 CoT 推理步骤形式化为一阶逻辑,并确定将论证建立在源上下文、常识知识或先验推理步骤中的前提。符号表示使自动求解器能够验证逻辑有效性,而 NL 前提允许人类和系统识别不合理或错误的推理步骤。在 ProofWriter、LegalBench 和 BioASQ 数据集上进行的实验表明,VeriCoT 可以有效识别有缺陷的推理,并可作为最终答案正确性的有力预测器。我们还利用 VeriCoT 的验证信号进行(1)推理时间自我反思,(2)对 VeriCoT 蒸馏数据集进行监督微调(SFT),以及(3)使用基于验证的成对奖励进行偏好微调(PFT)和直接偏好优化(DPO),进一步提高推理的有效性和准确性 ...
随着大型语言模型 (LLM) 的调整从简单的完成发展到复杂、高度复杂的生成,奖励模型越来越多地转向以标题为指导的评估,以减轻表面层面的偏差。然而,社区缺乏一个统一的基准来评估这种评估范式,因为现有的基准缺乏严格分析所需的判别复杂性和真实的标准注释。为了弥补这一差距,我们引入了 RubricBench,这是一个精心策划的基准,包含 1,147 项成对比较,专门用于评估基于 rubric 的评估的可靠性。我们的结构采用多维过滤管道来定位硬样本,这些样本具有细致入微的输入复杂性和误导性的表面偏差,并通过严格从指令导出的专家注释的原子规则来增强每个样本。综合实验揭示了人类注释的评分标准和模型生成的评分标准之间存在巨大的能力差距,这表明即使是最先进的模型也难以自主指定有效的评估标准,远远落后于人类指导的表现 ...
能够执行商业交易的自主人工智能代理的部署推动了基于授权的支付授权协议的采用,包括通用商业协议(UCP)和代理支付协议(AP2)。这些协议用加密发布的命令取代了交互式的、基于会话的授权,从而实现了异步和自主执行。虽然 AP2 通过签名验证、显式绑定和过期语义提供规范级保证,但现实世界的代理执行引入了运行时行为,例如重试、并发和编排,这些行为挑战了有关任务使用的隐式假设。在这项工作中,我们对 AP2 授权生命周期进行了安全分析,并确定了基于代理的支付系统运行时出现的执行差距。我们提出了一个零信任运行时验证框架,该框架使用动态生成的、有时限的随机数来强制执行显式上下文绑定和消费一次授权语义,确保授权决策在执行时评估,而不是从静态发布属性中假设。通过高并发下基于模拟的评估,我们表明上下文感知绑定和一次性执行可以解决不同且互补的攻击类别,并且两者都是防止重放和上下文重定向攻击所必需的。所提出的框架可以缓解所有评估的攻击,同时在高达每秒 10{,}000 个事务的吞吐量水平下保持大约 3.8~ms 的稳定验证延迟。我们进一步证明,所需的运行时状态受到峰值并发性而不是累积交易历史的限制,这表明可以以最小且可预测的开销实现代理支付执行的强大运行时安全性 ...
基于大语言模型 (LLM) 的代理越来越多地用于自动化金融交易,但它们对上下文推理的依赖使支付系统面临提示驱动的操纵。代理支付协议(AP2)旨在通过可加密验证的指令来确保代理主导的购买,但其实际稳健性仍未得到充分探索。在这项工作中,我们对 AP2 进行了人工智能红队评估,并识别了间接和直接提示注入产生的漏洞。我们介绍两种攻击技术,即 Branded Whisper Attack 和 Vault Whisper Attack,它们操纵产品排名并提取敏感用户数据。使用使用 Gemini-2.5-Flash 和 Google ADK 框架构建的功能性 AP2 购物代理,我们通过实验验证简单的对抗性提示可以可靠地颠覆代理行为。我们的研究结果揭示了当前代理支付架构的关键弱点,并强调了以 LLM 为中介的金融系统需要更强的隔离和防御保障措施 ...
随着“代理网络”的形成——数十亿人工智能代理(通常由 LLM 驱动)自主交易和协作——信任从人类监督转向协议设计。 2025 年,一些代理间协议具体化了这种转变,包括谷歌的代理到代理 (A2A)、代理支付协议 (AP2) 和以太坊的 ERC-8004“不信任代理”,但它们的基本信任假设仍未得到充分检验。本文对代理间协议设计中的信任模型进行了比较研究:Brief(自我或第三方可验证的声明)、Claim(自我声明的功能和身份,例如 AgentCard)、Proof(密码验证,包括零知识证明和可信执行环境证明)、Stake(带有削减和保险的抵押品)、Reputation(群体反馈和基于图形的信任信号)和 Constraint(沙箱和能力限制)。对于每一个,我们分析假设、攻击面和设计权衡,特别强调 LLM 特有的脆弱性——迅速注入、阿谀奉承/轻推——易感性、幻觉、欺骗和错位——这些使得纯粹的声誉或仅索赔的方法变得脆弱。我们的研究结果表明没有单一机制足以解决问题。我们主张以证明和权益为基础的默认去信任架构来控制高影响力的行动,并通过用于身份和发现的 Brief 以及用于灵活性和社交信号的声誉覆盖来增强。我们根据安全性、隐私性、延迟/成本和社会稳健性(抗女巫/共谋/洗白抵抗)等指标,对 A2A、AP2、ERC-8004 以及学术研究中的相关历史变化进行比较评估。最后,我们提出了混合信任模型建议,可以减轻声誉游戏和误导性的 LLM 行为,并提炼出可操作的设计指南,以实现更安全、可互操作和可扩展的代理经济 ...
多智能体路径查找 (MAPF) 是仓库自动化和多机器人协调应用中的 NP 难题。基于学习的 MAPF 求解器提供快速且可扩展的规划,但通常会产生包含不必要或振荡运动的可行轨迹。我们提出了 Judgelight,这是一个后优化层,可在 MAPF 求解器生成可行的时间表后提高轨迹质量。 Judgelight 会折叠特工轨迹中的封闭子路,以消除多余的运动,同时保留所有可行性约束。我们将这个过程形式化为 MAPF-Collapse,证明它是 NP 困难的,并通过将其表述为整数线性规划 (ILP) 问题来提出精确的优化方法。实验结果表明,Judgelight 持续将解决方案成本降低了约 20%,特别是对于基于学习的求解器,生成的轨迹更适合实际部署 ...
思想链 (CoT) 提示的最新进展极大地提高了大型语言模型 (LLM) 的推理能力,但也将其计算效率引入了新的攻击面。在本文中,我们提出了 BadThink,这是第一个后门攻击,旨在故意诱导启用 CoT 的 LLM 中的“过度思考”行为,同时确保隐秘性。当被精心设计的触发提示激活时,BadThink 会操纵模型生成夸大的推理轨迹 - 产生不必要的冗余思维过程,同时保持最终输出的一致性。这种微妙的攻击向量会造成一种隐蔽形式的性能下降,显着增加计算成本和推理时间,同时仍然难以通过传统的输出评估方法检测到。我们通过复杂的基于中毒的微调策略来实施这种攻击,采用一种新颖的基于 LLM 的迭代优化过程,通过生成高度自然的中毒数据来嵌入行为。我们对多个最先进的模型和推理任务进行的实验表明,BadThink 持续增加推理轨迹长度 - 在 MATH-500 数据集上实现超过 17 倍的增长 - 同时保持隐秘性和鲁棒性。这项工作揭示了一个先前未发现的关键漏洞,推理效率可以被秘密操纵,展示了针对支持 CoT 的系统的新型复杂攻击 ...
贝叶斯深度神经网络 (DNN) 可以提供一个数学基础框架来量化图像字幕模型预测的不确定性。我们提出了一种基于策略梯度的贝叶斯变体,用于图像字幕模型的强化学习训练技术,以直接优化不可微的图像字幕质量指标,例如 CIDEr-D。我们通过结合贝叶斯推理,扩展了著名的图像字幕模型自我批判序列训练 (SCST) 方法,并将其称为 B-SCST。 B-SCST 中策略梯度的“基线”是通过对从使用贝叶斯 DNN 模型获得的分布中提取的标题的预测质量度量 (CIDEr-D) 进行平均来生成的。我们使用蒙特卡罗 (MC) dropout 近似变分推断来推断此预测分布。我们表明,与 SCST 方法相比,B-SCST 提高了 Flickr30k、MS COCO 和 VizWiz 图像字幕数据集上的 CIDEr-D 分数。我们还提供了对预测字幕的不确定性量化的研究,并证明它与 CIDEr-D 分数密切相关。据我们所知,这是第一次此类分析,它可以提高图像字幕模型输出的可解释性,这对于实际应用至关重要 ...
尽管使用多架无人机(UAV)在快速自主探索方面具有巨大潜力,但它受到的关注却太少。在本文中,我们提出了 RACER,这是一种使用分散式无人机机队的快速协作探索方法。为了有效地调度无人机,使用了基于在线网格空间分解的成对交互。它确保所有无人机仅使用异步和有限的通信来同时探索不同的区域。此外,我们优化了未知空间的覆盖路径,并通过容量车辆路由问题(CVRP)公式来平衡分配给每个无人机的工作负载。根据任务分配,每架无人机不断更新覆盖路径并增量提取关键信息以支持勘探计划。分层规划器找到探索路径,提炼局部观点并按顺序生成最短时间轨迹,以敏捷、安全地探索未知空间。所提出的方法经过了广泛的评估,显示出较高的探索效率、可扩展性和对有限通信的鲁棒性。此外,我们首次在现实世界中实现了多无人机的完全去中心化协作探索。我们将以开源包的形式发布我们的实现 ...
使用工具的 LLM 代理通过根据文本可见的元数据(例如工具名称、描述和返回消息)选择和链接第三方工具,越来越多地协调实际工作负载。我们证明,这种便利性创造了一个供应链攻击面:恶意 MCP 工具服务器可以与普通工具共同注册,并引发过度思考循环,其中单独的琐碎或合理的工具调用组成循环轨迹,从而增加端到端 Token 和延迟,而没有任何单一步骤看起来异常。我们将其形式化为结构性过度思考攻击,与 Token 级冗长的攻击区分开来,并在三台服务器上实施 14 个恶意工具,这些工具会触发重复、强制细化和分散注意力。在异构注册表和多个支持工具的模型中,攻击会导致严重的资源放大(高达 142.4 美元\次$ Token ),并可能降低任务结果。最后,我们发现解码时间简洁控制并不能可靠地防止循环归纳,这表明防御措施应该推理工具调用结构而不是仅推理 Token ...