弱监督视频异常检测(WSVAD)具有挑战性,因为二进制异常标签仅在视频级别给出,但输出需要片段级别预测。因此,多实例学习(MIL)在 WSVAD 中盛行。然而,众所周知,MIL 会遭受许多误报,因为片段级检测器很容易偏向于具有简单上下文的异常片段,被具有相同偏差的正态片段所迷惑,并错过具有不同模式的异常。为此,我们提出了一个新的 MIL 框架:Unbiased MIL (UMIL),以学习改善 WSVAD 的无偏异常特征。在每次 MIL 训练迭代中,我们使用当前检测器将样本分为具有不同上下文偏差的两组:最置信的异常/正常片段和其余不明确的片段。然后,通过寻找两个样本组之间的不变特征,我们可以消除变量上下文偏差。对基准 UCF-Crime 和 TAD 进行的广泛实验证明了我们的 UMIL 的有效性。我们的代码在此 https URL 中提供 ...
虽然检索增强生成 (RAG) 可以减轻大型语言模型 (LLM) 中的幻觉和知识陈旧性,但现有框架在需要合成来自不同来源的信息的复杂、多跳查询时通常会出现问题。当前先进的 RAG 方法采用迭代或自适应策略,缺乏强大的机制来系统地识别和填补证据空白,经常传播噪音或无法收集全面的背景信息。我们引入了 FAIR-RAG,这是一种新颖的代理框架,它将标准 RAG 管道转变为动态的、证据驱动的推理过程。其核心是迭代细化周期,由我们称之为结构化证据评估(SEA)的模块控制。 SEA 充当分析门控机制:它将最初的查询解构为所需调查结果的清单,并审核汇总的证据以识别已确认的事实,以及至关重要的明确的信息差距。这些间隙向自适应查询细化代理提供精确的信号,该代理生成新的、有针对性的子查询来检索丢失的信息。这个循环不断重复,直到证据被证实足够,从而确保为最终的、严格忠实的一代提供全面的背景。我们对具有挑战性的多跳 QA 基准进行了实验,包括 HotpotQA、2WikiMultiHopQA 和 MusiQue。在统一的实验设置中,FAIR-RAG 的性能显着优于强基线。在 HotpotQA 上,它的 F1 分数为 0.453——比最强的迭代基线绝对提高了 8.3 分——在这些基准上为此类方法建立了新的最先进水平。我们的工作表明,具有明确差距分析的结构化、证据驱动的细化过程对于在高级 RAG 系统中针对复杂的知识密集型任务解锁可靠和准确的推理至关重要 ...
扩散和流动匹配模型已成为强大的机器人策略,使视觉-语言-动作(VLA)模型能够泛化到不同的场景和指令。然而,当通过模仿学习进行训练时,它们的高生成能力使它们对人类演示中的噪音敏感:抽动、停顿和抖动,这些都会降低动作的连贯性。动作一致性的降低会导致部署过程中的不稳定和轨迹漂移,这在精度至关重要的细粒度操作中会造成灾难性的故障。在本文中,我们提出了 VLA 模型的动作连贯性指导(ACG),这是一种无需训练的测试时指导算法,可以提高动作连贯性,从而提高性能。经过对 RoboCasa、DexMimicGen 和现实世界 SO-101 任务的评估,ACG 不断提高动作连贯性并提高各种操作任务的成功率。代码和项目页面分别可在此 https URL 和此 https URL 获取 ...
语音感知大语言模型(LLM)可以接受语音输入,但它们的训练目标主要强调语言内容或特定领域,例如情感或说话者的性别,因此不清楚它们是否对说话者身份进行编码。首先,我们提出了一种与模型无关的评分协议,使用来自“是/否”标记概率的置信度分数或对数似然比,为纯 API 模型和开放权重模型生成连续验证分数。使用该协议,我们对最近的语音感知 LLM 进行了基准测试,并观察了较弱的说话者辨别能力(VoxCeleb1 上的 EER 高于 20%)。其次,我们引入了一种轻量级增强,通过学习投影注入冻结的 ECAPA-TDNN 扬声器嵌入并仅训练 LoRA 适配器,为 LLM 配备 ASV 功能。在 TinyLLaMA-1.1B 上,生成的 ECAPA-LLM 在 VoxCeleb1-E 上实现了 1.03% 的 EER,接近专用说话人验证系统,同时保留了自然语言界面 ...
深度残差网络的有效性取决于身份快捷连接。虽然这种机制缓解了梯度消失问题,但它对特征转换也有严格的加性归纳偏差,限制了网络模拟复杂隐藏状态转换的能力。在本文中,我们引入了 \textbf{Deep Delta Learning (DDL)},它将从固定恒等映射到可学习的、依赖于状态的线性算子的捷径推广。生成的 Delta 算子是恒等式的 1 阶扰动 $\mathbf{A}(\mathbf{X}) = \mathbf{I}- \beta(\mathbf{X})\mathbf{k} (\mathbf{X}) \mathbf{k} (\mathbf{X})^\top$,由单位方向参数化$\mathbf{k}(\mathbf{X})$ 和标量门 $\beta(\mathbf{X})$。我们提供的谱分析显示 $\beta(\mathbf{X})$ 连续插值身份 ($\beta=0$)、正交投影 ($\beta=1$) 和 Householder 反射 ($\beta=2$) 之间的捷径。此外,我们将残差更新重写为同步的rank-1增量写入:$\beta$既可缩放当前$\mathbf{k}$组件的删除,也可缩放新$\mathbf{k}$组件的注入。这种统一使得能够沿着数据相关方向对捷径谱进行显式控制,同时保持稳定的训练行为。根据经验,用 DDL 替换 Transformer 残差添加可以改善验证损失和困惑度,以及语言建模任务的下游评估准确性,并在扩展状态设置中获得更大的收益 ...
最近的视觉-语言-动作(VLA)模型通过数百万个机器人演示进行调整,重新构建了视觉-语言模型。虽然它们在针对单个实施例或任务系列进行微调时表现良好,但将它们扩展到多技能设置仍然具有挑战性:直接合并受过不同任务训练的 VLA 专家会导致成功率接近于零。这就提出了一个基本问题:是什么阻止 VLA 在一个模型中掌握多种技能?通过在 VLA 微调期间对可学习参数进行经验分解,我们确定了不可合并性的两个关键来源:(1)微调驱动 VLM 主干中的 LoRA 适配器朝着不同的、特定于任务的方向发展,超出了现有合并方法的统一能力。 (2)行动专家通过自注意力反馈形成块间依赖关系,导致任务信息跨层传播并防止模块重组。为了应对这些挑战,我们提出了 MergeVLA,这是一种面向合并的 VLA 架构,通过设计保留了可合并性。 MergeVLA 通过任务掩码引入稀疏激活的 LoRA 适配器,以保留一致的参数并减少 VLM 中不可调和的冲突。其行动专家用仅交叉注意的块取代了自注意,以保持专业化的本地化和可组合性。当任务未知时,它使用测试时任务路由器从初始观察中自适应地选择适当的任务掩码和专家头,从而实现无监督任务推理。在 LIBERO、LIBERO-Plus、RoboTwin 和真实 SO101 机械臂上的多任务实验中,MergeVLA 实现了与单独微调的专家相当甚至超过的性能,展示了跨任务、实施例和环境的强大泛化能力。项目页面:此 https URL ...
在这项工作中,我们提出了知识模块学习(KML)来理解和推理需要模型来学习结构化和组合程序知识的程序任务。 KML 是一种神经符号框架,它将知识图谱中的关系类别学习为神经知识模块,并将它们组合成由大型语言模型 (LLM) 生成的可执行推理程序。每个模块都编码一个特定的过程关系,捕获每个实体类型(例如工具)如何与步骤、每个工具的目的以及每个任务的步骤相关。给定一个以视频中显示的任务为条件的问题,KML 将通过透明、可追踪的中间状态执行多步推理。我们的理论分析证明了 KML 的两个所需属性。 KML 满足将知识图谱关系建模为神经映射的强最优条件,为可推广的过程推理提供了坚实的基础。它还显示了执行多步推理时预期错误的界限。为了评估该模型,我们通过集成 COIN 教学视频数据集、COIN 本体、ConceptNet 的常识关系以及 LLM 的结构化提取,构建了一个由不同教学领域组成的大型程序知识图(PKG),然后进行专家验证。然后,我们通过在 PKG 上应用图遍历模板来生成问题和答案对,构建用于程序知识推理的 PKR-QA 基准。实验表明,KML 提高了结构化推理性能,同时提供可解释的逐步跟踪,优于纯 LLM 和黑盒神经基线。代码可通过此 https URL 公开获取 ...
通过明确的、可操作的里程碑来衡量任务进度对于稳健的机器人操作至关重要。这种进度意识使模型能够确定其当前的任务状态,预测可验证的中间状态,并在进度停滞时检测故障并从故障中恢复。为了体现这种能力,我们引入了“查看、计划、倒带”(SPR),这是一种进度感知的视觉-语言-动作框架,可动态地将语言指令转化为一系列空间子目标。 SPR 通过连续的核心循环进行操作,查看当前状态和即将到来的里程碑,规划通往下一个 2D 航点的轨迹,并通过根据预期序列监控进度,在发生故障时回退到可恢复状态。这种闭环方法可以实现强大的纠错,而不需要额外的训练数据或辅助模型。大量实验证明了该框架的有效性、泛化性和鲁棒性:SPR 在 LIBERO 基准上比 MolmoAct 基准高出 5%。在具有看不见的指令和初始状态的具有挑战性的 LIBERO-Plus 基准上,SPR 以最小的性能下降实现了最先进的鲁棒性,超越了 OpenVLA-OFT 和 UniVLA,展示了卓越的分布外鲁棒性 ...
基于大语言模型(LLM)的多智能体系统已经成为使自主智能体能够解决复杂任务的强大范例。随着这些系统复杂性的增加,成本成为实际部署的一个重要考虑因素。然而,现有的工作很少涉及如何在明确的预算约束下构建多智能体系统。在本文中,我们提出了 BAMAS,这是一种构建具有预算意识的多智能体系统的新方法。 BAMAS 首先通过制定和解决平衡性能和成本的整数线性规划问题来选择一组最佳的 LLM。然后,它通过利用基于强化学习的方法来选择交互拓扑来确定这些 LLM 应如何进行协作。最后,系统根据所选代理及其协作拓扑进行实例化和执行。我们在三个代表性任务上评估 BAMAS,并将其与最先进的代理构建方法进行比较。结果表明,BAMAS 实现了可比的性能,同时成本降低了高达 86% ...
在高维欧几里德空间中搜索近似最近邻(ANN)是一个关键问题。最近,借助基于 SIMD 的快速实现,乘积量化 (PQ) 及其变体通常可以高效、准确地估计向量之间的距离,并在内存中 ANN 搜索中取得了巨大成功。尽管它们在实证上取得了成功,但我们注意到这些方法没有理论误差界限,并且观察到在一些现实世界的数据集上会灾难性地失败。受此启发,我们提出了一种名为 RaBitQ 的新随机量化方法,它将 $D$ 维向量量化为 $D$ 位字符串。 RaBitQ 保证了尖锐的理论误差范围,同时提供了良好的经验准确性。此外,我们还引入了 RaBitQ 的高效实现,支持使用按位运算或基于 SIMD 的运算来估计距离。对现实世界数据集的大量实验证实,(1)我们的方法在准确性-效率权衡方面明显优于 PQ 及其变体,(2)其实证表现与我们的理论分析非常一致 ...