扩散和流动匹配模型已成为强大的机器人策略,使视觉-语言-动作(VLA)模型能够泛化到不同的场景和指令。然而,当通过模仿学习进行训练时,它们的高生成能力使它们对人类演示中的噪音敏感:抽动、停顿和抖动,这些都会降低动作的连贯性。动作一致性的降低会导致部署过程中的不稳定和轨迹漂移,这在精度至关重要的细粒度操作中会造成灾难性的故障。在本文中,我们提出了 VLA 模型的动作连贯性指导(ACG),这是一种无需训练的测试时指导算法,可以提高动作连贯性,从而提高性能。经过对 RoboCasa、DexMimicGen 和现实世界 SO-101 任务的评估,ACG 不断提高动作连贯性并提高各种操作任务的成功率。代码和项目页面分别可在此 https URL 和此 https URL 获取 ...
语音感知大语言模型(LLM)可以接受语音输入,但它们的训练目标主要强调语言内容或特定领域,例如情感或说话者的性别,因此不清楚它们是否对说话者身份进行编码。首先,我们提出了一种与模型无关的评分协议,使用来自“是/否”标记概率的置信度分数或对数似然比,为纯 API 模型和开放权重模型生成连续验证分数。使用该协议,我们对最近的语音感知 LLM 进行了基准测试,并观察了较弱的说话者辨别能力(VoxCeleb1 上的 EER 高于 20%)。其次,我们引入了一种轻量级增强,通过学习投影注入冻结的 ECAPA-TDNN 扬声器嵌入并仅训练 LoRA 适配器,为 LLM 配备 ASV 功能。在 TinyLLaMA-1.1B 上,生成的 ECAPA-LLM 在 VoxCeleb1-E 上实现了 1.03% 的 EER,接近专用说话人验证系统,同时保留了自然语言界面 ...
深度残差网络的有效性取决于身份快捷连接。虽然这种机制缓解了梯度消失问题,但它对特征转换也有严格的加性归纳偏差,限制了网络模拟复杂隐藏状态转换的能力。在本文中,我们引入了 \textbf{Deep Delta Learning (DDL)},它将从固定恒等映射到可学习的、依赖于状态的线性算子的捷径推广。生成的 Delta 算子是恒等式的 1 阶扰动 $\mathbf{A}(\mathbf{X}) = \mathbf{I}- \beta(\mathbf{X})\mathbf{k} (\mathbf{X}) \mathbf{k} (\mathbf{X})^\top$,由单位方向参数化$\mathbf{k}(\mathbf{X})$ 和标量门 $\beta(\mathbf{X})$。我们提供的谱分析显示 $\beta(\mathbf{X})$ 连续插值身份 ($\beta=0$)、正交投影 ($\beta=1$) 和 Householder 反射 ($\beta=2$) 之间的捷径。此外,我们将残差更新重写为同步的rank-1增量写入:$\beta$既可缩放当前$\mathbf{k}$组件的删除,也可缩放新$\mathbf{k}$组件的注入。这种统一使得能够沿着数据相关方向对捷径谱进行显式控制,同时保持稳定的训练行为。根据经验,用 DDL 替换 Transformer 残差添加可以改善验证损失和困惑度,以及语言建模任务的下游评估准确性,并在扩展状态设置中获得更大的收益 ...
最近的视觉-语言-动作(VLA)模型通过数百万个机器人演示进行调整,重新构建了视觉-语言模型。虽然它们在针对单个实施例或任务系列进行微调时表现良好,但将它们扩展到多技能设置仍然具有挑战性:直接合并受过不同任务训练的 VLA 专家会导致成功率接近于零。这就提出了一个基本问题:是什么阻止 VLA 在一个模型中掌握多种技能?通过在 VLA 微调期间对可学习参数进行经验分解,我们确定了不可合并性的两个关键来源:(1)微调驱动 VLM 主干中的 LoRA 适配器朝着不同的、特定于任务的方向发展,超出了现有合并方法的统一能力。 (2)行动专家通过自注意力反馈形成块间依赖关系,导致任务信息跨层传播并防止模块重组。为了应对这些挑战,我们提出了 MergeVLA,这是一种面向合并的 VLA 架构,通过设计保留了可合并性。 MergeVLA 通过任务掩码引入稀疏激活的 LoRA 适配器,以保留一致的参数并减少 VLM 中不可调和的冲突。其行动专家用仅交叉注意的块取代了自注意,以保持专业化的本地化和可组合性。当任务未知时,它使用测试时任务路由器从初始观察中自适应地选择适当的任务掩码和专家头,从而实现无监督任务推理。在 LIBERO、LIBERO-Plus、RoboTwin 和真实 SO101 机械臂上的多任务实验中,MergeVLA 实现了与单独微调的专家相当甚至超过的性能,展示了跨任务、实施例和环境的强大泛化能力。项目页面:此 https URL ...
在这项工作中,我们提出了知识模块学习(KML)来理解和推理需要模型来学习结构化和组合程序知识的程序任务。 KML 是一种神经符号框架,它将知识图谱中的关系类别学习为神经知识模块,并将它们组合成由大型语言模型 (LLM) 生成的可执行推理程序。每个模块都编码一个特定的过程关系,捕获每个实体类型(例如工具)如何与步骤、每个工具的目的以及每个任务的步骤相关。给定一个以视频中显示的任务为条件的问题,KML 将通过透明、可追踪的中间状态执行多步推理。我们的理论分析证明了 KML 的两个所需属性。 KML 满足将知识图谱关系建模为神经映射的强最优条件,为可推广的过程推理提供了坚实的基础。它还显示了执行多步推理时预期错误的界限。为了评估该模型,我们通过集成 COIN 教学视频数据集、COIN 本体、ConceptNet 的常识关系以及 LLM 的结构化提取,构建了一个由不同教学领域组成的大型程序知识图(PKG),然后进行专家验证。然后,我们通过在 PKG 上应用图遍历模板来生成问题和答案对,构建用于程序知识推理的 PKR-QA 基准。实验表明,KML 提高了结构化推理性能,同时提供可解释的逐步跟踪,优于纯 LLM 和黑盒神经基线。代码可通过此 https URL 公开获取 ...
通过明确的、可操作的里程碑来衡量任务进度对于稳健的机器人操作至关重要。这种进度意识使模型能够确定其当前的任务状态,预测可验证的中间状态,并在进度停滞时检测故障并从故障中恢复。为了体现这种能力,我们引入了“查看、计划、倒带”(SPR),这是一种进度感知的视觉-语言-动作框架,可动态地将语言指令转化为一系列空间子目标。 SPR 通过连续的核心循环进行操作,查看当前状态和即将到来的里程碑,规划通往下一个 2D 航点的轨迹,并通过根据预期序列监控进度,在发生故障时回退到可恢复状态。这种闭环方法可以实现强大的纠错,而不需要额外的训练数据或辅助模型。大量实验证明了该框架的有效性、泛化性和鲁棒性:SPR 在 LIBERO 基准上比 MolmoAct 基准高出 5%。在具有看不见的指令和初始状态的具有挑战性的 LIBERO-Plus 基准上,SPR 以最小的性能下降实现了最先进的鲁棒性,超越了 OpenVLA-OFT 和 UniVLA,展示了卓越的分布外鲁棒性 ...
基于大语言模型(LLM)的多智能体系统已经成为使自主智能体能够解决复杂任务的强大范例。随着这些系统复杂性的增加,成本成为实际部署的一个重要考虑因素。然而,现有的工作很少涉及如何在明确的预算约束下构建多智能体系统。在本文中,我们提出了 BAMAS,这是一种构建具有预算意识的多智能体系统的新方法。 BAMAS 首先通过制定和解决平衡性能和成本的整数线性规划问题来选择一组最佳的 LLM。然后,它通过利用基于强化学习的方法来选择交互拓扑来确定这些 LLM 应如何进行协作。最后,系统根据所选代理及其协作拓扑进行实例化和执行。我们在三个代表性任务上评估 BAMAS,并将其与最先进的代理构建方法进行比较。结果表明,BAMAS 实现了可比的性能,同时成本降低了高达 86% ...
在高维欧几里德空间中搜索近似最近邻(ANN)是一个关键问题。最近,借助基于 SIMD 的快速实现,乘积量化 (PQ) 及其变体通常可以高效、准确地估计向量之间的距离,并在内存中 ANN 搜索中取得了巨大成功。尽管它们在实证上取得了成功,但我们注意到这些方法没有理论误差界限,并且观察到在一些现实世界的数据集上会灾难性地失败。受此启发,我们提出了一种名为 RaBitQ 的新随机量化方法,它将 $D$ 维向量量化为 $D$ 位字符串。 RaBitQ 保证了尖锐的理论误差范围,同时提供了良好的经验准确性。此外,我们还引入了 RaBitQ 的高效实现,支持使用按位运算或基于 SIMD 的运算来估计距离。对现实世界数据集的大量实验证实,(1)我们的方法在准确性-效率权衡方面明显优于 PQ 及其变体,(2)其实证表现与我们的理论分析非常一致 ...
现有的工业异常检测方法主要集中于使用原始 RGB 图像的无监督学习。然而,RGB 和 3D 数据对于异常检测都至关重要,并且在实际场景中数据集很少是完全干净的。为了解决上述挑战,本文首先深入研究了 RGB-3D 多模态噪声异常检测,提出了一种新颖的抗噪声 M3DM-NR 框架,以利用 CLIP 强大的多模态判别能力。 M3DM-NR由三个阶段组成:第一阶段引入可疑参考选择模块,使用初始特征提取提取的多模态特征,从训练数据集中过滤一些正常样本;可疑异常图计算模块,生成可疑异常图,重点关注异常区域作为参考。 Stage-II以参考样本的疑似异常图为参考,输入图像、点云和文本信息,通过模内比较和多尺度聚合操作实现训练样本的去噪。最后,第三阶段提出了点特征对齐、无监督特征融合、噪声判别核心集选择和决策层融合模块来学习训练数据集的模式,从而在滤除噪声的同时实现异常检测和分割。大量实验表明,M3DM-NR 在 3D-RGB 多模态噪声异常检测方面优于最先进的方法 ...
虽然训练后压缩技术有效地减少了大型语言模型 (LLM) 的内存占用、延迟和功耗,但它们通常会导致明显的精度下降,并且仍然受到限制支持的压缩格式的硬件和内核约束的限制,最终降低了各种部署场景的灵活性。在这项工作中,我们提出了 EoRA - 一种新颖的 $\textbf{fine-tuning-free}$ 方法,它用低秩矩阵增强压缩的 LLM,允许用户快速增强特定任务的性能,并超越压缩格式的限制,自由地平衡准确性和计算开销之间的权衡。 EoRA 在恢复压缩 LLM 的准确性方面始终优于先前的免微调低秩方法,实现了显着的准确性改进(例如,ARC-Challenge 上的 $\mathbf{10.84\%}$、MathQA 上的 $\mathbf{6.74\%}$ 以及压缩为 LLaMA3-8B 的 GSM8K 上的 $\mathbf{11.45\%}$ 3 位)。我们还引入了优化的 CUDA 内核,将推理速度提高了 1.4 倍,并通过量化 EoRA 减少了内存开销。总体而言,EoRA 提供了一个及时的解决方案,可在不同的用户需求下提高压缩模型的准确性,从而实现 LLM 更高效、更灵活的部署。代码可从此 https URL 获取 ...