随着平台的多样性和任务的复杂性不断增长,准确、高效和稳健的状态估计在机器人技术中比以往任何时候都更加重要。从历史上看,离散时间滤波器和平滑器一直是主要方法,其中估计变量是离散采样时间的状态。连续时间状态估计的范式提出了一种替代策略,通过估计将状态表示为时间的连续函数的变量,可以在任何查询时间对其进行评估。这不仅有利于规划和控制等下游任务,而且还显着提高了估计器的性能和灵活性,并降低了传感器预处理和接口的复杂性。尽管如此,连续时间方法仍然没有得到充分利用,可能是因为它们在机器人领域不太为人所知。为了解决这个问题,这项工作提出了这些方法的统一表述和迄今为止最详尽的文献综述,按方法、应用、状态变量、历史背景和对该领域的理论贡献对先前的工作进行系统分类。通过一起研究样条曲线和高斯过程,并将其他研究领域的工作置于背景下,这项工作识别和分析了连续时间状态估计中的开放问题,并提出了新的研究方向 ...
检索增强生成(RAG)虽然有效地整合外部知识来解决大型语言模型(LLM)的固有局限性,但可能会受到包含不相关、误导甚至恶意信息的不完善检索的阻碍。以前的研究很少通过联合分析将 RAG 的行为联系起来,特别是关于来自不完美检索的错误传播以及 LLM 内部知识与外部来源之间的潜在冲突。通过在现实条件下进行全面和受控的分析,我们发现不完美的检索增强是不可避免的、普遍的和有害的。我们将LLM内部和外部检索知识之间的知识冲突视为克服RAG检索后阶段不完善检索的瓶颈。为了解决这个问题,我们提出了 Astute RAG,这是一种新颖的 RAG 方法,旨在适应不完美的检索增强。它自适应地从 LLM 的内部知识中提取必要信息,通过源意识迭代整合内部和外部知识,并根据信息可靠性最终确定答案。我们与 Gemini 和 Claude 进行的实验证明,与之前的鲁棒性增强 RAG 方法相比,Astute RAG 具有卓越的性能。具体来说,Astute RAG 是唯一一种在最坏情况下其性能可与 LLM 的传统使用相媲美甚至超越的 RAG 方法。进一步分析揭示了Astute RAG在解决知识冲突方面的有效性,从而提高了RAG的可信度 ...
在本文中,我们比较了循环神经网络(RNN)中不同类型的循环单元。特别是,我们专注于实现门控机制的更复杂的单元,例如长短期记忆(LSTM)单元和最近提出的门控循环单元(GRU)。我们在复调音乐建模和语音信号建模任务中评估这些循环单元。我们的实验表明,这些先进的循环单元确实比更传统的循环单元(例如 tanh 单元)更好。此外,我们发现 GRU 与 LSTM 相当 ...
随着网络技术的发展,它们已经彻底改变了人们生活的各个方面。尽管网络非常重要,但执行的许多任务都是重复性且耗时的,对整体生活质量产生了负面影响。为了有效处理这些繁琐的日常任务,最有前途的方法之一是基于人工智能(AI)技术(称为AI代理商)的自主代理,因为它们可以在没有疲劳或性能降低的情况下连续运行 ...
面部情绪分析 (FEA) 通过结合可解释的细粒度推理来扩展传统的面部情绪识别。该任务集成了三个子任务:情绪识别、面部动作单元(AU)识别和基于 AU 的情绪推理来共同建模情感状态。虽然最近的方法利用视觉语言模型(VLM)并取得了有希望的结果,但它们面临两个关键的局限性:(1)幻觉推理,由于情感特定知识不足,VLM 生成看似合理但不准确的解释; (2)情感推理和识别之间的错位,是由观察到的面部特征和最终标签之间的零散连接引起的。我们提出了 Facial-R1,这是一个三阶段对齐框架,可以以最少的监督有效地解决这两个挑战。首先,我们采用指令微调来建立基本的情感推理能力。其次,我们引入了由情感和 AU 标签引导的强化训练作为奖励信号,它将生成的推理过程与预测的情感明确地对齐。第三,我们设计了一个数据合成管道,它迭代地利用先前阶段来扩展训练数据集,从而实现模型的可扩展自我改进。在此框架的基础上,我们引入了 FEA-20K,这是一个基准数据集,包含 17,737 个训练样本和 1,688 个测试样本,并带有细粒度的情感分析注释。跨越八个标准基准的大量实验表明,Facial-R1 在 FEA 中实现了最先进的性能,具有很强的泛化性和强大的可解释性 ...
随着大型语言模型 (LLM) 的最新进展,Agentic AI 在现实世界的应用中已经变得非凡,朝着多个基于 LLM 的代理进行感知、学习、推理和协作行动。这些基于 LLM 的多代理系统 (MAS) 使智能代理组能够大规模协调和集体解决复杂任务,从孤立的模型过渡到以协作为中心的方法。这项工作对 MAS 的协作方面进行了广泛的调查,并引入了一个可扩展的框架来指导未来的研究。我们的框架基于关键维度来描述协作机制:参与者(涉及的代理)、类型(例如合作、竞争或合作)、结构(例如点对点、集中式或分布式)、策略(例如基于角色或基于模型)和协调协议。通过对现有方法的回顾,我们的研究结果为揭开和推进基于 LLM 的 MAS 的基础,为复杂的现实世界用例提供更智能和协作的解决方案。此外,还调查了 MAS 在不同领域的各种应用,包括 5G/6G 网络、工业 5.0、问答以及社会和文化环境,展示了其更广泛的采用和更广泛的影响。最后,我们确定了 MAS 走向人工智能集体智能的关键经验教训、开放挑战和潜在研究方向 ...
本文提出了一种用于训练语音识别和翻译任务的序列到序列模型的新方法。我们建议对包含具有正确标点符号和大写字母的完整句子的较长话语进行训练,而不是在仅包含小写或部分标点符号和大写(PnC)句子的短片段上训练模型的传统方法。我们通过使用 FastConformer 架构来实现这一目标,该架构允许在全神贯注的情况下训练 10 亿个参数模型,序列长达 60 秒。然而,虽然使用 PnC 进行训练可以提高整体性能,但我们观察到,在各种评估设置中对超过 40 秒的序列进行训练时,准确性会趋于稳定。我们提出的方法显着提高了标点符号和大写的准确性,在 Earnings-21 和 Earnings-22 基准上显示相对单词错误率 (WER) 提高了 25%。此外,对较长音频片段的训练可以提高语音识别和翻译基准的整体模型准确性。模型权重和训练代码通过 NVIDIA NeMo 开源 ...
使用大型语言模型 (LLM) 自动代码生成的最新进展使我们更接近完全自动化的安全软件开发。然而,现有的方法通常依赖于单个代理来生成代码,这很难生成安全、无漏洞的代码。传统的 LLM 程序综合主要关注功能正确性,常常忽略运行时发生的关键动态安全影响。为了应对这些挑战,我们提出了 AutoSafeCoder,这是一个多代理框架,它利用 LLM 驱动的代理通过持续协作进行代码生成、漏洞分析和安全增强。该框架由三个代理组成:负责代码生成的编码代理、识别漏洞的静态分析器代理以及使用基于突变的模糊测试方法执行动态测试以检测运行时错误的模糊测试代理。我们的贡献重点是通过在 LLM 代码生成期间将动态和静态测试集成到迭代过程中来确保多代理代码生成的安全性,从而提高安全性。使用 SecurityEval 数据集的实验表明,与基线 LLM 相比,代码漏洞减少了 13%,且功能没有受到影响 ...
多模态融合很容易受到模态不平衡的影响,其中主导模态掩盖了弱模态,很容易导致有偏差的学习和次优融合,特别是在不完整的模态条件下。为了解决这个问题,我们提出了一个 Shapley 引导的交替训练框架,该框架自适应地优先考虑次要模式以平衡,从而增强融合。我们的方法利用基于 Shapley 值的调度来自适应地改进训练序列,确保未优化的模式获得足够的学习。此外,我们引入了内存模块来细化和继承特定于模态的表示,并使用跨模态映射机制来对齐特征和样本级别的特征。为了进一步验证所提出方法的适应性,编码器模块根据经验采用传统和基于 LLM 的主干。通过建立一种新颖的多模态平衡度量,即平衡偏差度量(EDM),我们评估了四个多模态基准数据集的平衡性和准确性性能,其中我们的方法实现了最先进的(SOTA)结果。同时,缺失模态下的稳健性分析凸显了其强大的泛化能力。因此,我们的研究结果揭示了交替训练尚未开发的潜力,表明战略模式优先顺序从根本上平衡和促进多模式学习,为优化多模式训练动态提供了新的范式 ...
自动驾驶中的 3D 对象检测旨在推理 3D 世界中感兴趣对象的“内容”和“位置”。遵循先前二维物体检测的传统智慧,现有方法通常采用具有垂直轴的规范笛卡尔坐标系。然而,我们认为这不符合自我汽车视角的本质,因为每个车载摄像头都以具有根(非垂直)轴的成像几何固有的楔形形状感知世界。因此,在本文中,我们提倡利用极坐标系,并提出一种新的极坐标变换器 (PolarFormer),以仅将多相机 2D 图像作为输入,在鸟瞰图 (BEV) 中进行更准确的 3D 对象检测。具体来说,我们设计了一种基于交叉注意力的 Polar 检测头,不受输入结构形状的限制,以处理不规则的 Polar 网格。为了解决沿 Polar 距离维度的无约束对象尺度变化,我们进一步引入了多尺度 Polar 表示学习策略。因此,我们的模型可以通过在几何约束下以序列到序列的方式关注相应的图像观察来充分利用栅格化的极地表示。对 nuScenes 数据集的彻底实验表明,我们的 PolarFormer 明显优于最先进的 3D 对象检测替代方案 ...