本文介绍了 VLN-Pilot,这是一种新颖的框架,其中大型视觉和语言模型(VLLM)承担了室内无人机导航人类飞行员的角色。通过利用 VLLM 的多模态推理能力,VLN-Pilot 可以解释自由形式的自然语言指令,并将其基于视觉观察,以在 GPS 拒绝的室内环境中规划和执行无人机轨迹。与传统的基于规则或几何路径规划方法不同,我们的框架将语言驱动的语义理解与视觉感知相结合,以最少的特定任务工程实现上下文感知的高级飞行行为。 VLN-Pilot 通过推理空间关系、避障以及对不可预见事件的动态反应,支持无人机完全自主地执行指令。我们在定制的真实感室内模拟基准上验证了我们的框架,并展示了 VLLM 驱动的代理在复杂的指令跟踪任务(包括具有多个语义目标的长视野导航)上实现高成功率的能力。实验结果凸显了用语言引导的自主代理取代远程无人机飞行员的前景,为在检查、搜索和救援以及设施监控等任务中对室内无人机进行可扩展、人性化的控制开辟了途径。我们的结果表明,基于 VLLM 的飞行员可以显着减少操作员的工作量,同时提高受限室内环境中的安全性和任务灵活性 ...
随着空中平台从被动观察者发展为主动操纵者,挑战转向设计直观的界面,使非专家用户能够自然地指挥这些系统。这项工作引入了自主空中操纵系统的新颖概念,该系统能够解释高级自然语言命令以检索物体并将其传递给人类用户。该系统旨在将基于 Grounding DINO 和视觉语言动作 (VLA) 模型的 MediaPipe 与配备 1-DOF 夹具和英特尔实感 RGB-D 摄像头的定制无人机集成。 VLA 执行语义推理来解释用户提示的意图,并生成优先级任务队列以掌握场景中的相关对象。接地 DINO 和动态 A* 规划算法用于导航和安全地重新定位物体。为了确保切换阶段安全、自然的交互,系统采用了由 MediaPipe 驱动的以人为本的控制器。该模块提供实时人体姿态估计,使无人机能够利用视觉伺服技术在用户正前方保持稳定、清晰的位置,从而实现舒适的交接。我们通过现实世界的定位和导航实验证明了该系统的有效性,最大误差、平均欧氏误差和均方根误差分别为 0.164m、0.070m 和 0.084m,凸显了 VLA 用于空中操纵操作的可行性 ...
自主检查系统对于确保工业资产的性能和寿命至关重要。最近,代理框架已经展示了自动化检查工作流程的巨大潜力,但仅限于数字任务。然而,它们在现实环境中物理资产的应用仍未得到充分探索。在这项工作中,我们的贡献有两个:首先,我们提出了一个用于自主无人机控制的分层代理框架,第二,我们将其称为 ReActEval 的单个函数执行的推理方法。我们的框架侧重于室内工业环境中的视觉检查任务,例如解释工业读数或检查设备。它采用多代理系统,包括一个头代理和多个工作代理,每个代理控制一架无人机。头代理执行高级规划并评估结果,而工作代理则实施 ReActEval 来推理并执行低级操作。 ReActEval 完全以自然语言运行,遵循计划、推理、行动、评估周期,使无人机能够处理从简单导航(例如,向前飞行 10 米并着陆)到复杂的高级任务(例如,定位和读取压力表)的任务。评估阶段充当反馈和/或重新规划阶段,确保操作符合用户目标,同时防止出现不良结果。我们在具有两个工作代理的模拟环境中评估该框架,根据不同复杂程度和工作流程效率的任务完成情况定性和定量评估性能。通过利用自然语言处理进行代理通信,我们的方法为传统的基于无人机的解决方案提供了一种新颖、灵活且用户可访问的替代方案,无需大量用户干预即可自主解决工业检查问题 ...
能够在非结构化环境中解释和执行高级语言指令的自主无人机仍然是一个长期目标。然而,现有方法受到对手工技能、大量参数调整或不适合船上使用的计算密集型模型的依赖的限制。我们推出了 GRaD-Nav++,这是一种轻量级视觉-语言-动作 (VLA) 框架,完全在机载上运行并实时遵循自然语言命令。我们的策略通过可微强化学习 (DiffRL) 在逼真的 3D 高斯泼溅 (3DGS) 模拟器中进行训练,从而能够从视觉和语言输入中高效学习低级控制。其核心是专家混合 (MoE) 行动头,它自适应地路由计算以提高泛化能力,同时减少遗忘。在多任务泛化实验中,GRaD-Nav++ 在经过训练的任务上实现了 83% 的成功率,在模拟中未见过的任务上实现了 75% 的成功率。当部署在真实硬件上时,它在经过训练的任务上取得了 67% 的成功率,在未见过的任务上取得了 50% 的成功率。在多环境适应实验中,GRaD-Nav++ 在不同的模拟环境中实现了 81% 的平均成功率,在不同的现实世界设置中实现了 67% 的平均成功率。这些结果为完全机载视觉-语言-动作(VLA)飞行建立了新的基准,并证明紧凑、高效的模型可以在不依赖外部基础设施的情况下实现可靠的语言引导导航 ...
无监督域适应(UDA)是现实世界视觉系统中的一个关键挑战,特别是在无人机等资源受限的环境中,其中内存和计算都有限。现有的提示驱动 UDA 方法通常依赖于大型视觉语言模型,并且需要在适应过程中完全访问源域数据,从而限制了其适用性。在这项工作中,我们提出了 Prmpt2Adpt,这是一种轻量级且高效的零样本域适应框架,围绕基于提示的特征对齐指导的师生范式构建。我们方法的核心是经过提炼和微调的 CLIP 模型,用作 Faster R-CNN 教师的冻结骨干。一小组低级源功能与目标域语义(仅通过自然语言提示指定)对齐,通过提示驱动的实例规范化 (PIN)。这些语义引导的特征用于简要微调教师模型的检测头。然后,适应后的教师会生成高质量的伪标签,指导紧凑学生模型的动态适应。 MDS-A 数据集上的实验表明,与最先进的方法相比,Prmpt2Adpt 实现了具有竞争力的检测性能,同时使用少量源图像将自适应速度提高了 7 倍,推理速度提高了 5 倍,使其成为低资源领域实时自适应的实用且可扩展的解决方案 ...
人们对大型语言模型 (LLM) 产生不准确输出(也称为幻觉)倾向的担忧不断升级。检测它们对于确保依赖 LLM 生成内容的应用程序的可靠性至关重要。当前的方法通常需要大量资源并依赖于广泛的 LLM 或采用具有多维特征的监督学习或难以重现的复杂语言和语义分析,并且在很大程度上依赖于使用与幻觉相同的 LLM 。本文介绍了一种监督学习方法,采用两个简单的分类器,仅利用从其他 LLM 评估器获得的标记和词汇概率导出的四个数字特征,这些特征不一定相同。该方法产生了有希望的结果,在三个不同基准的多个任务中超越了最先进的结果。此外,我们还对我们方法的优点和缺点进行了全面检查,强调了所使用的功能和聘用 LLM 作为评估者的重要性。我们已在此 https URL 公开发布了我们的代码 ...
生成逼真的3D城市是世界模型、虚拟现实和游戏开发的基础,理想的城市场景必须满足风格多样性、细粒度和可控性。然而,现有的方法很难平衡基于文本的生成提供的创造性灵活性与显式结构表示实现的对象级可编辑性。我们介绍 MajutsuCity,这是一种自然语言驱动且具有美学适应性的框架,用于合成结构一致且风格多样的 3D 城市场景。 MajutsuCity 将城市描述为可控布局、资产和材料的组合,并通过四阶段管道运营。为了将可控性扩展到初始生成之外,我们进一步集成了 MajutsuAgent,这是一种基于交互式语言的编辑代理,支持五种对象级操作。为了支持逼真和可定制的场景合成,我们还构建了 MajutsuDataset,这是一个高质量的多模式数据集},其中包含 2D 语义布局和高度图、各种 3D 建筑资源以及精心策划的 PBR 材质和天空盒,每个都附有详细的注释。同时,我们制定了一套实用的评估指标,涵盖结构一致性、场景复杂性、材质保真度、灯光氛围等关键维度。大量实验表明,MajutsuCity 与 CityDreamer 相比,布局 FID 减少了 83.7%,比 CityCraft 减少了 20.1%。我们的方法在所有 AQS 和 RDR 分数中排名第一,明显优于现有方法。这些结果证实 MajutsuCity 是 3D 城市生成的几何保真度、风格适应性和语义可控性方面的最新技术。我们期望我们的框架能够激发 3D 城市生成的新研究途径。我们的项目页面:这个 https URL ...
检索增强一代 (RAG) 在处理冗长、结构化的财务文件时遇到了困难,因为相关证据很少且相互引用。本文对先进的元数据驱动的检索增强生成 (RAG) 技术进行了系统研究,提出并评估了一种利用 LLM 生成的元数据的新颖的多阶段 RAG 架构。我们引入了复杂的索引管道来创建上下文丰富的文档块,并对一系列增强功能进行基准测试,包括检索前过滤、检索后重新排名和丰富的嵌入,以 FinanceBench 数据集为基准。我们的结果表明,虽然强大的重新排序器对于精度至关重要,但最显着的性能提升来自直接将块元数据嵌入文本(“上下文块”)。我们提出的最佳架构将 LLM 驱动的预检索优化与这些上下文嵌入相结合,以实现卓越的性能。此外,我们还提供了一个自定义元数据重新排序器,它为商业解决方案提供了一种引人注目的、经济高效的替代方案,强调了峰值性能和运营效率之间的实际权衡。这项研究为构建用于财务文档分析的强大的、元数据感知的 RAG 系统提供了蓝图 ...
随着大型语言模型 (LLM) 的金融应用受到关注,准确的信息检索 (IR) 对于可靠的人工智能服务仍然至关重要。然而,现有的基准无法捕捉现实银行场景中复杂且特定领域的信息需求。构建特定领域的 IR 基准成本高昂,并且受到使用真实客户数据的法律限制。为了应对这些挑战,我们提出了一种通过基于 LLM 的查询生成来构建特定领域 IR 基准的系统方法。作为该方法的具体实现,我们的管道将单文档和多文档查询生成与增强的推理增强的可回答性评估方法相结合,与先前的方法相比,实现了与人类判断更强的一致性。使用这种方法,我们构建了 KoBankIR,其中包含源自 204 份官方银行文件的 815 个查询。我们的实验表明,现有的检索模型难以应对 KoBankIR 中复杂的多文档查询,这证明了我们的系统方法对于特定领域基准构建的价值,并强调了改进金融领域检索技术的必要性 ...
检索增强生成 (RAG) 的最新进展使大型语言模型能够使用美国 SEC 文件、收益报告和监管文件的外部知识库来回答财务问题。然而,现有的工作缺乏针对金融文档的基于向量和非向量 RAG 架构的系统比较,并且先进的 RAG 技术对检索准确性、答案质量、延迟和成本的实证影响仍不清楚。我们提出了第一个系统评估,将使用混合搜索和元数据过滤的基于向量的代理 RAG 与在没有嵌入的情况下遍历文档结构的基于分层节点的系统进行比较。我们评估了应用于基于向量的架构的两种增强技术,i)跨编码器重新排名以提高检索精度,ii)从小到大块检索以提高上下文完整性。在 150 个问题基准上的 1,200 份 SEC 10-K、10-Q 和 8-K 文件中,我们测量检索指标(MRR、Recall@5),通过 LLM 作为法官的成对比较、延迟和预处理成本来衡量答案质量。基于矢量的代理 RAG 比具有相当延迟(5.2 秒与 5.98 秒)的基于分层节点的系统实现了 68% 的胜率。跨编码器重排序在 MRR@5 的最佳参数 (10, 5) 上实现了 59% 的绝对改进。从小到大检索比基线分块实现了 65% 的获胜率,并且仅增加了 0.2 秒的延迟。我们的研究结果表明,将先进的 RAG 技术应用于金融问答系统可以提高检索准确性、答案质量,并且在生产中需要考虑成本性能权衡 ...