能够在非结构化环境中解释和执行高级语言指令的自主无人机仍然是一个长期目标。然而,现有方法受到对手工技能、大量参数调整或不适合船上使用的计算密集型模型的依赖的限制。我们推出了 GRaD-Nav++,这是一种轻量级视觉-语言-动作 (VLA) 框架,完全在机载上运行并实时遵循自然语言命令。我们的策略通过可微强化学习 (DiffRL) 在逼真的 3D 高斯泼溅 (3DGS) 模拟器中进行训练,从而能够从视觉和语言输入中高效学习低级控制。其核心是专家混合 (MoE) 行动头,它自适应地路由计算以提高泛化能力,同时减少遗忘。在多任务泛化实验中,GRaD-Nav++ 在经过训练的任务上实现了 83% 的成功率,在模拟中未见过的任务上实现了 75% 的成功率。当部署在真实硬件上时,它在经过训练的任务上取得了 67% 的成功率,在未见过的任务上取得了 50% 的成功率。在多环境适应实验中,GRaD-Nav++ 在不同的模拟环境中实现了 81% 的平均成功率,在不同的现实世界设置中实现了 67% 的平均成功率。这些结果为完全机载视觉-语言-动作(VLA)飞行建立了新的基准,并证明紧凑、高效的模型可以在不依赖外部基础设施的情况下实现可靠的语言引导导航 ...
无监督域适应(UDA)是现实世界视觉系统中的一个关键挑战,特别是在无人机等资源受限的环境中,其中内存和计算都有限。现有的提示驱动 UDA 方法通常依赖于大型视觉语言模型,并且需要在适应过程中完全访问源域数据,从而限制了其适用性。在这项工作中,我们提出了 Prmpt2Adpt,这是一种轻量级且高效的零样本域适应框架,围绕基于提示的特征对齐指导的师生范式构建。我们方法的核心是经过提炼和微调的 CLIP 模型,用作 Faster R-CNN 教师的冻结骨干。一小组低级源功能与目标域语义(仅通过自然语言提示指定)对齐,通过提示驱动的实例规范化 (PIN)。这些语义引导的特征用于简要微调教师模型的检测头。然后,适应后的教师会生成高质量的伪标签,指导紧凑学生模型的动态适应。 MDS-A 数据集上的实验表明,与最先进的方法相比,Prmpt2Adpt 实现了具有竞争力的检测性能,同时使用少量源图像将自适应速度提高了 7 倍,推理速度提高了 5 倍,使其成为低资源领域实时自适应的实用且可扩展的解决方案 ...
人们对大型语言模型 (LLM) 产生不准确输出(也称为幻觉)倾向的担忧不断升级。检测它们对于确保依赖 LLM 生成内容的应用程序的可靠性至关重要。当前的方法通常需要大量资源并依赖于广泛的 LLM 或采用具有多维特征的监督学习或难以重现的复杂语言和语义分析,并且在很大程度上依赖于使用与幻觉相同的 LLM 。本文介绍了一种监督学习方法,采用两个简单的分类器,仅利用从其他 LLM 评估器获得的标记和词汇概率导出的四个数字特征,这些特征不一定相同。该方法产生了有希望的结果,在三个不同基准的多个任务中超越了最先进的结果。此外,我们还对我们方法的优点和缺点进行了全面检查,强调了所使用的功能和聘用 LLM 作为评估者的重要性。我们已在此 https URL 公开发布了我们的代码 ...
生成逼真的3D城市是世界模型、虚拟现实和游戏开发的基础,理想的城市场景必须满足风格多样性、细粒度和可控性。然而,现有的方法很难平衡基于文本的生成提供的创造性灵活性与显式结构表示实现的对象级可编辑性。我们介绍 MajutsuCity,这是一种自然语言驱动且具有美学适应性的框架,用于合成结构一致且风格多样的 3D 城市场景。 MajutsuCity 将城市描述为可控布局、资产和材料的组合,并通过四阶段管道运营。为了将可控性扩展到初始生成之外,我们进一步集成了 MajutsuAgent,这是一种基于交互式语言的编辑代理,支持五种对象级操作。为了支持逼真和可定制的场景合成,我们还构建了 MajutsuDataset,这是一个高质量的多模式数据集},其中包含 2D 语义布局和高度图、各种 3D 建筑资源以及精心策划的 PBR 材质和天空盒,每个都附有详细的注释。同时,我们制定了一套实用的评估指标,涵盖结构一致性、场景复杂性、材质保真度、灯光氛围等关键维度。大量实验表明,MajutsuCity 与 CityDreamer 相比,布局 FID 减少了 83.7%,比 CityCraft 减少了 20.1%。我们的方法在所有 AQS 和 RDR 分数中排名第一,明显优于现有方法。这些结果证实 MajutsuCity 是 3D 城市生成的几何保真度、风格适应性和语义可控性方面的最新技术。我们期望我们的框架能够激发 3D 城市生成的新研究途径。我们的项目页面:这个 https URL ...
检索增强一代 (RAG) 在处理冗长、结构化的财务文件时遇到了困难,因为相关证据很少且相互引用。本文对先进的元数据驱动的检索增强生成 (RAG) 技术进行了系统研究,提出并评估了一种利用 LLM 生成的元数据的新颖的多阶段 RAG 架构。我们引入了复杂的索引管道来创建上下文丰富的文档块,并对一系列增强功能进行基准测试,包括检索前过滤、检索后重新排名和丰富的嵌入,以 FinanceBench 数据集为基准。我们的结果表明,虽然强大的重新排序器对于精度至关重要,但最显着的性能提升来自直接将块元数据嵌入文本(“上下文块”)。我们提出的最佳架构将 LLM 驱动的预检索优化与这些上下文嵌入相结合,以实现卓越的性能。此外,我们还提供了一个自定义元数据重新排序器,它为商业解决方案提供了一种引人注目的、经济高效的替代方案,强调了峰值性能和运营效率之间的实际权衡。这项研究为构建用于财务文档分析的强大的、元数据感知的 RAG 系统提供了蓝图 ...
随着大型语言模型 (LLM) 的金融应用受到关注,准确的信息检索 (IR) 对于可靠的人工智能服务仍然至关重要。然而,现有的基准无法捕捉现实银行场景中复杂且特定领域的信息需求。构建特定领域的 IR 基准成本高昂,并且受到使用真实客户数据的法律限制。为了应对这些挑战,我们提出了一种通过基于 LLM 的查询生成来构建特定领域 IR 基准的系统方法。作为该方法的具体实现,我们的管道将单文档和多文档查询生成与增强的推理增强的可回答性评估方法相结合,与先前的方法相比,实现了与人类判断更强的一致性。使用这种方法,我们构建了 KoBankIR,其中包含源自 204 份官方银行文件的 815 个查询。我们的实验表明,现有的检索模型难以应对 KoBankIR 中复杂的多文档查询,这证明了我们的系统方法对于特定领域基准构建的价值,并强调了改进金融领域检索技术的必要性 ...
检索增强生成 (RAG) 的最新进展使大型语言模型能够使用美国 SEC 文件、收益报告和监管文件的外部知识库来回答财务问题。然而,现有的工作缺乏针对金融文档的基于向量和非向量 RAG 架构的系统比较,并且先进的 RAG 技术对检索准确性、答案质量、延迟和成本的实证影响仍不清楚。我们提出了第一个系统评估,将使用混合搜索和元数据过滤的基于向量的代理 RAG 与在没有嵌入的情况下遍历文档结构的基于分层节点的系统进行比较。我们评估了应用于基于向量的架构的两种增强技术,i)跨编码器重新排名以提高检索精度,ii)从小到大块检索以提高上下文完整性。在 150 个问题基准上的 1,200 份 SEC 10-K、10-Q 和 8-K 文件中,我们测量检索指标(MRR、Recall@5),通过 LLM 作为法官的成对比较、延迟和预处理成本来衡量答案质量。基于矢量的代理 RAG 比具有相当延迟(5.2 秒与 5.98 秒)的基于分层节点的系统实现了 68% 的胜率。跨编码器重排序在 MRR@5 的最佳参数 (10, 5) 上实现了 59% 的绝对改进。从小到大检索比基线分块实现了 65% 的获胜率,并且仅增加了 0.2 秒的延迟。我们的研究结果表明,将先进的 RAG 技术应用于金融问答系统可以提高检索准确性、答案质量,并且在生产中需要考虑成本性能权衡 ...
最近的研究揭示了训练开源大型语言模型 (LLM) 的潜力,可以释放 LLM 的推理能力,从而增强视觉语言导航 (VLN) 性能,同时缩小 LLM 训练语料库和 VLN 任务之间的领域差距。然而,这些方法主要采用简单的输入输出映射范式,导致映射学习困难且导航决策无法解释。思想链 (CoT) 训练是提高导航决策准确性和可解释性的一种有前途的方法,而导航任务的复杂性使得完美的 CoT 标签不可用,并且可能通过纯 CoT 监督微调导致过度拟合。为了解决这些问题,我们提出了 EvolveNav,一种新颖的自我改进的体现推理范式,它实现了适应性和可泛化的导航推理,以促进基于 LLM 的视觉语言导航。具体来说,EvolveNav 涉及两个阶段的训练过程:(1)形式化 CoT 监督微调,我们使用精心设计的形式化 CoT 标签来训练模型,首先激活模型的导航推理能力,同时提高推理速度; (2)自我反思后训练,模型用自己的推理输出作为自我丰富的CoT标签进行迭代训练,以增强监督多样性。还设计了自我反思的辅助任务,以鼓励模型通过与错误的推理模式进行对比来学习正确的推理模式。特定任务和跨任务训练范例下的实验结果表明,在各种流行的基准(包括 R2R、REVERIE、CVDN 和 SOON)上,EvolveNav 始终优于之前基于 LLM 的 VLN 方法。代码可从此 https URL 获取 ...
信息几何可用于理解和优化大型强子对撞机的希格斯粒子测量。 Fisher 信息编码了给定实验的可观测值对模型参数的最大灵敏度。应用于更高维的算子,它定义了任何大型强子对撞机特征的新物理范围。我们计算了衰变成 tau 对和四个轻子的弱玻色子聚变中希格斯粒子产生的费希尔信息,以及与单个顶夸克相关的希格斯粒子产生的费希尔信息。在下一步中,我们分析差分信息如何分布在相空间上,这定义了最佳事件选择。相反,我们考虑运动学变量子集分布中的信息,显示哪些产生和衰减可观测值是最强大的,以及与完全多元的分析方法相比,传统的基于直方图的分析方法丢失了多少信息 ...
在超材料和增材制造 (AM) 技术的兴起的帮助下,拓扑优化 (TO) 在过去几十年中经历了巨大的发展,旨在应对当前和未来的挑战。在本文中,我们提出了三维 TO 算法的线性正交各向异性材料的扩展,该算法直接对某些分析域的有限元 (FE) 离散化的六个弹性属性(三个纵向模量和剪切模量,具有固定的三个泊松比)进行操作。通过对这些属性执行类似梯度下降的优化,应变能测量的标准偏差被最小化,从而得到优化的应变均匀化结构,在不同的材料方向上具有可变的纵向和剪切刚度。为此,针对该优化问题开发了具有两种方法的正交各向异性公式:直接或基于应变和互补或基于应力,正如该主题的先前工作所示,基于应力的效率更高。我们提出的主要优点是:(1)在各向同性材料之前使用正交各向异性材料,这使得设计空间增加了六倍,从而实现了更通用的优化过程;(2)与该领域广泛使用的其他方法(例如带有惩罚的固体各向同性材料(SIMP))相比,不需要施加任何约束(例如最大体积),所有这些都通过设置一个独特的超参数来实现。四种设计载荷工况的结果表明,该正交各向异性 TO 算法优于各向同性工况,无论是对于作为其扩展的类似算法,还是对于在 FE 商业软件中运行的 SIMP,都具有可比的计算成本。我们注意到它对于纯剪切或剪切控制的问题(例如扭转载荷)特别有效 ...