应用程序编程接口 (API) 在现代软件开发中至关重要。大型语言模型 (LLM) 有助于自动代码生成,但经常与 API 幻觉作斗争,包括在实际开发场景中调用不存在的 API 和滥用现有 API。现有的研究采用检索增强生成(RAG)方法来缓解幻觉问题,但往往会失败,因为它们通常忽略了实际项目中的结构依赖关系,并且没有真正验证生成的 API 是否可用。为了解决这些限制,我们提出了 MARIN,这是一个框架,用于减轻由具有层次依赖性感知的 LLM 生成的代码中的 API 幻觉。 MARIN 包含两个阶段:分层依赖关系挖掘,分析当前函数的本地和全局依赖关系,旨在补充 LLM 输入中的全面项目上下文;依赖关系约束解码,利用挖掘的依赖关系自适应地约束生成过程,旨在确保生成的 API 符合项目规范。为了方便评估 API 幻觉程度,我们引入了新的基准 APIHulBench 和两个新指标,包括微观幻觉数 (MiHN) 和宏观幻觉率 (MaHR)。对六位最先进的 LLM 进行的实验表明,MARIN 可以有效减少 API 幻觉,与 RAG 方法相比,MiHN 平均降低 67.52%,MaHR 平均降低 73.56%。应用于华为内部项目和两个专有的 LLM ,MARIN 在 MiHN 中平均降低了 57.33%,在 MaHR 中平均降低了 59.41% ...
大规模预训练和下游微调是迁移基于深度学习的模型的有效解决方案。由于微调所有可能的预训练模型的计算成本很高,因此我们的目标是以计算有效的方式预测这些预训练模型的可转移性性能。与之前为下游分类和分割任务寻找合适模型的工作不同,本文研究了预训练目标检测器的有效可转移性评估。为此,我们建立了一个检测器可转移性基准,其中包含大量经过预训练的检测器,这些检测器具有各种架构、源数据集和训练方案。给定这个动物园,我们采用来自 5 个不同领域的 7 个目标数据集作为下游目标任务进行评估。此外,我们建议在统一的框架中同时评估分类和回归子任务。此外,我们设计了一个补充指标来评估具有不同对象的任务。实验结果表明,我们的方法在评估不同目标域下的可转移性方面优于其他最先进的方法,同时有效地将挂钟时间减少 32$\times$,与所有预训练检测器的强力微调相比,仅需要 5.2\% 的内存占用 ...
大型语言模型 (LLM) 通过生成多步骤推理轨迹来解决复杂问题。然而,这些痕迹通常仅从两个角度之一进行分析:生成文本中不同推理步骤的标记序列,或一步内跨模型层的隐藏状态向量。我们引入了 PRISM(通过语义和隐式建模进行概率推理检查),这是一个用于联合分析两个级别的框架和诊断工具,提供推理如何跨步骤和层演变的统一视图。在多个推理模型和基准中,PRISM 揭示了推理过程中的系统模式,表明失败的轨迹更有可能陷入无效的验证循环中,并进一步分化为不同的模式,例如过度思考和过早承诺,一旦达到候选答案,它们的行为就会有所不同。它进一步揭示了提示如何通过改变语义转换和内部计算模式来重塑超越总体准确性的推理行为。通过将推理轨迹建模为结构化过程,PRISM 使这些行为可观察和可分析,而不是仅仅依赖于最终任务的准确性。总而言之,这些见解使 PRISM 成为分析和诊断 LLM 推理过程的实用工具 ...
红外小目标检测(ISTD)在广泛的民用和军事应用中发挥着至关重要的作用。现有方法在密集杂波环境下的昏暗目标定位和轮廓信息感知方面存在缺陷,严重限制了其检测性能。为了解决这些问题,我们为 ISTD 提出了一个轮廓感知和显着性先验嵌入网络(CSPENet)。我们首先设计了一个环绕收敛先验提取模块(SCPEM),它有效地捕获目标轮廓像素梯度向其中心收敛的固有特征。该模块同时提取两个协作先验:用于精确目标定位的增强显着性先验和用于全面丰富轮廓细节表示的多尺度结构先验。在此基础上,我们提出了一种双分支先验嵌入架构(DBPEA),它建立差异化的特征融合路径,将这两个先验嵌入到最佳网络位置以实现性能增强。最后,我们开发了一个注意力引导的特征增强模块(AGFEM)来细化特征表示并提高显着性估计的准确性。公共数据集 NUDT-SIRST、IRSTD-1k 和 NUAA-SIRST 上的实验结果表明,我们的 CSPENet 在检测性能方面优于其他最先进的方法。该代码可从此 https URL 获取 ...
当前的多光谱目标检测方法通常在特征融合过程中保留无关的背景或噪声,从而限制了感知性能。为了解决这个问题,我们提出了一种基于跨模式特征对比和筛选策略的创新特征融合框架,与传统方法不同。所提出的方法通过融合对象感知互补跨模态特征来自适应增强显着结构,同时抑制共享背景干扰。我们的解决方案以两个新颖的、专门设计的模块为中心:相互特征细化模块(MFRM)和差分特征反馈模块(DFFM)。 MFRM 通过对模态之间的关系进行建模来增强模态内和模间特征表示,从而提高跨模态对齐和判别能力。受反馈差分放大器的启发,DFFM 动态计算模间差分特征作为引导信号,并将其反馈给 MFRM,从而实现互补信息的自适应融合,同时抑制跨模态的共模噪声。为了实现鲁棒的特征学习,MFRM 和 DFFM 被集成到一个统一的框架中,该框架被正式表述为迭代关系图差分引导特征融合机制,称为 IRDFusion。 IRDFusion 通过迭代反馈逐步放大显着关系信号,同时抑制特征噪声,从而实现高质量的跨模式融合,从而显着提高性能。在 FLIR、LLVIP 和 M$^3$FD 数据集上进行的广泛实验中,IRDFusion 实现了最先进的性能,并在各种具有挑战性的场景中始终优于现有方法,证明了其稳健性和有效性。代码将在此 https URL 中提供 ...
多视图图像的 3D 重建是计算机视觉和图形领域的基本挑战之一。最近,3D 高斯溅射 (3DGS) 已成为一项有前景的技术,能够实现实时渲染和高质量 3D 重建。该方法利用 3D 高斯表示和基于图块的泼溅技术,绕过昂贵的神经场查询。尽管具有潜力,3DGS 仍面临着诸如针状伪影、次优几何形状以及由于高斯收敛为具有一个显性方差的各向异性形状而导致的法线不准确等挑战。我们建议使用有效等级分析来检查 3D 高斯基元的形状统计,并识别有效等级为 1 的高斯确实收敛为针状形状。为了解决这个问题,我们引入有效等级作为正则化,它限制了高斯的结构。我们的新正则化方法增强了法线和几何重建,同时减少了针状伪影。该方法可以作为附加模块集成到其他 3DGS 变体中,从而在不影响视觉保真度的情况下提高其质量。项目页面可通过此 https URL 获取 ...
深度搜索能力已成为前沿大语言模型(LLM)智能体不可或缺的能力,但由于缺乏透明、高质量的训练数据,高性能搜索智能体的开发仍然由工业巨头主导。这种持续的数据稀缺从根本上阻碍了更广泛的研究界在该领域的开发和创新的进展。为了弥补这一差距,我们引入了OpenSeeker,这是第一个完全开源的搜索代理(即模型和数据),它通过两项核心技术创新实现了前沿水平的性能:(1)基于事实的可扩展可控QA合成,它通过拓扑扩展和实体混淆对网络图进行逆向工程,以生成具有可控覆盖范围和复杂性的复杂、多跳推理任务。 (2)去噪轨迹合成,采用回顾性总结机制对轨迹进行去噪,从而促进 LLM 教师产生高质量的动作。实验结果表明,OpenSeeker 仅在 11.7k 合成样本上进行训练(单次训练运行),在多个基准测试中实现了最先进的性能,包括 BrowseComp、BrowseComp-ZH、xbench-DeepSearch 和 WideSearch。值得注意的是,通过简单的 SFT 训练,OpenSeeker 显着优于第二好的完全开源代理 DeepDive(例如,在 BrowseComp 上为 29.5% 对 15.3%),甚至超过了行业竞争对手,如 Tongyi DeepResearch(通过广泛的持续预训练、SFT 和 RL 进行训练)在 BrowseComp-ZH 上(48.4% 对 46.7%)。我们完全开源完整的训练数据集和模型权重,以使前沿搜索代理研究民主化,并培育更加透明、协作的生态系统 ...
我们提出了 InSpatio-WorldFM,一个用于空间智能的开源实时框架模型。与依赖顺序帧生成并因窗口级处理而产生大量延迟的基于视频的世界模型不同,InSpatio-WorldFM 采用基于帧的范例,独立生成每个帧,从而实现低延迟实时空间推理。通过显式 3D 锚点和隐式空间记忆强制执行多视图空间一致性,该模型保留全局场景几何形状,同时在视点变化时保持细粒度的视觉细节。我们进一步引入了渐进的三阶段训练管道,将预训练的图像扩散模型转换为可控帧模型,最后通过几步蒸馏转换为实时生成器。实验结果表明,InSpatio-WorldFM 实现了强大的多视图一致性,同时支持消费级 GPU 上的交互式探索,为实时世界模拟提供了传统基于视频的世界模型的有效替代方案 ...
大型语言模型(LLM)的快速发展显着增强了机器翻译的通用能力。然而,随着应用场景变得更加复杂,LLM在垂直领域翻译方面的局限性逐渐显现。在本研究中,我们关注如何构建满足领域定制需求的翻译 LLM 。我们以视觉媒体字幕翻译为主题,探讨如何培养富有表现力和生动性的翻译 LLM 。我们调查了字幕翻译以及直译和自由翻译的其他领域的情况,验证了LLM作为翻译奖励模型和评估器的可靠性。此外,为了训练表达性翻译 LLM ,我们构建并发布了多向字幕并行语料库数据集,并提出了自适应局部偏好优化(ALPO)方法来解决细粒度偏好对齐问题。实验结果表明,ALPO在翻译质量的多维度评价中取得了优异的表现 ...
大语言模型 (LLM) 的最新进展使得金融领域基于代理的强大应用成为可能,特别是在情绪分析、财务报告理解和股票预测方面。然而,现有系统通常缺乏代理间协调、结构化自我反思以及对高质量、特定领域的训练后数据的访问,例如来自交易活动的数据,包括市场状况和代理决策。这些数据对于代理商了解市场动态、提高决策质量、促进有效协调至关重要。我们推出 TradingGroup,这是一个多代理交易系统,旨在通过自我反思架构和端到端数据合成管道来解决这些限制。 TradingGroup 由新闻情绪分析、财务报告解读、股票趋势预测、交易风格适应的专业代理以及合并所有信号和风格偏好以产生买入、卖出或持有决策的交易决策代理组成。具体来说,我们为股票预测、风格和决策代理设计了自我反思机制,以在类似的未来场景中提取过去的成功和失败,以进行类似的推理,并设计动态风险管理模型,以提供可配置的动态止损和止盈机制。此外,TradingGroup 嵌入了自动数据合成和注释管道,可生成高质量的训练后数据,以便通过训练后进一步提高代理性能。我们对五个真实股票数据集的回溯测试实验证明,TradingGroup 的性能优于基于规则的机器学习、强化学习和现有的基于 LLM 的交易策略 ...