红外小目标检测(ISTD)在广泛的民用和军事应用中发挥着至关重要的作用。现有方法在密集杂波环境下的昏暗目标定位和轮廓信息感知方面存在缺陷,严重限制了其检测性能。为了解决这些问题,我们为 ISTD 提出了一个轮廓感知和显着性先验嵌入网络(CSPENet)。我们首先设计了一个环绕收敛先验提取模块(SCPEM),它有效地捕获目标轮廓像素梯度向其中心收敛的固有特征。该模块同时提取两个协作先验:用于精确目标定位的增强显着性先验和用于全面丰富轮廓细节表示的多尺度结构先验。在此基础上,我们提出了一种双分支先验嵌入架构(DBPEA),它建立差异化的特征融合路径,将这两个先验嵌入到最佳网络位置以实现性能增强。最后,我们开发了一个注意力引导的特征增强模块(AGFEM)来细化特征表示并提高显着性估计的准确性。公共数据集 NUDT-SIRST、IRSTD-1k 和 NUAA-SIRST 上的实验结果表明,我们的 CSPENet 在检测性能方面优于其他最先进的方法。该代码可从此 https URL 获取 ...

0 0 0 0 2026/04/01 arXiv:2505.09943v1 duckuncle3

当前的多光谱目标检测方法通常在特征融合过程中保留无关的背景或噪声,从而限制了感知性能。为了解决这个问题,我们提出了一种基于跨模式特征对比和筛选策略的创新特征融合框架,与传统方法不同。所提出的方法通过融合对象感知互补跨模态特征来自适应增强显着结构,同时抑制共享背景干扰。我们的解决方案以两个新颖的、专门设计的模块为中心:相互特征细化模块(MFRM)和差分特征反馈模块(DFFM)。 MFRM 通过对模态之间的关系进行建模来增强模态内和模间特征表示,从而提高跨模态对齐和判别能力。受反馈差分放大器的启发,DFFM 动态计算模间差分特征作为引导信号,并将其反馈给 MFRM,从而实现互补信息的自适应融合,同时抑制跨模态的共模噪声。为了实现鲁棒的特征学习,MFRM 和 DFFM 被集成到一个统一的框架中,该框架被正式表述为迭代关系图差分引导特征融合机制,称为 IRDFusion。 IRDFusion 通过迭代反馈逐步放大显着关系信号,同时抑制特征噪声,从而实现高质量的跨模式融合,从而显着提高性能。在 FLIR、LLVIP 和 M$^3$FD 数据集上进行的广泛实验中,IRDFusion 实现了最先进的性能,并在各种具有挑战性的场景中始终优于现有方法,证明了其稳健性和有效性。代码将在此 https URL 中提供 ...

0 0 0 0 2026/04/01 arXiv:2509.09085v2 duckuncle3

多视图图像的 3D 重建是计算机视觉和图形领域的基本挑战之一。最近,3D 高斯溅射 (3DGS) 已成为一项有前景的技术,能够实现实时渲染和高质量 3D 重建。该方法利用 3D 高斯表示和基于图块的泼溅技术,绕过昂贵的神经场查询。尽管具有潜力,3DGS 仍面临着诸如针状伪影、次优几何形状以及由于高斯收敛为具有一个显性方差的各向异性形状而导致的法线不准确等挑战。我们建议使用有效等级分析来检查 3D 高斯基元的形状统计,并识别有效等级为 1 的高斯确实收敛为针状形状。为了解决这个问题,我们引入有效等级作为正则化,它限制了高斯的结构。我们的新正则化方法增强了法线和几何重建,同时减少了针状伪影。该方法可以作为附加模块集成到其他 3DGS 变体中,从而在不影响视觉保真度的情况下提高其质量。项目页面可通过此 https URL 获取 ...

0 0 0 0 2026/04/01 arXiv:2406.11672v3 jojochen

深度搜索能力已成为前沿大语言模型(LLM)智能体不可或缺的能力,但由于缺乏透明、高质量的训练数据,高性能搜索智能体的开发仍然由工业巨头主导。这种持续的数据稀缺从根本上阻碍了更广泛的研究界在该领域的开发和创新的进展。为了弥补这一差距,我们引入了OpenSeeker,这是第一个完全开源的搜索代理(即模型和数据),它通过两项核心技术创新实现了前沿水平的性能:(1)基于事实的可扩展可控QA合成,它通过拓扑扩展和实体混淆对网络图进行逆向工程,以生成具有可控覆盖范围和复杂性的复杂、多跳推理任务。 (2)去噪轨迹合成,采用回顾性总结机制对轨迹进行去噪,从而促进 LLM 教师产生高质量的动作。实验结果表明,OpenSeeker 仅在 11.7k 合成样本上进行训练(单次训练运行),在多个基准测试中实现了最先进的性能,包括 BrowseComp、BrowseComp-ZH、xbench-DeepSearch 和 WideSearch。值得注意的是,通过简单的 SFT 训练,OpenSeeker 显着优于第二好的完全开源代理 DeepDive(例如,在 BrowseComp 上为 29.5% 对 15.3%),甚至超过了行业竞争对手,如 Tongyi DeepResearch(通过广泛的持续预训练、SFT 和 RL 进行训练)在 BrowseComp-ZH 上(48.4% 对 46.7%)。我们完全开源完整的训练数据集和模型权重,以使前沿搜索代理研究民主化,并培育更加透明、协作的生态系统 ...

0 0 0 0 2026/04/01 arXiv:2603.15594v1 xwjiang

我们提出了 InSpatio-WorldFM,一个用于空间智能的开源实时框架模型。与依赖顺序帧生成并因窗口级处理而产生大量延迟的基于视频的世界模型不同,InSpatio-WorldFM 采用基于帧的范例,独立生成每个帧,从而实现低延迟实时空间推理。通过显式 3D 锚点和隐式空间记忆强制执行多视图空间一致性,该模型保留全局场景几何形状,同时在视点变化时保持细粒度的视觉细节。我们进一步引入了渐进的三阶段训练管道,将预训练的图像扩散模型转换为可控帧模型,最后通过几步蒸馏转换为实时生成器。实验结果表明,InSpatio-WorldFM 实现了强大的多视图一致性,同时支持消费级 GPU 上的交互式探索,为实时世界模拟提供了传统基于视频的世界模型的有效替代方案 ...

0 0 0 0 2026/04/01 arXiv:2603.11911v1 lxq

大型语言模型(LLM)的快速发展显着增强了机器翻译的通用能力。然而,随着应用场景变得更加复杂,LLM在垂直领域翻译方面的局限性逐渐显现。在本研究中,我们关注如何构建满足领域定制需求的翻译 LLM 。我们以视觉媒体字幕翻译为主题,探讨如何培养富有表现力和生动性的翻译 LLM 。我们调查了字幕翻译以及直译和自由翻译的其他领域的情况,验证了LLM作为翻译奖励模型和评估器的可靠性。此外,为了训练表达性翻译 LLM ,我们构建并发布了多向字幕并行语料库数据集,并提出了自适应局部偏好优化(ALPO)方法来解决细粒度偏好对齐问题。实验结果表明,ALPO在翻译质量的多维度评价中取得了优异的表现 ...

0 0 0 0 2026/04/01 arXiv:2602.01068v1 laifanyi

大语言模型 (LLM) 的最新进展使得金融领域基于代理的强大应用成为可能,特别是在情绪分析、财务报告理解和股票预测方面。然而,现有系统通常缺乏代理间协调、结构化自我反思以及对高质量、特定领域的训练后数据的访问,例如来自交易活动的数据,包括市场状况和代理决策。这些数据对于代理商了解市场动态、提高决策质量、促进有效协调至关重要。我们推出 TradingGroup,这是一个多代理交易系统,旨在通过自我反思架构和端到端数据合成管道来解决这些限制。 TradingGroup 由新闻情绪分析、财务报告解读、股票趋势预测、交易风格适应的专业代理以及合并所有信号和风格偏好以产生买入、卖出或持有决策的交易决策代理组成。具体来说,我们为股票预测、风格和决策代理设计了自我反思机制,以在类似的未来场景中提取过去的成功和失败,以进行类似的推理,并设计动态风险管理模型,以提供可配置的动态止损和止盈机制。此外,TradingGroup 嵌入了自动数据合成和注释管道,可生成高质量的训练后数据,以便通过训练后进一步提高代理性能。我们对五个真实股票数据集的回溯测试实验证明,TradingGroup 的性能优于基于规则的机器学习、强化学习和现有的基于 LLM 的交易策略 ...

0 0 0 0 2026/04/01 arXiv:2508.17565v1 BanXiang

近年来,大型语言模型(LLM)因其出色的理解和推理能力而受到广泛关注,在许多领域取得了巨大进展。 LLM 技术的进步也为电信(电信)领域的许多任务的自动化提供了有希望的机会。经过预训练和微调后,LLM 可以根据人类指令执行各种下游任务,为支持人工智能 (AGI) 的 6G 铺平道路。鉴于 LLM 技术的巨大潜力,这项工作旨在提供支持 LLM 的电信网络的全面概述。特别是,我们首先介绍了LLM基础知识,包括模型架构、预训练、微调、推理和利用、模型评估和电信部署。然后,我们介绍了LLM在生成、分类、优化和预测问题方面的关键技术和电信应用。具体来说,LLM支持的生成应用程序包括电信领域知识、代码和网络配置生成。之后,基于LLM的分类应用涉及网络安全、文本、图像和流量分类问题。此外,还引入了多种支持LLM的优化技术,例如强化学习和言语强化学习的自动奖励函数设计。此外,对于LLM辅助的预测问题,我们讨论了电信的时间序列预测模型和多模态预测问题。最后,我们强调了支持 LLM 的电信网络面临的挑战并确定了未来的方向 ...

0 0 0 0 2026/04/01 arXiv:2405.10825v2 7152667

大型语言模型的最新进展引发了思想链推理,使模型能够以类似人类的方式分解问题。尽管这种范式提高了语言模型中的多步推理能力,但它由于单模态而受到限制,并且主要应用于问答任务。我们认为,将视觉增强纳入推理是至关重要的,特别是对于复杂的、富有想象力的任务。因此,我们引入了 VCoT,这是一种新颖的方法,它利用视觉语言基础的思维链提示来递归地弥合顺序数据中的逻辑间隙。我们的方法使用视觉引导来生成合成的多模态填充,添加一致和新颖的信息,以减少下游任务的逻辑差距,这些任务可以从时间推理中受益,并为模型的多步骤推理提供可解释性。我们将 VCoT 应用于视觉讲故事和 WikiHow 摘要数据集,并通过人类评估证明,VCoT 提供了新颖且一致的合成数据增强,击败了思想链基线,可用于增强下游性能 ...

0 0 0 0 2026/04/01 arXiv:2305.02317v3 ppbc

使用大型语言模型 (LLM) 进行基于表格的推理是解决许多表格理解任务(例如基于表格的问答和事实验证)的一个有前途的方向。与通用推理相比,基于表格的推理需要从自由形式的问题和半结构化表格数据中提取底层语义。思想链及其类似方法以文本上下文的形式整合了推理链,但如何在推理链中有效利用表格数据仍然是一个悬而未决的问题。我们提出了表链框架,其中表格数据在推理链中明确使用作为中间思想的代理。具体来说,我们指导 LLM 使用上下文学习来迭代生成操作并更新表格以表示表格推理链。因此, LLM 可以根据之前操作的结果动态规划下一步操作。表格的这种不断演变形成了一条链,显示了给定表格问题的推理过程。该链承载中间结果的结构化信息,从而实现更准确、更可靠的预测。 Chain-of-Table 在 WikiTQ、FeTaQA 和 TabFact 基准测试中跨多个 LLM 选择实现了新的最先进的性能 ...

0 0 0 0 2026/04/01 arXiv:2401.04398v2 wtyang