在本文中,我们证明可以使用单个 Transformer 来完成信息检索,其中有关语料库的所有信息都编码在模型的参数中。为此,我们引入了可区分搜索索引(DSI),这是一种新的范例,它学习文本到文本的模型,将字符串查询直接映射到相关的文档;换句话说,DSI 模型仅使用其参数直接回答查询,从而极大地简化了整个检索过程。我们研究文档及其标识符的表示方式的变化、训练程序的变化以及模型和语料库大小之间的相互作用。实验表明,如果选择适当的设计,DSI 的性能显着优于双编码器模型等强基线。此外,DSI 展示了强大的泛化能力,在零样本设置中优于 BM25 基线 ...

0 0 0 0 2026/04/08 arXiv:2202.06991v3 oliver

对比语言图像预训练(CLIP)是一种强大的视觉语言模型,已在各种任务中显示出巨大的优势。然而,我们发现其可解释性存在一些问题,这损害了其可信度并限制了相关任务的能力。具体来说,我们发现 CLIP 倾向于关注背景区域而不是前景,在可视化结果的不相关位置处有噪声激活。这些现象与基于类注意力图(CAM)的传统可解释性方法相冲突,其中原始模型可以使用全局监督来突出显示局部前景区域而无需对齐。为了解决这些问题,我们仔细研究了它的架构和功能。基于彻底的分析,我们发现原始的自注意力链接到不一致的语义区域,导致相反的可视化。此外,噪声激活是由于类别之间的冗余特征造成的。基于这些见解,我们提出了用于可靠 CAM 的 CLIP 手术,该方法允许对推理架构和特征进行类似手术的修改,而无需像经典 CAM 方法那样进一步进行微调。这种方法显着提高了 CLIP 的可解释性,大幅超越了现有方法。此外,它还支持多模式可视化,并扩展了原始 CLIP 在开放词汇任务上的能力,而无需额外的对齐。该代码可从此 https URL 获取 ...

0 0 0 0 2026/04/08 arXiv:2304.05653v2 qzfm

视觉检索增强生成(VRAG)利用外部视觉知识增强视觉语言模型(VLM),以进行推理并减少幻觉。然而,当前的 VRAG 系统通常无法可靠地感知和整合多个图像中的证据,从而导致基础薄弱和错误的结论。在本文中,我们提出了 EVisRAG,这是一种端到端框架,可以学习使用证据引导的多图像进行推理来解决这个问题。该模型首先观察检索到的图像并记录每个图像的证据,然后从汇总的证据中得出最终答案。为了有效地训练 EVisRAG,我们引入了奖励范围组相对策略优化(RS-GRPO),它将细粒度奖励与特定范围的 Token 绑定在一起,共同优化 VLM 的视觉感知和推理能力。多个视觉问答基准的实验结果表明,EVisRAG 比主干 VLM 提供了显着的端到端增益,平均提高了 27%。进一步的分析表明,在 RS-GRPO 的支持下,EVisRAG 通过在多个图像中精确感知和定位与问题相关的证据并从该证据中得出最终答案来提高答案准确性,就像真正的侦探一样 ...

0 0 0 0 2026/04/08 arXiv:2510.09733v1 betask

在城市中心之外,自动驾驶汽车和卡车必须掌握在城际高速公路上行驶的能力。以超过 100 km/h 的速度安全、长距离高速公路行驶需要至少 250 m 的感知距离,大约是城市驾驶中通常要求的 50-100 m 的五倍,以留出足够的规划和制动余量。增加感知范围还可以将自主性从轻型两吨乘用车扩展到大型四十吨卡车,这些卡车由于其高惯性而需要更长的规划范围。然而,大多数现有的感知方法侧重于较短的范围,并依赖于鸟瞰图 (BEV) 表示,随着距离的增加,内存和计算成本会呈二次方增加。为了克服这一限制,我们在稀疏表示的基础上引入了多模态和时间特征的高效 3D 编码,以及一种新颖的自监督预训练方案,可以从未标记的相机激光雷达数据中进行大规模学习。与现有方法相比,我们的方法将感知距离扩展至 250 米,目标检测中的 mAP 提高了 26.6%,LiDAR 预测中的倒角距离降低了 30.5%,达到了 250 米的距离。项目页面:此 https URL ...

0 0 0 0 2026/04/08 arXiv:2508.13995v1 313563

最近的人工智能系统将大型语言模型与工具、通过检索增强生成(RAG)的外部知识,甚至自主多智能体决策循环相结合。这种代理人工智能范式极大地扩展了功能,但也极大地扩大了攻击面。在此系统化中,我们绘制了基于代理 LLM 系统的信任边界和安全风险。我们开发了一个全面的攻击分类法,涵盖即时级注入、知识库中毒、工具/插件攻击和多代理紧急威胁。通过详细的文献回顾,我们综合了 2023 年至 2025 年的证据,包括 20 多项同行评审和档案研究、行业报告和标准。我们发现代理系统引入了新的向量来进行间接提示注入、代码执行漏洞、RAG 索引中毒和超越传统人工智能威胁的跨代理操纵。我们定义攻击者模型和威胁场景,并提出指标(例如不安全操作率、权限升级距离)来评估安全态势。我们的调查检查了输入清理、检索过滤器、沙箱、访问控制和“人工智能护栏”等防御措施,评估其有效性并指出仍然缺乏保护的领域。为了帮助从业者,我们概述了防御控制,并提供了用于部署代理人工智能的分阶段安全检查表(涵盖设计时强化、运行时监控和事件响应)。最后,我们概述了安全自主人工智能(强大的工具 API、可验证的代理行为、供应链保障)方面的开放研究挑战,并讨论了道德和负责任的披露实践。我们将最新的研究结果系统化,以帮助研究人员和工程师了解和减轻代理人工智能中的安全风险 ...

0 0 0 0 2026/04/08 arXiv:2603.22928v1 zsc962464

对大型遥感图像 (RSI) 进行有效的视觉语言理解很有意义,但也具有挑战性。当前的大型视觉语言模型 (LVLM) 通常采用有限的预定义网格来处理图像,从而导致在处理千兆像素 RSI 时导致信息丢失。相反,使用无限网格会显着增加计算成本。为了保留图像细节,同时降低计算复杂性,我们提出了一种具有动态图像金字塔(DIP)集成的文本引导标记修剪方法。我们的方法引入了:(i)区域聚焦模块(RFM),利用文本感知区域定位功能来识别关键视觉标记,以及(ii)基于 DIP 的从粗到细的图像图块选择和视觉标记修剪策略,该策略由 RFM 输出引导,避免直接处理整个大型图像。此外,评估 LVLM 对大 RSI 感知能力的现有基准受到问题多样性有限和图像大小限制的影响。我们构建了一个名为 LRS-VQA 的新基准,其中包含 8 个类别的 7,333 个 QA 对,图像长度高达 27,328 像素。我们的方法在使用相同数据的四个数据集上优于现有的高分辨率策略。此外,与现有的 Token 减少方法相比,我们的方法在高分辨率设置下表现出更高的效率。数据集和代码位于此 https URL 中 ...

0 0 0 0 2026/04/08 arXiv:2503.07588v3 cwd

复杂地形上的四足运动一直是机器人学领域的一个长期研究课题。虽然最近基于强化学习的运动方法提高了通用性和足部放置精度,但它们依赖于从关节角度隐式推断足部位置,缺乏基于优化的方法的明确精度和稳定性保证。为了解决这个问题,我们引入了集成到高度图中的足部位置图,以及基于注意力的框架内的动态运动稳定性奖励,以实现复杂地形上的运动。我们在训练期间看到的地形以及域外(OOD)地形上广泛验证了我们的方法。我们的结果表明,所提出的方法能够实现精确稳定的运动,从而提高域内和 OOD 地形上的运动成功率 ...

0 0 0 0 2026/04/08 arXiv:2604.02744v1 yukun

图像融合集成来自不同模态的互补信息以生成高质量的融合图像,从而增强目标检测和语义分割等下游任务。与主要侧重于整合模态间信息的特定任务技术不同,一般图像融合需要解决广泛的任务,同时在不增加复杂性的情况下提高性能。为了实现这一目标,我们提出了 SMC-Mamba,一种用于一般图像融合的自监督多重共识 Mamba 框架。具体来说,模态无关特征增强 (MAFE) 模块通过自适应门控保留精细细节,并通过空间通道和频率旋转扫描增强全局表示。多重共识跨模式 Mamba (MCCM) 模块可实现专家之间的动态协作,达成共识以有效整合来自多种模式的补充信息。 MCCM 内的跨模式扫描进一步加强了跨模式的功能交互,促进两个来源关键信息的无缝集成。此外,我们引入了双层自监督对比学习损失(BSCL),它保留高频信息而不增加计算开销,同时提高下游任务的性能。大量实验表明,我们的方法在红外可见光、医学、多焦点和多重曝光融合以及下游视觉任务等任务中优于最先进的(SOTA)图像融合算法 ...

0 0 0 0 2026/04/08 arXiv:2512.20921v1 Patrick9247

我们介绍了 MotionEdit,这是一个用于以运动为中心的图像编辑的新颖数据集,其任务是修改主体动作和交互,同时保留身份、结构和物理合理性。与专注于静态外观变化或仅包含稀疏、低质量运动编辑的现有图像编辑数据集不同,MotionEdit 提供高保真图像对,描述从连续视频中提取和验证的真实运动变换。这项新任务不仅具有科学挑战性,而且具有实际意义,可为帧控制视频合成和动画等下游应用提供动力。为了评估新任务上的模型性能,我们引入了 MotionEdit-Bench,这是一个基准测试,挑战以运动为中心的编辑模型,并通过生成性、判别性和基于偏好的指标来衡量模型性能。基准结果表明,运动编辑对于现有最先进的基于扩散的编辑模型仍然具有挑战性。为了解决这一差距,我们提出了 MotionNFT(运动引导负感知微调),这是一种训练后框架,它根据输入图像和模型编辑图像之间的运动流与地面真实运动的匹配程度来计算运动对齐奖励,从而引导模型实现准确的运动变换。在 FLUX.1 Kontext 和 Qwen-Image-Edit 上进行的大量实验表明,MotionNFT 在不牺牲一般编辑能力的情况下,持续提高了两个基础模型在运动编辑任务上的编辑质量和运动保真度,证明了其有效性。我们的代码位于此 https URL ...

0 0 0 0 2026/04/08 arXiv:2512.10284v2 xuan

植物表型分析越来越依赖(半)自动化的基于图像的分析工作流程来提高其准确性和可扩展性。然而,许多现有的解决方案仍然过于复杂,难以重新实现和维护,并且对没有大量计算专业知识的用户构成了很高的障碍。为了应对这些挑战,我们推出了 PhenoAssistant:一种开创性的人工智能驱动系统,可通过直观的自然语言交互简化植物表型分析。 PhenoAssistant 利用大型语言模型来编排精心设计的工具包,支持自动表型提取、数据可视化和自动模型训练等任务。我们通过几个代表性案例研究和一组评估任务来验证 PhenoAssistant。通过显着降低技术障碍,PhenoAssistant 强调了人工智能驱动的方法论在植物生物学中普及人工智能的前景 ...

0 0 0 0 2026/04/08 arXiv:2504.19818v1 DaisyIvan