高分辨率遥感图像的变化检测是地球观测应用的基石,但其功效往往受到两个关键挑战的影响。首先,误报很普遍,因为模型将时间变化(例如照明、季节)的辐射变化误解为真正的变化。其次,深层抽象特征和浅层细节丰富的特征之间不可忽视的语义差距往往会阻碍它们的有效融合,最终导致边界划分不清。为了进一步解决这些问题,我们提出了频率空间协同门控网络(FSG-Net),这是一种新颖的范式,旨在系统地从令人讨厌的变化中分离出语义变化。具体来说,FSG-Net 首先在频域中运行,其中差异感知小波交互模块 (DAWIM) 通过辨别处理不同的频率分量来自适应地减轻伪变化。随后,通过协同时空注意力模块(STSAM)在空间域中增强了细化的特征,从而放大了真实变化区域的显着性。为了最终弥合语义差距,轻量级门控融合单元(LGFU)利用高级语义有选择地门控和集成浅层的关键细节。 CDD、GZ-CD 和 LEVIR-CD 基准的综合实验验证了 FSG-Net 的优越性,建立了新的最先进技术,F1 分数分别为 94.16%、89.51% 和 91.27%。可能发布后,代码将在此 https URL 上提供 ...
在复杂的开放世界环境中实现类人驾驶行为是自动驾驶的关键挑战。当代基于学习的规划方法(例如模仿学习方法)往往难以平衡竞争目标和缺乏安全保证,因为其适应性有限,并且在学习人类规划中常见的复杂多模态行为方面存在不足,更不用说它们对具有预定义规则的后备策略的强烈依赖。我们提出了一种新型的基于 Transformer 的扩散规划器用于闭环规划,它可以有效地建模多模式驾驶行为并确保轨迹质量,而无需任何基于规则的细化。我们的模型支持在同一架构下对预测和规划任务进行联合建模,从而实现车辆之间的协作行为。此外,通过学习轨迹得分函数的梯度并采用灵活的分类器引导机制,Diffusion Planner有效地实现了安全且适应性强的规划行为。对大规模现实世界自主规划基准 nuPlan 和我们新收集的 200 小时送货车辆驾驶数据集的评估表明,Diffusion Planner 实现了最先进的闭环性能,并在不同的驾驶风格中具有强大的可转移性 ...
近年来,基于模仿的驾驶规划器取得了相当大的成功。然而,由于缺乏标准化基准,各种设计的有效性仍不清楚。新发布的 nuPlan 通过提供大规模的真实世界数据集和用于公平比较的标准化闭环基准来解决这个问题。利用这个平台,我们对基于模仿的规划器的两个基本但尚未充分探索的方面进行了全面的研究:自我规划的基本特征和减少复合错误的有效数据增强技术。此外,我们强调了当前学习系统忽视的模仿差距。最后,综合我们的发现,我们提出了一个强大的基线模型 - PlanTF。我们的结果表明,与涉及手工制定规则的最先进方法相比,精心设计的、纯粹基于模仿的规划器可以实现极具竞争力的性能,并在长尾案例中表现出卓越的泛化能力。我们的模型和基准是公开的。项目网站此 https URL ...
端到端自动驾驶最近成为一个有前途的研究方向,从全栈角度瞄准自动驾驶。沿着这条线,许多最新的作品都遵循 nuScenes 上的开环评估设置来研究规划行为。在本文中,我们将通过深入分析和揭开更多细节中的魔鬼来深入探讨这个问题。我们最初观察到,以相对简单的驾驶场景为特征的 nuScenes 数据集导致在包含自我状态(例如自我车辆的速度)的端到端模型中感知信息的利用不足。这些模型往往主要依赖于自我车辆的状态来规划未来的路径。除了数据集的限制之外,我们还注意到,当前的指标并未全面评估规划质量,导致从现有基准中得出的结论可能存在偏差。为了解决这个问题,我们引入了一种新的指标来评估预测的轨迹是否符合道路。我们进一步提出了一个简单的基线,能够在不依赖感知注释的情况下获得有竞争力的结果。鉴于目前基准和指标的局限性,我们建议社区重新评估相关的流行研究,并谨慎对待对最先进技术的持续追求是否会产生令人信服和普遍的结论。代码和模型可在 \url{this https URL} 获取 ...
随着大型语言模型(LLM)的快速发展,大量机器学习模型被开发出来来辅助编程任务,包括从自然语言输入生成程序代码。然而,尽管已经做出了大量研究工作并报告了评估和比较这些 LLM ,但如何评估此类任务的 LLM 仍然是一个悬而未决的问题。本文对这些工具的测试和评估的现有工作进行了批判性回顾,重点关注两个关键方面:评估中使用的基准和指标。在此基础上,讨论了进一步的研究方向 ...
为了解决大型语言模型(LLM)中特定领域知识稀缺的问题,知识图谱检索方法已被证明是一种有效且高效的知识注入技术。然而,现有方法面临两个主要挑战:公开可用的知识图谱与当前任务的特定领域之间的知识不匹配,以及 LLM 与知识图谱的信息合规性较差。在本文中,我们利用一小组标记样本和大规模语料库,通过 LLM 有效构建特定领域的知识图,解决知识不匹配的问题。此外,我们提出了一个三阶段的KG-LLM对齐策略,以增强LLM利用知识图谱信息的能力。我们在两个生物医学问答数据集上进行了有限样本设置的实验,结果表明我们的方法优于现有的基线 ...
本文解决了应用于多标签内容安全分类时从生成语言模型 (LLM) 导出可解释置信度分数的关键挑战。虽然像 LLaMA Guard 这样的模型可以有效识别不安全内容及其类别,但它们的生成架构本质上缺乏直接的类级概率,这阻碍了模型置信度评估和性能解释。这种限制使内容审核的动态阈值的设置变得复杂,并阻碍了细粒度的错误分析。本研究提出并评估了三种新颖的 Token 级概率估计方法来弥补这一差距。目的是增强模型的可解释性和准确性,并评估该框架在不同指令调整模型中的通用性。通过对综合生成的、严格注释的数据集进行大量实验,结果表明,利用 token logits 可以显着提高生成分类器的可解释性和可靠性,从而实现更细致的内容安全审核 ...
在许多高风险的机器学习应用中,模型必须指出预测何时不确定。虽然大型语言模型(LLM)可以在各种基准上达到甚至超过人类水平的准确性,但它们对错误响应的过度自信仍然是一种有据可查的失败模式。由于实现的计算成本和许多模型的闭源性质,传统的机器学习不确定性量化方法可能很难直接适应 LLM 。最近提出了各种黑盒方法,但这些方法通常依赖于启发式方法,例如自我语言信心。相反,我们提出了一个框架来衡量 LLM 在生成答案的解释分布方面的不确定性。虽然利用解释本身并不是一个新想法,但通过将每个可能的模型+解释对解释为测试时分类器,我们可以计算这些分类器中最有可能的后验答案分布。我们演示了该框架的特定实例如何使用解释蕴含作为我们的分类器可能性,在五个不同数据集的基线上提高置信度得分指标(特别是 AURC 和 AUROC)。我们相信这些结果表明我们的框架是量化 LLM 不确定性的原则良好且有效的方法 ...
过去两年,大型语言模型 (LLM) 的使用发展迅速。虽然这些 LLM 提供了相当大的便利,但它们也引起了安全问题,因为 LLM 很容易受到一些精心设计的文本扰动的对抗性攻击。在本文中,我们介绍了一种名为大型语言模型哨兵(LLAMOS)的新型防御技术,该技术旨在通过在将对抗性文本示例输入目标 LLM 之前纯化它们来增强 LLM 的对抗鲁棒性。我们的方法包括两个主要部分:a)代理指令,它可以模拟新的代理进行对抗性防御,在防御攻击的同时改变最少的字符以保持句子的原始含义; b) 防御指导,提供修改干净或对抗性示例的策略,以确保目标 LLM 的有效防御和准确输出。值得注意的是,即使没有从对抗性例子中学习,防御代理也表现出了强大的防御能力。此外,我们进行了一项有趣的对抗性实验,我们开发了两种代理,一种用于防御,一种用于攻击,并使它们相互对抗。在对抗性互动中,两个智能体都没有完全击败对方。对开源和闭源 LLM 的大量实验表明,我们的方法可以有效防御对抗性攻击,从而增强对抗性鲁棒性 ...
知识图谱(KG)长期以来一直是结构化知识表示和推理的基础设施。随着大型语言模型(LLM)的出现,知识图谱的构建进入了一个新的范式——从基于规则和统计的管道转向语言驱动的生成框架。本综述全面概述了LLM赋能的知识图谱构建的最新进展,系统分析了LLM如何重塑本体工程、知识提取和知识融合的经典三层流程。我们首先重新审视传统的知识图谱方法以建立概念基础,然后从两个互补的角度回顾新兴的 LLM 驱动的方法:基于模式的范式,强调结构、规范化和一致性;以及无模式范式,强调灵活性、适应性和开放发现。在每个阶段,我们综合代表性框架,分析其技术机制,并确定其局限性。最后,调查概述了主要趋势和未来的研究方向,包括 LLM 基于知识图谱的推理、代理系统的动态知识记忆以及多模态知识图谱构建。通过这次系统回顾,我们的目标是阐明 LLM 和知识图谱之间不断发展的相互作用,将符号知识工程和神经语义理解联系起来,以开发自适应、可解释和智能的知识系统 ...