最近的研究揭示了训练开源大型语言模型 (LLM) 的潜力,可以释放 LLM 的推理能力,从而增强视觉语言导航 (VLN) 性能,同时缩小 LLM 训练语料库和 VLN 任务之间的领域差距。然而,这些方法主要采用简单的输入输出映射范式,导致映射学习困难且导航决策无法解释。思想链 (CoT) 训练是提高导航决策准确性和可解释性的一种有前途的方法,而导航任务的复杂性使得完美的 CoT 标签不可用,并且可能通过纯 CoT 监督微调导致过度拟合。为了解决这些问题,我们提出了 EvolveNav,一种新颖的自我改进的体现推理范式,它实现了适应性和可泛化的导航推理,以促进基于 LLM 的视觉语言导航。具体来说,EvolveNav 涉及两个阶段的训练过程:(1)形式化 CoT 监督微调,我们使用精心设计的形式化 CoT 标签来训练模型,首先激活模型的导航推理能力,同时提高推理速度; (2)自我反思后训练,模型用自己的推理输出作为自我丰富的CoT标签进行迭代训练,以增强监督多样性。还设计了自我反思的辅助任务,以鼓励模型通过与错误的推理模式进行对比来学习正确的推理模式。特定任务和跨任务训练范例下的实验结果表明,在各种流行的基准(包括 R2R、REVERIE、CVDN 和 SOON)上,EvolveNav 始终优于之前基于 LLM 的 VLN 方法。代码可从此 https URL 获取 ...

0 0 0 0 2026/02/07 arXiv:2506.01551v3 13766783701

信息几何可用于理解和优化大型强子对撞机的希格斯粒子测量。 Fisher 信息编码了给定实验的可观测值对模型参数的最大灵敏度。应用于更高维的算子,它定义了任何大型强子对撞机特征的新物理范围。我们计算了衰变成 tau 对和四个轻子的弱玻色子聚变中希格斯粒子产生的费希尔信息,以及与单个顶夸克相关的希格斯粒子产生的费希尔信息。在下一步中,我们分析差分信息如何分布在相空间上,这定义了最佳事件选择。相反,我们考虑运动学变量子集分布中的信息,显示哪些产生和衰减可观测值是最强大的,以及与完全多元的分析方法相比,传统的基于直方图的分析方法丢失了多少信息 ...

0 0 0 0 2026/02/07 arXiv:1612.05261v3 ligang

在超材料和增材制造 (AM) 技术的兴起的帮助下,拓扑优化 (TO) 在过去几十年中经历了巨大的发展,旨在应对当前和未来的挑战。在本文中,我们提出了三维 TO 算法的线性正交各向异性材料的扩展,该算法直接对某些分析域的有限元 (FE) 离散化的六个弹性属性(三个纵向模量和剪切模量,具有固定的三个泊松比)进行操作。通过对这些属性执行类似梯度下降的优化,应变能测量的标准偏差被最小化,从而得到优化的应变均匀化结构,在不同的材料方向上具有可变的纵向和剪切刚度。为此,针对该优化问题开发了具有两种方法的正交各向异性公式:直接或基于应变和互补或基于应力,正如该主题的先前工作所示,基于应力的效率更高。我们提出的主要优点是:(1)在各向同性材料之前使用正交各向异性材料,这使得设计空间增加了六倍,从而实现了更通用的优化过程;(2)与该领域广泛使用的其他方法(例如带有惩罚的固体各向同性材料(SIMP))相比,不需要施加任何约束(例如最大体积),所有这些都通过设置一个独特的超参数来实现。四种设计载荷工况的结果表明,该正交各向异性 TO 算法优于各向同性工况,无论是对于作为其扩展的类似算法,还是对于在 FE 商业软件中运行的 SIMP,都具有可比的计算成本。我们注意到它对于纯剪切或剪切控制的问题(例如扭转载荷)特别有效 ...

0 0 0 0 2026/02/07 arXiv:2309.12012v1 JRRT

变化检测(CD)是遥感中的一项基本任务。它监测土地覆盖随时间的变化。基于此,开放词汇变化检测(OVCD)引入了新的需求。它的目的是减少对预定义类别的依赖。现有的免训练OVCD方法大多使用CLIP来识别类别。这些方法还需要像 DINO 这样的额外模型来提取特征。然而,组合不同的模型往往会导致特征匹配出现问题,并使系统不稳定。最近,推出了 Segment Anything Model 3 (SAM 3)。它将分割和识别功能集成到一个可提示的模型中,这为 OVCD 任务提供了新的可能性。在本文中,我们提出了 OmniOVCD,一个专为 OVCD 设计的独立框架。通过利用 SAM 3 的解耦输出头,我们提出了一种协同融合到实例解耦 (SFID) 策略。 SFID 首先融合 SAM 3 的语义、实例和存在输出来构建土地覆盖掩模,然后将它们分解为单个实例掩模以进行变化比较。这种设计保持了类别识别的高精度,并保持了图像之间的实例级一致性。因此,该模型可以生成准确的变化掩模。在四个公共基准(LEVIR-CD、WHU-CD、S2Looking 和 SECOND)上的实验证明了 SOTA 性能,IoU 分数分别为 67.2、66.5、24.5 和 27.1(类平均),超越了之前的所有方法 ...

0 0 0 0 2026/02/07 arXiv:2601.13895v1 qiuyan

深度传感器广泛部署在机器人平台上,快速、高保真深度模拟的进步使得基于深度观察训练的机器人策略能够为各种任务实现稳健的模拟到真实的转换。尽管如此,与 RGB 相比,深度模态的表示学习仍然未被充分探索,其中大规模基础模型现在定义了最先进的技术。为了解决这一差距,我们提出了 DeFM,这是一种完全基于机器人应用的深度图像进行训练的自监督基础模型。在 60M 深度图像的精选数据集上使用 DINO 式自蒸馏目标,DeFM 学习可推广到不同环境、任务和传感器的几何和语义表示。为了保持跨多个尺度的度量意识,我们引入了一种新颖的输入标准化策略。我们进一步将 DeFM 提炼成适合资源受限的机器人系统的紧凑模型。在基于深度的分类、分割、导航、运动和操作基准进行评估时,DeFM 实现了最先进的性能,并展示了从模拟到现实环境的强大泛化能力。我们发布了所有预训练模型,这些模型可以现成用于基于深度的机器人学习,无需针对特定任务进行微调。网页:此 https URL ...

0 0 0 0 2026/02/07 arXiv:2601.18923v1 Kyrie

最近的文本到图像模型产生了高质量的结果,但仍然难以实现精确的视觉控制、平衡多模态输入,并且需要对复杂的多模态图像生成进行大量训练。为了解决这些限制,我们提出了 MENTOR,一种新颖的自回归 (AR) 框架,用于自回归多模态图像生成的高效多模态条件调整。 MENTOR 将 AR 图像生成器与两阶段训练范例相结合,实现多模态输入和图像输出之间的细粒度、 Token 级对齐,而无需依赖辅助适配器或交叉注意模块。两阶段训练包括:(1)多模态对齐阶段,建立稳健的像素和语义级对齐,然后是(2)多模态指令调整阶段,平衡多模态输入的集成并增强生成可控性。尽管模型大小适中、基础组件欠佳以及训练资源有限,MENTOR 在 DreamBench++ 基准测试中仍取得了强劲的表现,在概念保留和提示跟随方面优于竞争基准。此外,与基于扩散的方法相比,我们的方法提供了卓越的图像重建保真度、广泛的任务适应性和更高的训练效率。数据集、代码和模型可在以下位置获取:此 https URL ...

0 0 0 0 2026/02/06 arXiv:2507.09574v2 Curry123

近似忘却作为一种有效更新 LLM 的方法而受到欢迎,因此它的行为(大致)就像没有在数据子集上进行过训练一样。然而,现有的方法在实践中很脆弱,很容易受到攻击而泄露所谓的未学过的信息。为了缓解近似遗忘的问题,我们提出了 SIFT-Masks(SIgn-Fixed Tuning-Masks),这是一种基于模型合并的精确遗忘方法。 SIFT-Masks 解决了标准模型合并的两个关键限制:(1)合并大量任务会严重损害效用; (2)通过跨任务共享额外信息来提高效用的方法使得精确遗忘的成本过高。 SIFT-Masks 通过以下方式解决了这些问题:(1) 应用局部掩模来恢复特定于任务的性能; (2) 约束微调以与全局符号向量对齐,作为在合并之前独立确定掩模的轻量级方法。在我们合并多达 500 个模型的四种设置中,SIFT-Masks 比简单合并提高了 5-80% 的准确度,并且与其他合并基线相比,精确取消学习所需的计算量减少了 250 倍 ...

0 0 0 0 2026/02/06 arXiv:2504.04626v1 chenzhuo-wang

迁移学习——即在下游任务上进一步微调预训练模型——可以带来显着的优势,包括改进的下游性能、更快的收敛和更好的样本效率。这些优点导致了针对特定任务的微调模型的激增,这些模型通常只能执行一项任务并且不能相互受益。最近,模型合并技术作为一种解决方案出现,将多个特定于任务的模型组合成单个多任务模型,而无需执行额外的训练。然而,现有的合并方法往往忽略了不同模型参数之间的干扰,导致合并多个模型时性能大幅下降。在本文中,我们证明了先前的合并技术由于两个主要干扰源而无意中丢失了有价值的信息:(a)由于冗余参数值引起的干扰;(b)跨模型给定参数值的符号不一致。为了解决这个问题,我们提出了我们的方法 TRIM、ELECT SIGN & MERGE (TIES-Merging),它在合并模型时引入了三个新颖的步骤:(1) 重置在微调期间仅改变少量的参数,(2) 解决符号冲突,以及 (3) 仅合并与最终商定的符号一致的参数。我们发现 TIES-Merging 在不同的设置中优于几种现有方法,涵盖一系列模式、领域、任务数量、模型大小、架构和微调设置。我们进一步分析了不同类型的干扰对模型参数的影响,并强调了解决符号干扰的重要性。我们的代码可在此 https URL 获取 ...

0 0 0 0 2026/02/06 arXiv:2306.01708v2 chenzhuo-wang

多任务学习(MTL)旨在使模型能够同时处理多个任务。最近一项称为任务算术的发展表明,多个模型(每个模型都针对不同的任务进行了微调)可以直接合并到单个模型中以执行 MTL,而无需使用初始训练数据进行重新训练过程。然而,这种直接添加模型通常会导致合并模型的整体性能显着恶化。这种下降是由于多个任务之间潜在的冲突和复杂的相关性造成的。因此,出现了如何在不使用原始训练数据的情况下更有效地合并预训练模型的挑战。本文介绍了一种称为自适应模型合并(AdaMerging)的创新技术。这种方法旨在以任务方式或分层方式自主学习模型合并的系数,而不依赖于原始训练数据。具体来说,我们的 AdaMerging 方法作为自动、无监督任务算术方案运行。它利用来自多任务设置的未标记测试样本的熵最小化作为代理目标函数来迭代地细化多个模型的合并系数。我们在八项任务中的实验结果证明了我们提出的 AdaMerging 方案的有效性。与当前最先进的任务算术合并方案相比,AdaMerging 的性能显着提高了 11%。值得注意的是,AdaMerging 在应用于看不见的下游任务时还表现出卓越的泛化能力。此外,它对测试阶段可能发生的数据分布变化显示出显着增强的稳健性 ...

0 0 0 0 2026/02/06 arXiv:2310.02575v2 chenzhuo-wang

自监督学习已成功用于各种语音相关任务,包括自动语音识别。基于 BERT 的随机投影量化器语音预训练 (BEST-RQ) 在语音识别领域取得了最先进的成果。在这项工作中,我们使用 Kullback-Leibler 散度作为额外的正则化损失和从低级特征聚类导出的每个聚类的多码书扩展来进一步优化 BEST-RQ 方法。 LibriSpeech 的 train-100 split 的初步实验结果表明,通过使用多个码本,在 test-clean 上相对提高了 11.2%,利用交叉熵和 Kullback-Leibler 散度的组合进一步将单词错误率降低了 4.5%。所提出的对完整 LibriSpeech 预训练和微调的优化,使用 6 个码本,在干净测试中相对单词错误率提高了 23.8%,在其他测试中提高了 30.6%。此外,所提出的设置可以加快预训练和微调的收敛速度,并进一步稳定预训练 ...

0 0 0 0 2026/02/06 arXiv:2501.16131v1 ston