手写数学表达式识别 (HMER) 方法已经取得了显着的进步,大多数现有的 HMER 方法都基于基于 CNN/RNN 的混合 GRU 架构或 Transformer 架构。其中每一个都有其优点和缺点。作为观察者利用不同的模型结构并有效地整合他们的不同能力提供了一条有趣的探索途径。这涉及解决两个关键挑战:1)如何有效融合这两种方法,2)如何在适当的复杂性水平下实现更高的性能。本文提出了一种高效的 CNN-Transformer 多观察者、多任务方法来增强模型的识别性能。我们的 MMHMER 模型在 CROHME14、CROHME16 和 CROHME19 上实现了 63.96%、62.51% 和 65.46% ExpRate,优于 Posformer,绝对增益为 1.28%、1.48% 和 0.58%。我们的方法的主要贡献是我们提出了一个新的多视图、多任务框架,可以有效地整合 CNN 和 Transformer 的优势。通过利用CNN的特征提取能力和Transformer的序列建模能力,我们的模型可以更好地处理手写数学表达式的复杂性 ...
Vision语言动作(VLA)模型标志着人工智能的变革性进步,旨在在单个计算框架内统一感知,自然语言理解和体现的行动。这项基本综述介绍了视觉动作模型的最新进步的全面综合,该模型是在构建了这个快速发展的领域景观的五个主题支柱上系统地组织的。我们首先建立VLA系统的概念基础,从而将它们从跨模式学习体系结构到通才代理人的演变,这些通才代理紧密整合了视觉模型(VLM),行动计划者和层次结构控制器 ...
视觉提示为解决视觉跨域问题提供了一种有效的方式。在之前的工作中,视觉域提示(VDP)首先引入域提示,通过在输入上扭曲图像级提示并针对每个目标域微调提示来解决分类测试时间适应(TTA)问题。然而,由于图像级提示掩盖了提示分配区域中的连续空间细节,因此它将遭受不准确的上下文信息和有限的领域知识提取的影响,特别是在处理密集预测 TTA 问题时。为了克服这些挑战,我们提出了一种新颖的稀疏视觉域提示(SVDP)方法,该方法在图像级提示中保留最小的可训练参数(例如 0.1%),并保留更多的输入空间信息。为了更好地应用 SVDP 来提取特定领域的知识,我们引入了域提示放置(DPP)方法,在分布偏移较大的像素上自适应地分配 SVDP 的可训练参数。此外,认识到每个目标域样本都表现出独特的域转移,我们设计了域提示更新(DPU)策略,以针对每个样本不同地优化提示参数,从而促进对目标域的有效适应。在广泛使用的 TTA 和连续 TTA 基准上进行了大量的实验,我们提出的方法在语义分割和深度估计任务中实现了最先进的性能 ...
视觉提示作为一种使预训练模型适应特定任务的方法而受到欢迎,特别是在参数高效调整领域。然而,现有的视觉提示技术经常在图像周围填充提示参数,将视觉提示和原始图像之间的交互限制为一小部分补丁,同时忽略了不同补丁之间共享信息中存在的归纳偏差。在本研究中,我们进行了彻底的初步调查,以确定并解决这些局限性。我们提出了一种新颖的视觉提示设计,引入了视觉提示的低秩矩阵乘法(LoR-VP),它可以跨图像像素的行和列共享和特定于补丁的信息。跨七个网络架构和四个数据集的广泛实验表明,与最先进的视觉提示方法相比,性能和效率都有显着提高,训练时间提高了 6 倍,使用的视觉提示参数减少了 18 倍,性能提高了 3.1%。该代码可通过 https URL 获取 ...
任意分割模型 (SAM) 在自然图像领域展示了令人印象深刻的零样本分割能力,但它很难推广到遥感数据的独特挑战,例如复杂地形、多尺度物体和时间动态。在本文中,我们介绍了 TASAM,它是 SAM 的地形和时间感知扩展,专为高分辨率遥感图像分割而设计。 TASAM 集成了三个轻量级但有效的模块:注入高程先验的地形感知适配器、捕获土地覆盖随时间变化的时间提示生成器以及增强细粒度对象描绘的多尺度融合策略。在不重新训练 SAM 主干的情况下,我们的方法在三个遥感基准(LoveDA、iSAID 和 WHU-CD)上实现了显着的性能提升,以最小的计算开销超越了零样本 SAM 和特定任务模型。我们的结果强调了基础模型的领域自适应增强的价值,并为更强大的地理空间分割提供了一条可扩展的路径 ...
遥感图像(RSI)的实例分割是土地规划和智能交通等广泛应用的一项基本任务。 RSI 的实例分割一直受到前景和背景比例不平衡以及实例大小有限的困扰。并且大多数实例分割模型基于深度特征学习,并包含多次下采样等操作,这对RSI的实例分割是有害的,因此性能仍然受到限制。受近期即时学习在视觉任务中卓越表现的启发,我们提出了一种新的即时范式来解决上述问题。基于现有实例分割模型,首先设计本地提示模块,从原始本地token中挖掘特定实例的本地提示信息;其次,设计了全局到本地提示模块来对从全局标记到实例所在的特定实例的本地标记的上下文信息进行建模。最后,提案的面积损失函数旨在为尺度上的提案添加解耦维度,以更好地挖掘上述两个提示模块的潜力。值得一提的是,我们提出的方法可以将实例分割模型扩展到可提示的实例分割模型,即用特定框提示来分割实例。每个可提示的实例分割过程的耗时仅为40毫秒。本文基于四个 RSI 实例分割数据集中的几个现有模型评估了我们提出的方法的有效性,并且彻底的实验证明我们提出的方法对于解决上述问题是有效的,并且是 RSI 实例分割的竞争模型 ...
利用 SA-1B 的大量训练数据,分段任意模型 (SAM) 展示了卓越的泛化能力和零样本能力。然而,作为一种与类别无关的实例分割方法,SAM 严重依赖于先前的手动指导,包括点、框和粗粒度掩模。此外,它在遥感图像分割任务中的性能在很大程度上仍未被探索和验证。在本文中,我们的目标是基于基础 SAM 模型并结合语义类别信息,开发一种遥感图像自动实例分割方法。受到提示学习的启发,我们提出了一种学习为 SAM 生成适当提示的方法。这使得 SAM 能够为遥感图像生成语义上可辨别的分割结果,我们将这一概念称为 RSPrompter。我们还利用 SAM 社区的最新进展,提出了一些正在进行的衍生产品,例如分割任务,并将它们的性能与 RSPrompter 进行比较。来自 WHU 大楼、NWPU VHR-10 和 SSDD 数据集的大量实验结果验证了我们提出的方法的有效性。我们方法的代码可在此 http URL 上公开获取 ...
大型语言模型 (LLM) 通常会对第一个标记分配不成比例的注意力,这种现象称为注意力沉降。最近的几种方法旨在解决这个问题,包括 GPT-OSS 中的 Sink Attention 和 Qwen3-Next 中的 Gated Attention。然而,缺乏对这些注意力机制之间关系的全面分析。在这项工作中,我们提供了理论和经验证据,证明 Vanilla Attention 中的沉降和 Sink Attention 自然地在注意层内构建了专家混合(MoE)机制。这种见解解释了在之前的工作中观察到的头部崩溃现象,其中只有固定的注意力头子集有助于生成。为了减轻头部崩溃,我们提出了一种接收器感知训练算法,具有专为注意层设计的辅助负载平衡损失。大量实验表明,我们的方法实现了有效的头部负载平衡,并提高了 Vanilla Attention、Sink Attention 和 Gated Attention 的模型性能。我们希望这项研究为注意力机制提供一个新的视角,并鼓励进一步探索注意力层内固有的 MoE 结构 ...
大视觉语言模型的最新进展展示了非凡的能力。然而,当面对复杂的推理任务时,它们常常会犹豫不决,而人类通常通过视觉辅助和深思熟虑的逐步思考来解决这些任务。虽然现有的方法已经探索了基于文本的缓慢思维或基本的视觉辅助,但它们无法捕捉人类视觉-语言推理过程的复杂、交错的本质。为了克服这些限制,并受到人类认知中缓慢思维机制的启发,我们引入了 VisuoThink,这是一种无缝集成视觉空间和语言领域的新颖框架。 VisuoThink 通过启用渐进式视觉文本推理来促进多模式慢速思维,并通过前瞻树搜索合并测试时间缩放。大量实验表明,VisuoThink 通过推理时间缩放显着增强了推理能力,即使没有微调,也能在涉及几何和空间推理的任务中实现最先进的性能 ...
多模式的大语言模型(MLLM)在提出问题的任务中取得了令人印象深刻的成功,但是它们的空间理解能力却较少。这项工作调查了一个关键问题:现有的MLLM是否具有3D空间感知和理解能力?具体而言,我们在本文中做出了以下贡献:(i)我们引入了VGBench,这是一种专门用于评估视觉几何感知的MLLM的基准,例如 ...