由于其标签信息对看不见的类别的局限性,几乎没有射击细分仍然具有挑战性。以前的大多数方法都依赖于从冷冻视觉编码器中提取高级特征图来计算像素的相似性,作为解码器的关键先验指南。但是,由于这些高级特征地图具有明显的类别偏见,因此这种先前的表示遭受了粗粒度和对新类别的概括不良 ...

0 0 0 0 2025/03/26 arXiv:2405.08458v1 Jht

由于高分辨率,多尺度特征以及卫星和无人机图像固有的不同地面对象特征,遥感对象检测尤其具有挑战性。这些挑战需要更高级的方法来在这种环境中有效检测。尽管深度学习方法在遥感对象检测中取得了巨大的成功,但它们通常依赖大量标记的数据 ...

0 0 0 0 2025/03/23 arXiv:2501.02474v1 Jht

多模式大型语言模型(MLLM)通过合并视觉感知接口来扩展大语言模型(LLM)的功能,取得了重大步骤。尽管出现了令人兴奋的应用程序以及各种说明调整数据的可用性,但现有方法通常依赖于剪辑或其变体作为视觉分支,而仅从深层中提取功能。但是,这些方法缺乏对MLLM中视觉编码器的全面分析 ...

0 0 0 0 2025/03/19 arXiv:2310.08825v3 Jht

很少有射击分类旨在识别每个班级中只有很少的标记图像的新型类别。现有的基于公制的几弹性分类算法通过将查询图像的特征嵌入方式与使用学习度量的标记图像(支持示例)的图像进行比较,预测类别。尽管已经证明了有希望的性能,但由于跨域跨域特征分布的较大差异,这些方法通常无法概括为看不见的域 ...

0 0 0 0 2025/03/19 arXiv:2001.08735v3 Jht

为了快速适应新数据,通常通过使用已获得的知识来从几个示例中学习的目的很少。新数据通常与由于域移位而引起的先前看到的数据有所不同,即输入目标分布的变化。虽然几种方法在小型域移动上表现良好,例如具有相似输入的新目标类,但较大的域移动仍然具有挑战性 ...

0 0 0 0 2025/03/19 arXiv:2010.06498v2 Jht

跨模式特征提取和集成导致由于产生富裕功能而导致了几次学习任务的稳定性能改进。但是,当面对明显的域移位时,现有的多模式对象检测(MM-OD)方法降低了样本不足。我们假设丰富的文本信息可以更有效地帮助模型建立视觉实例与其语言描述之间的知识关系,并可以帮助减轻域的转移 ...

0 0 0 0 2025/03/17 arXiv:2403.16188v2 Jht

在本文中,我们提出了一项研究跨域的几个射击对象检测(CD-FSOD)基准,该研究由来自不同数据域的图像数据组成。在拟议的基准上,我们评估了最先进的FSOD方法,包括元学习的FSOD方法和微调FSOD方法。结果表明,这些方法倾向于下降,甚至表现不佳 ...

0 0 0 0 2025/03/01 arXiv:2210.05311v3 Jht

少镜头语义分割解决了仅用少量带注释的示例来分割查询图像中的对象的挑战。然而,许多先前最先进的方法要么必须丢弃复杂的局部语义特征,要么遭受高计算复杂度的困扰。为了应对这些挑战,我们提出了一种基于 Transformer 架构的新的少样本语义分割框架 ...

0 0 0 0 2025/02/25 arXiv:2409.11316v2 Jht

夹在各种视觉任务上显示出了显着的零击功能。以前,剪辑仅被视为强大的视觉编码器。但是,在通过大量图像捕获对的语言监督预先训练之后,剪辑本身也应该获得一些视力语言任务的能力 ...

0 0 0 0 2025/02/24 arXiv:2203.07190v1 Jht

我们表明,在几次分段任务中执行推理的方式对性能有实质性的影响 - 在文献中通常忽略了元学习范式的方面。我们通过优化包含三个互补术语的新损失,利用其未标记像素的统计来介绍给定查询图像的跨性推断:i)标记为支持的支撑像素上的跨凝集; ii)在未标记的查询图像像素上,后士的香农熵; iii)基于预测前景的比例,全球kl-divergence正常化程序。由于我们的推理使用提取功能的简单线性分类器,因此其计算负载与电感推理相当,并且可以在任何基本训练的顶部使用 ...

0 0 0 0 2025/02/20 arXiv:2012.06166v2 Jht

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)