从交替暴露捕获的图像序列中重建高动态范围(HDR)视频很具有挑战性,尤其是在存在大型相机或对象运动的情况下。现有方法通常使用光流或注意机制来对齐低动态范围序列。但是,他们通常很难处理大型复杂动作,并且在计算上很昂贵 ...

0 0 0 0 2025/07/06 arXiv:2403.03447v1 Jht

基于文本的提示学习方法主要以级联的方式使用多个可学习的软提示和硬类 Token 作为文本输入,旨在使下游任务对齐图像和文本(类别)空间。但是,当前的培训仅限于将图像与预定义的类别对齐,并且不能与未知类别相关联。在这项工作中,我们建议利用通用属性作为增强图像和未知类别之间对齐的桥梁 ...

0 0 0 0 2025/07/02 arXiv:2412.09442v2 Jht

跨域少数射击对象检测(CD-FSOD)旨在通过有限的类实例在不同域中检测新对象。特征混乱,包括对象背景混乱和对象对象混乱,在跨域和少量设置中都面临着重大挑战。在这项工作中,我们介绍了CDFORMER,这是一种跨域几乎没有针对特征混乱的对象检测 Transformer ,以应对这些挑战 ...

0 0 0 0 2025/06/26 arXiv:2505.00938v1 Jht

最近,视觉模型(例如剪辑)在零拍异常检测(ZSAD)中表现出了显着的性能 ...

0 0 0 0 2025/06/15 arXiv:2503.10080v3 Jht

参数有效的微调(PEFT)是一种使我们能够适应强大的基础模型(FMS)的技术,同时保留和释放其固有的功能,以适应下游任务。但是,我们已经观察到,现有的PEFT方法通常是考虑到自然图像的设计,当应用于遥感(RS)方案时挣扎。这主要是由于它们无法处理人工制品影响,这在RS图像特征中尤其严重 ...

0 0 0 0 2025/05/04 arXiv:2504.06220v3 Jht

微调视觉语言模型(VLM)的最新进展见证了迅速调整和适配器调整的成功,而对固有参数的经典模型进行了微调。据信,通过微调剪辑模型甚至会降低性能,对VLM的微调参数进行了几次损坏。在本文中,我们重新审视了这个观点,并提出了一个新的视角:对特定参数进行微调,而不是所有参数,将发现VLMS上经典模型的功能 ...

0 0 0 0 2025/05/02 arXiv:2409.16718v2 Jht

预先训练的视觉语言模型以剪辑为例,通过将视觉特征与类嵌入的视觉特征通过 Transformer 解码器对齐来生成语义掩码,从而进步零击语义分割。尽管具有有效性,但这种范式中的主要方法遇到了挑战,包括过度适合可见的班级和面具中的小碎片化。为了减轻这些问题,我们提出了一种语言驱动的视觉共识(LDVC)方法,从而促进了语义和视觉效果的改进,因此我们将嵌入式嵌入为锚点,因为它们的离散性和抽象的性质,将视觉视觉转向了类嵌入 ...

0 0 0 0 2025/04/28 arXiv:2403.08426v1 Jht

随着基于视觉 Transformer 的模型的规模,这些新任务的这些大规模经过预定的模型的填充已经变得越来越强。视觉及时调整作为参数有效的芬特(PEFT)方法引入了此趋势。尽管取得了成功,但在几乎所有PEFT方法中都存在着一个显着的研究挑战:当在预训练和填充阶段应用的数据集之间存在很大的差异时,就会观察到显着的性能下降 ...

0 0 0 0 2025/04/28 arXiv:2411.01327v2 Jht

最近,剪辑在像素级零弹射段任务的域中发现了实用性。目前的景观以两阶段的方法为特征,这些方法被复杂的管道和计算成本提高等问题所吸引。尽管当前的一阶段方法可以减轻这些关注点,并将视觉及时培训(VPT)纳入夹具的概括能力,但它们仍然无法完全利用Clip的像素级别的未看到类别的类别划分和精确的像素预测的潜力 ...

0 0 0 0 2025/04/27 arXiv:2312.12754v2 Jht

最近,剪辑已通过两阶段方案应用于像素级零击学习任务。一般的想法是首先生成类不足的区域建议,然后喂养裁剪的建议区域以夹夹以利用其图像级零摄像分类能力。虽然有效,但这种方案需要两个图像编码器,一个用于提案生成,一个用于剪辑,导致了复杂的管道和高计算成本 ...

0 0 0 0 2025/04/25 arXiv:2212.03588v3 Jht

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)