视频实例细分(VIS)是具有不同应用程序的关键任务,包括自动驾驶和视频编辑。现有方法通常在现实世界中的复杂和长视频上表现不佳,这主要是由于两个因素。首先,离线方法受到紧密耦合的建模范式的限制,该模型范式均等对待所有帧并无视相邻帧之间的相互依赖性 ...

0 0 0 0 2025/05/09 arXiv:2306.03413v3 chengwenxuan7

我们介绍\ textbf {d} ecoupled \ textbf {vi} deo \ textbf {s} ementementation(dvis)框架,这是一种具有挑战性的通用视频细分任务的新方法,包括视频实例段(VIS),视频语义分割(VISE Semantic Sementation(VIS),视频语义序列(VSS),和视频panoptict(视频panoptict)。与以前以端到端进行视频分割建模的方法不同,我们的方法将视频分割分解为三个级联的子任务:分割,跟踪和改进。这种去耦设计可实现对物体时空表示的更简单,更有效的建模,尤其是在复杂的场景和长视频中 ...

0 0 0 0 2025/05/09 arXiv:2312.13305v1 chengwenxuan7

在视频实例细分(VIS)社区中,用复杂和遮挡的序列处理长视频最近成为了新的挑战。但是,现有方法在应对这一挑战方面有局限性。我们认为,当前方法中最大的瓶颈是训练和推理之间的差异 ...

0 0 0 0 2025/05/09 arXiv:2211.08834v2 chengwenxuan7

视频实例分割(VIS)是需要同时对视频中感兴趣的对象实例进行分类,分割和跟踪对象实例的任务。最近的方法通常会开发出复杂的管道来解决这项任务。在这里,我们提出了一个新的视频实例分割框架,该框架构建在 Transformer 上,称为Vistr,该框架将VIS任务视为直接端到端并行序列解码/预测问题 ...

0 0 0 0 2025/05/08 arXiv:2011.14503v5 chengwenxuan7

引用遥感图像分割(RRSIS)旨在根据文本描述将目标对象(RS)图像分割。尽管任何模型2(SAM 2)在各种细分任务中都表现出了出色的性能,但其在RRSIS的应用中提出了一些挑战,包括了解文本描述的RS场景并从文本描述中生成有效的提示。为了解决这些问题,我们提出了RS2-SAM 2,这是一个新颖的框架,它通过对齐适应的RS功能和文本功能来适应SAM 2,以适应RRSIS,从而提供基于伪遮罩的密集提示,并实施边界约束 ...

0 0 0 0 2025/04/18 arXiv:2503.07266v1 chengwenxuan7

大多数先进的视觉接地方法依靠 Transformer 进行视觉语言特征融合。但是,这些基于 Transformer 的方法遇到了一个重要的缺点:由于 Transformer 编码器中的自我发起机制,尤其是在处理高分辨率图像或长上下文句子时,计算成本正常升级。计算负担的这种二次增加限制了视觉接地对更复杂的场景的适用性,例如基于对话的推理细分,涉及冗长的语言表达式 ...

0 0 0 0 2025/04/18 arXiv:2408.01120v1 chengwenxuan7

参考图像分割(RIS)是一项具有挑战性的任务,需要算法来分割由自由形式语言表达式引用的对象。尽管近年来取得了重大进展,但大多数最先进的方法(SOTA)方法仍然存在相当大的语言图像模态差距在像素和单词级别。这些方法通常1)依靠句子级的语言特征来进行语言图像对齐,2)缺乏明确的训练监督,无法进行细粒度的视觉接地 ...

0 0 0 0 2025/04/18 arXiv:2312.12198v2 chengwenxuan7

视觉接地(VG)是视觉和语言领域的关键主题,涉及在图像中找到由表达式描述的特定区域。为了减少对手动标记数据的依赖,已经开发了无监督的视觉接地,以使用伪标记定位区域。但是,现有的无监督方法的性能高度取决于伪标签的质量,这些方法总是遇到有限多样性的问题 ...

0 0 0 0 2025/04/18 arXiv:2305.08685v5 chengwenxuan7

参考图片分割旨在通过自然语言将引用率划分为本http url到文本和图像之间的不同数据属性,对于网络而言,良好地对齐文本和像素级特征是一项挑战。现有的方法使用预验证的模型来促进学习,但分别从验证的模型中传递了语言/视觉知识,而忽略了多模式的相应信息。受到对比的语言图像预处理(剪辑)的最新进展的启发,我们在本文中提出了一个端到端夹子驱动的参考图像分割框架(CRIS) ...

0 0 0 0 2025/04/17 arXiv:2111.15174v2 chengwenxuan7

引用表达分割(RES)旨在分割与描述性语言表达式相匹配的实体掩模。尽管传统的RES方法主要解决对象级接地,但现实世界的场景需要一个更通用的框架,该框架可以处理多个级别的目标粒度,例如多对象,单个对象或部分级别的引用。由于用户描述目标的多样化和细微差别的方式,这引入了巨大的挑战 ...

0 0 0 0 2025/04/17 arXiv:2504.01954v1 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)