对象计数已从特定于类的模型(仅计数已知类别)发展为概括为看不见类别的类别模型。下一个挑战是转介表达计数(REC),其中的目标是基于细粒属性和上下文差异对象进行计数。现有方法与区分属于同一类别但对应于不同的参考表达式相对应的视觉上相似对象而努力 ...

0 0 0 0 2025/06/11 arXiv:2505.22850v1 chengwenxuan7

这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...

0 0 0 0 2025/05/20 arXiv:2501.04001v2 chengwenxuan7

直到最近,视频实例细分(VIS)社区一直以这样的信念运行,即离线方法通常比在线处理框架优于框架。但是,在线方法的最新成功质疑这种信念,尤其是对挑战性和长期视频序列的质疑。我们将这项工作理解为对这些最近观察的反驳,并呼吁社区专注于近乎对方的VIS方法 ...

0 0 0 0 2025/05/15 arXiv:2308.15266v2 chengwenxuan7

视频实例细分(VIS)是具有不同应用程序的关键任务,包括自动驾驶和视频编辑。现有方法通常在现实世界中的复杂和长视频上表现不佳,这主要是由于两个因素。首先,离线方法受到紧密耦合的建模范式的限制,该模型范式均等对待所有帧并无视相邻帧之间的相互依赖性 ...

0 0 0 0 2025/05/09 arXiv:2306.03413v3 chengwenxuan7

我们介绍\ textbf {d} ecoupled \ textbf {vi} deo \ textbf {s} ementementation(dvis)框架,这是一种具有挑战性的通用视频细分任务的新方法,包括视频实例段(VIS),视频语义分割(VISE Semantic Sementation(VIS),视频语义序列(VSS),和视频panoptict(视频panoptict)。与以前以端到端进行视频分割建模的方法不同,我们的方法将视频分割分解为三个级联的子任务:分割,跟踪和改进。这种去耦设计可实现对物体时空表示的更简单,更有效的建模,尤其是在复杂的场景和长视频中 ...

0 0 0 0 2025/05/09 arXiv:2312.13305v1 chengwenxuan7

在视频实例细分(VIS)社区中,用复杂和遮挡的序列处理长视频最近成为了新的挑战。但是,现有方法在应对这一挑战方面有局限性。我们认为,当前方法中最大的瓶颈是训练和推理之间的差异 ...

0 0 0 0 2025/05/09 arXiv:2211.08834v2 chengwenxuan7

视频实例分割(VIS)是需要同时对视频中感兴趣的对象实例进行分类,分割和跟踪对象实例的任务。最近的方法通常会开发出复杂的管道来解决这项任务。在这里,我们提出了一个新的视频实例分割框架,该框架构建在 Transformer 上,称为Vistr,该框架将VIS任务视为直接端到端并行序列解码/预测问题 ...

0 0 0 0 2025/05/08 arXiv:2011.14503v5 chengwenxuan7

引用遥感图像分割(RRSIS)旨在根据文本描述将目标对象(RS)图像分割。尽管任何模型2(SAM 2)在各种细分任务中都表现出了出色的性能,但其在RRSIS的应用中提出了一些挑战,包括了解文本描述的RS场景并从文本描述中生成有效的提示。为了解决这些问题,我们提出了RS2-SAM 2,这是一个新颖的框架,它通过对齐适应的RS功能和文本功能来适应SAM 2,以适应RRSIS,从而提供基于伪遮罩的密集提示,并实施边界约束 ...

0 0 0 0 2025/04/18 arXiv:2503.07266v1 chengwenxuan7

大多数先进的视觉接地方法依靠 Transformer 进行视觉语言特征融合。但是,这些基于 Transformer 的方法遇到了一个重要的缺点:由于 Transformer 编码器中的自我发起机制,尤其是在处理高分辨率图像或长上下文句子时,计算成本正常升级。计算负担的这种二次增加限制了视觉接地对更复杂的场景的适用性,例如基于对话的推理细分,涉及冗长的语言表达式 ...

0 0 0 0 2025/04/18 arXiv:2408.01120v1 chengwenxuan7

参考图像分割(RIS)是一项具有挑战性的任务,需要算法来分割由自由形式语言表达式引用的对象。尽管近年来取得了重大进展,但大多数最先进的方法(SOTA)方法仍然存在相当大的语言图像模态差距在像素和单词级别。这些方法通常1)依靠句子级的语言特征来进行语言图像对齐,2)缺乏明确的训练监督,无法进行细粒度的视觉接地 ...

0 0 0 0 2025/04/18 arXiv:2312.12198v2 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)