chengwenxuan7的文档

YouTube-VOS: A Large-Scale Video Object Segmentation Benchmark

学习长期时空特征对于许多视频分析任务至关重要。但是，现有的视频分割方法主要依赖于静态图像分割技术，并且捕获分割时间依赖的方法必须取决于预审预定的光流模型，从而导致该问题的次优溶液。探索视频分割的时空特征的端到端顺序学习在很大程度上受到可用视频分割数据集的规模限制 ...

0 0 0 0 2025/08/27 arXiv:1809.03327v1 chengwenxuan7

SAMDWICH: Moment-aware Video-text Alignment for Referring Video Object Segmentation

引用视频对象细分（RVO）旨在根据自然语言表达式在视频中进行细分和跟踪对象，需要在视觉内容和文本查询之间进行精确的对齐。但是，现有方法通常会遭受语义不对对准，这在很大程度上是由于训练过程中所有可见对象的偶然框架采样和监督 - 无论它们与表达式的实际相关性如何。为了解决这个问题，我们介绍了一个名为Samdwich的Moment-Mountawane RVOS框架，以及一个新注释的数据集MEVIS-M建立在具有挑战性的MEVIS基准的基础上 ...

0 0 0 0 2025/08/22 arXiv:2508.11955v1 chengwenxuan7

Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation

引用视频对象细分旨在使用自然语言提示在视频中细分和跟踪目标对象。现有方法通常以高度纠缠的方式将视觉和文本功能融合在一起，将多模式信息处理在一起以生成人均掩模。但是，这种方法通常在模棱两可的目标标识中挣扎，尤其是在具有多个相似对象的场景中，并且无法确保跨帧的蒙版持续传播 ...

0 0 0 0 2025/08/18 arXiv:2503.03492v2 chengwenxuan7

ReMeREC: Relation-aware and Multi-entity Referring Expression Comprehension

参考表达理解（REC）旨在根据自然语言描述将指定的实体或区域定位。尽管现有方法处理单一本地化，但他们通常会忽略多种现场中复杂的实体关系，从而限制了它们的准确性和可靠性。此外，缺乏具有细粒度的，成对的图像文本连接注释的高质量数据集阻碍了进一步的进展 ...

0 0 0 0 2025/08/18 arXiv:2507.16877v1 chengwenxuan7

Object-centric Video Question Answering with Visual Grounding and Referring

视频大语言模型（视频学）最近在一般视频理解中表现出了很大的进步。但是，现有模型主要集中于高级理解，仅限于仅文本响应，从而限制了以对象为中心的，多环形交互的灵活性。在本文中，我们做出了三个贡献：（i）我们通过引入视频模型来解决这些限制，该模型能够执行对象参考输入和接地视频推理任务中的输出，即 ...

0 0 0 0 2025/08/18 arXiv:2507.19599v1 chengwenxuan7

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decoder

参考表达式分割（RES）旨在分割通过引用表达式指定的图像区域，并随着多模式大型模型（MLLM）的兴起而流行。尽管MLLM在语义理解中表现出色，但他们的 Token 代范式与像素级密集的预测斗争。现有的RES方法将MLLM与参数较重的细分段（SAM）具有632m网络参数（SAM），或采用牺牲准确性的无SAM轻量级管道 ...

0 0 0 0 2025/08/18 arXiv:2508.04107v2 chengwenxuan7

Latent Expression Generation for Referring Image Segmentation and Grounding

视觉接地任务，例如引用图像分割（RIS）和引用表达理解（REC），旨在根据给定的文本描述本地定位目标对象。图像中的目标对象可以多种方式描述，反映了诸如颜色，位置等的多样性属性。但是，大多数现有的方法都依赖于单个文本输入，该输入仅捕获视觉域中可用的丰富信息的一小部分 ...

0 0 0 0 2025/08/18 arXiv:2508.05123v1 chengwenxuan7

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

视频语言（VIDL）建模的一个巨大挑战在于从图像/视频理解模型和下游VIDL数据中提取的固定视频表示之间的断开连接。最近的研究试图通过端到端培训来减轻这种脱节。为了使其在计算上可行，先前的作品倾向于“幻想”视频输入，即 ...

0 0 0 0 2025/07/13 arXiv:2111.12681v2 chengwenxuan7

All in One: Exploring Unified Video-Language Pre-training

主流视频语言预训练模型\ cite {actbert，clipbert，紫罗兰}由三个部分，视频编码器，文本编码器和视频文本融合 Transformer 组成。他们通过利用较重的单形编码器或多模式融合 Transformer 来追求更好的性能，从而增加参数，而在下游任务中效率较低。在这项工作中，我们首次引入端到端的视频语言模型，即\ textit {All-In-In-In-One Transformer}，该模型将原始视频和文本信号嵌入使用统一的骨干架构中 ...

0 0 0 0 2025/07/13 arXiv:2203.07303v1 chengwenxuan7

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations

引用视频对象细分（RVO）的目的是基于文本描述整个视频中的目标对象。尽管近年来取得了显着的进展，但由于视频语言的理解有限，当前的RVOS模型仍在努力处理复杂的对象描述。为了解决此限制，我们提出\ textbf {refledino}，这是一种端到端的RVOS模型，从预算的视觉接地基础模型中继承了强烈的视觉理解，并进一步赋予了有效的时间理解和对象细分功能 ...

0 0 0 0 2025/07/06 arXiv:2501.14607v2 chengwenxuan7