chengwenxuan7的文档

chengwenxuan7

个性签名 ...

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

视频语言（VIDL）建模的一个巨大挑战在于从图像/视频理解模型和下游VIDL数据中提取的固定视频表示之间的断开连接。最近的研究试图通过端到端培训来减轻这种脱节。为了使其在计算上可行，先前的作品倾向于“幻想”视频输入，即 ...

0 0 0 0 2025/07/13 arXiv:2111.12681v2 chengwenxuan7

All in One: Exploring Unified Video-Language Pre-training

主流视频语言预训练模型\ cite {actbert，clipbert，紫罗兰}由三个部分，视频编码器，文本编码器和视频文本融合 Transformer 组成。他们通过利用较重的单形编码器或多模式融合 Transformer 来追求更好的性能，从而增加参数，而在下游任务中效率较低。在这项工作中，我们首次引入端到端的视频语言模型，即\ textit {All-In-In-In-One Transformer}，该模型将原始视频和文本信号嵌入使用统一的骨干架构中 ...

0 0 0 0 2025/07/13 arXiv:2203.07303v1 chengwenxuan7

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations

引用视频对象细分（RVO）的目的是基于文本描述整个视频中的目标对象。尽管近年来取得了显着的进展，但由于视频语言的理解有限，当前的RVOS模型仍在努力处理复杂的对象描述。为了解决此限制，我们提出\ textbf {refledino}，这是一种端到端的RVOS模型，从预算的视觉接地基础模型中继承了强烈的视觉理解，并进一步赋予了有效的时间理解和对象细分功能 ...

0 0 0 0 2025/07/06 arXiv:2501.14607v2 chengwenxuan7

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model

我们提出XMEM，这是一种由Atkinson-Shiffrin内存模型启发的统一功能存储器存储的长视频的视频对象分割体系结构。视频对象分割的先前工作通常仅使用一种类型的功能内存。对于超过一分钟的视频，单个功能内存模型紧密地链接了内存消耗和准确性 ...

0 1 0 0 2025/06/25 arXiv:2207.07115v2 chengwenxuan7

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

在本文中，我们介绍了运动座的视频推理，这是一项新的运动理解任务，需要根据输入问题生成视觉答案（视频分割掩码），因此需要隐含的时空推理和接地。这项任务通过通过问题启用隐性推理，将重点放在明确的动作/运动接地上的现有时空接地工作扩展到了更通用的格式。为了促进新任务的开发，我们收集了一个名为GroundMore的大规模数据集，该数据集包括1,715个视频剪辑，249k对象蒙版，这些镜头是故意设计的，具有4种问题类型（因果关系，顺序，反事实和描述性），用于基于深度和全面的运动推理能力 ...

0 0 0 0 2025/06/24 arXiv:2411.09921v2 chengwenxuan7

ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025

引用视频对象细分（RVO）的目的是基于文本描述整个视频中的目标对象。由于其在视频编辑和人类代理互动中的有希望的应用，该任务引起了计算机视觉领域的越来越多的关注。最近，推荐通过从验证的基础图像模型中调整对象级视力语言知识，在这项任务中表现出了令人鼓舞的表现 ...

0 0 0 0 2025/06/23 arXiv:2503.23509v2 chengwenxuan7

Referring Video Object Segmentation via Language-aligned Track Selection

引用视频对象细分（RVO）需要根据给定的自然语言表达式在视频中跟踪和分割对象，要求复杂的运动理解和视觉表示与语言描述的对齐。鉴于这些挑战，最近提出的任何模型2（SAM2）成为潜在候选者，因为它能够在视频框架上生成相干分割掩码轨道，并在其对象 Token 表示中提供固有的时空暂时性对象。在本文中，我们介绍了Sola（按对象语言对齐方式选择），这是一个利用SAM2对象 Token 作为紧凑的视频级对象表示的新颖框架，通过轻量级轨道选择模块与语言功能一致 ...

0 0 0 0 2025/06/14 arXiv:2412.01136v2 chengwenxuan7

InterRVOS: Interaction-aware Referring Video Object Segmentation

引用视频对象细分旨在将对象与给定自然语言表达式相对应的视频中进行分割。虽然先前的工作探索了各种参考方案，包括以运动为中心或多命名表达式，但大多数方法仍然专注于隔离定位单个目标对象。但是，在全面的视频理解中，对象的角色通常取决于其与其他实体的相互作用，这些实体在现有数据集和模型中很大程度上被忽略了 ...

0 0 0 0 2025/06/13 arXiv:2506.02356v2 chengwenxuan7

Improving Contrastive Learning for Referring Expression Counting

对象计数已从特定于类的模型（仅计数已知类别）发展为概括为看不见类别的类别模型。下一个挑战是转介表达计数（REC），其中的目标是基于细粒属性和上下文差异对象进行计数。现有方法与区分属于同一类别但对应于不同的参考表达式相对应的视觉上相似对象而努力 ...

0 0 0 0 2025/06/11 arXiv:2505.22850v1 chengwenxuan7

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

这项工作介绍了SA2VA，这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同，SA2VA支持广泛的图像和视频任务，包括参考细分和对话，并以最少的单次指令调整调整。 SA2VA结合了SAM-2（基础视频细分模型）与Llava（一个先进的视觉语言模型）结合在一起，将文本，图像和视频统一为共享的LLM Token 空间 ...

0 0 0 0 2025/05/20 arXiv:2501.04001v2 chengwenxuan7