基本信息 - ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

arxiv ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

阅读

Star 0

名称: ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

首页: https://yiyibooks.cn/arxiv/2410.23287v1/index.html

原始地址: https://arxiv.org/pdf/2410.23287

描述

我们提出了 REM，一个用于分割视频中可以通过自然语言描述的各种概念的框架。我们的方法利用了通过互联网规模数据集上的视频传播模型学习的视觉语言表示。我们方法的一个关键见解是尽可能多地保留生成模型的原始表示，同时在窄域引用对象分割数据集上对其进行微调 ...

0%

上传成功 0 个文件