arxiv ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

名称
ReferEverything: Towards Segmenting Everything We Can Speak of in Videos
首页
https://yiyibooks.cn/arxiv/2410.23287v1/index.html
原始地址
https://arxiv.org/pdf/2410.23287
描述
我们提出了 REM,一个用于分割视频中可以通过自然语言描述的各种概念的框架。我们的方法利用了通过互联网规模数据集上的视频传播模型学习的视觉语言表示。我们方法的一个关键见解是尽可能多地保留生成模型的原始表示,同时在窄域引用对象分割数据集上对其进行微调 ...