经典引用表达理解 (REC) 的目标是生成与给定文本描述中提到的对象相对应的边界框。通常,经典 REC 中的现有数据集和技术是针对属于单个目标的表达式量身定制的,这意味着唯一的表达式链接到一个特定对象。未考虑涉及多个目标或不涉及特定目标的表达式 ...

0 0 0 0 2024/08/08 arXiv:2308.16182v2 chengwenxuan7

视频分割训练数据的注释成本很高。这阻碍了端到端算法扩展到新的视频分割任务,特别是在大词汇量设置中。为了在无需对每个任务的视频数据进行训练的情况下“跟踪任何内容”,我们开发了一种解耦视频分割方法(DEVA),该方法由特定于任务的图像级分割和与类/任务无关的双向时间传播组成 ...

0 0 0 0 2024/11/18 arXiv:2309.03903v1 chengwenxuan7

开放词汇分割是一项具有挑战性的任务,需要从一组开放类别中分割和识别对象。解决这一挑战的一种方法是利用多模态模型(例如 CLIP)在共享嵌入空间中提供图像和文本特征,从而弥合封闭词汇表和开放词汇表识别之间的差距。因此,现有方法通常采用两阶段框架来解决该问题,其中输入首先通过掩模生成器,然后通过 CLIP 模型以及预测的掩模 ...

0 0 0 0 2024/09/24 arXiv:2308.02487v2 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)