- 名称
- CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation
- 描述
对比语言图像预训练(CLIP)在各种图像级任务上表现出强大的零样本分类能力,从而引发了无需额外训练即可将 CLIP 用于像素级开放词汇语义分割的研究。关键是改进图像级CLIP的空间表示,例如用自注意力图或基于视觉基础模型的注意力图替换最后一层的自注意力图。在本文中,我们提出了一种新颖的分层框架,名为 CLIPer,它分层地改进了 CLIP 的空间表示 ...