- 名称
- Diffusion Feedback Helps CLIP See Better
- 描述
对比语言图像预训练(CLIP)擅长跨领域和模态抽象开放世界表示,已成为各种视觉和多模态任务的基础。然而,最近的研究表明,CLIP 存在严重的视觉缺陷,例如难以区分方向、数量、颜色、结构等。这些视觉缺陷也限制了基于 CLIP 构建的多模态大语言模型(MLLM)的感知能力 ...
对比语言图像预训练(CLIP)擅长跨领域和模态抽象开放世界表示,已成为各种视觉和多模态任务的基础。然而,最近的研究表明,CLIP 存在严重的视觉缺陷,例如难以区分方向、数量、颜色、结构等。这些视觉缺陷也限制了基于 CLIP 构建的多模态大语言模型(MLLM)的感知能力 ...