基本信息 - Diffusion Feedback Helps CLIP See Better

arxiv Diffusion Feedback Helps CLIP See Better

阅读

Star 0

名称: Diffusion Feedback Helps CLIP See Better

首页: https://yiyibooks.cn/arxiv/2407.20171v4/index.html

原始地址: https://arxiv.org/abs/2407.20171

描述

对比语言图像预训练（CLIP）擅长跨领域和模态抽象开放世界表示，已成为各种视觉和多模态任务的基础。然而，最近的研究表明，CLIP 存在严重的视觉缺陷，例如难以区分方向、数量、颜色、结构等。这些视觉缺陷也限制了基于 CLIP 构建的多模态大语言模型（MLLM）的感知能力 ...

文件上传进度

0%

上传成功 0 个文件