基本信息 - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

arxiv LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

阅读

Star 0

名称: LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

首页: https://yiyibooks.cn/arxiv/2503.04812v1/index.html

原始地址: https://arxiv.org/pdf/2503.04812

描述

通用多模式嵌入模型在诸如交织的图像文本检索，多模式抹布和多模式聚类等任务中起着至关重要的作用。但是，我们的经验结果表明，经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠，因此有效区分硬性负面对的挑战。为了解决这个问题，我们提出了一个简单而有效的框架，该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...

文件上传进度

0%

上传成功 0 个文件