arxiv LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

名称
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning
首页
https://yiyibooks.cn/arxiv/2503.04812v1/index.html
原始地址
https://arxiv.org/pdf/2503.04812
描述
通用多模式嵌入模型在诸如交织的图像文本检索,多模式抹布和多模式聚类等任务中起着至关重要的作用。但是,我们的经验结果表明,经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠,因此有效区分硬性负面对的挑战。为了解决这个问题,我们提出了一个简单而有效的框架,该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...