- 名称
- LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning
- 描述
通用多模式嵌入模型在诸如交织的图像文本检索,多模式抹布和多模式聚类等任务中起着至关重要的作用。但是,我们的经验结果表明,经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠,因此有效区分硬性负面对的挑战。为了解决这个问题,我们提出了一个简单而有效的框架,该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...