arxiv FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

名称
FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models
首页
https://yiyibooks.cn/arxiv/2405.10286v1/index.html
原始地址
https://arxiv.org/abs/2405.10286
描述
尽管噪声和字幕质量已被认为是影响视觉语言对比预训练的重要因素,但在本文中,我们表明通过解决这些问题来改进训练过程的全部潜力尚未实现。具体来说,我们首先研究和分析影响训练的两个问题:负对的分配不正确,以及字幕质量和多样性较低。然后,我们设计有效的解决方案来解决这两个问题,这本质上需要使用多个真正的正对进行训练 ...