基本信息 - FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

arxiv FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

阅读

Star 0

名称: FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

首页: https://yiyibooks.cn/arxiv/2405.10286v1/index.html

原始地址: https://arxiv.org/abs/2405.10286

描述

尽管噪声和字幕质量已被认为是影响视觉语言对比预训练的重要因素，但在本文中，我们表明通过解决这些问题来改进训练过程的全部潜力尚未实现。具体来说，我们首先研究和分析影响训练的两个问题：负对的分配不正确，以及字幕质量和多样性较低。然后，我们设计有效的解决方案来解决这两个问题，这本质上需要使用多个真正的正对进行训练 ...

文件上传进度

0%

上传成功 0 个文件