为图像添加标题的方法有一千种。另一方面,对比语言预训练 (CLIP) 的工作原理是将图像及其标题映射到单个向量 - 限制类 CLIP 模型表示描述图像的不同方式的能力。在这项工作中,我们介绍了 Llip,潜在语言图像预训练,它对可以匹配图像的字幕的多样性进行建模 ...
为图像添加标题的方法有一千种。另一方面,对比语言预训练 (CLIP) 的工作原理是将图像及其标题映射到单个向量 - 限制类 CLIP 模型表示描述图像的不同方式的能力。在这项工作中,我们介绍了 Llip,潜在语言图像预训练,它对可以匹配图像的字幕的多样性进行建模 ...