我们介绍 MMVU,这是一个全面的专家级、多学科基准,用于评估视频理解中的基础模型。 MMVU 包括 3,000 个专家注释的问题,涵盖四个核心学科的 27 个科目:科学、医疗保健、人文与社会科学以及工程。与之前的基准测试相比,MMVU 具有三个关键的进步 ...

0 0 0 0 2025/01/23 arXiv:2501.12380v1 my_lsz

对比语言-图像预训练(CLIP)因其卓越的零样本性能和对下游任务的出色可迁移性而引起了广泛关注。然而,训练如此大规模的模型通常需要大量的计算和存储,这对使用消费级计算机的普通用户造成了障碍。受这一观察的启发,在本文中,我们研究了如何在仅一个 Nvidia RTX3090 GPU 和 1 TB 存储数据集的情况下实现具有竞争力的性能 ...

0 0 0 0 2025/01/10 arXiv:2411.14789v1 my_lsz

如今,学术和工业机构在海量计算资源的帮助下开发的大型模型呈指数级增长,提出了一个问题:无法获得这些资源的人是否可以做出有价值的科学贡献。为了探索这一点,我们试图在 1,000 美元的有限预算下解决多语言图像检索这一具有挑战性的任务。因此,我们提出了 NLLB-CLIP - CLIP 模型以及来自 NLLB 模型的文本编码器 ...

0 0 0 0 2024/12/27 arXiv:2309.01859v3 my_lsz

对比语言图像预训练 (CLIP) 广泛用于训练模型,通过将图像和文本映射到固定大小的向量,在公共嵌入空间中对齐图像和文本。这些模型是多模式信息检索和相关任务的关键。然而,与专门的文本模型相比,CLIP 模型在纯文本任务中通常表现不佳 ...

0 0 1 1 2024/12/25 arXiv:2405.20204v2 my_lsz

对比语言图像预训练(CLIP)是一种在共享嵌入空间中对齐图像和文本的高效方法。这些模型广泛用于跨模态信息检索和多模态理解等任务。然而,CLIP 模型经常难以处理纯文本任务,与专门的文本模型相比表现不佳 ...

0 0 0 0 2024/12/25 arXiv:2412.08802v1 my_lsz

CLIP 是连接图像和文本的开创性基础模型之一,最近在计算机视觉领域实现了许多突破。然而,其相关的培训成本过高,对其广泛探索造成了重大障碍。在本文中,我们提出了一个令人惊讶的发现,即 CLIP 训练存在逆缩放定律,即使用的图像/文本编码器越大,可应用于训练的图像/文本标记的序列长度越短 ...

0 0 0 0 2024/12/23 arXiv:2305.07017v2 my_lsz

让大型基础模型保持最新数据的成本本质上是昂贵的。为了避免不断再训练的高昂成本,必须不断训练这些模型。由于缺乏任何大规模的持续学习基准或基线,这个问题变得更加严重 ...

0 0 0 0 2024/12/19 arXiv:2310.16226v3 my_lsz

CLIP 等视觉语言模型 (VLM) 通过文本和图像对之间的对比学习进行训练,从而产生对齐的图像和文本嵌入,这对许多下游任务很有用。然而,CLIP 的一个显着缺点是,生成的嵌入空间似乎缺乏纯文本替代方案的一些结构。例如,虽然文本嵌入长期以来一直被认为可以使用矢量算术满足嵌入空间中的 \emph{analogies},但 CLIP 没有这样的属性 ...

0 0 0 0 2024/12/18 arXiv:2409.09721v1 my_lsz

通用人脸图像质量评估(GFIQA)评估人脸图像的感知质量,这对于改进图像恢复算法和为下游任务选择高质量的人脸图像至关重要。我们提出了一种新颖的基于 Transformer 的 GFIQA 方法,该方法由两种独特的机制辅助。首先,双集退化表示学习(DSL)机制使用具有合成和真实退化的面部图像来将退化与内容解耦,确保对现实世界场景的通用性 ...

0 0 0 0 2024/12/16 arXiv:2406.09622v1 my_lsz

训练大型视觉语言模型需要大量、高质量的图像文本对。然而,现有的网络抓取数据集充满噪音并且缺乏详细的图像描述。为了弥补这一差距,我们引入了 PixelProse,这是一个包含超过 16M(百万)个综合生成的字幕的综合数据集,利用尖端的视觉语言模型进行详细而准确的描述 ...

0 0 0 0 2024/12/12 arXiv:2406.10328v1 my_lsz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)