arthur的文档

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

基于对比学习的视频语言表示方法，例如剪辑，已经取得了出色的性能，可以在预定的视频文本对上进行语义互动 ...

0 0 0 0 2025/03/27 arXiv:2303.14369v1 arthur

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

通用多模式嵌入模型在诸如交织的图像文本检索，多模式抹布和多模式聚类等任务中起着至关重要的作用。但是，我们的经验结果表明，经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠，因此有效区分硬性负面对的挑战。为了解决这个问题，我们提出了一个简单而有效的框架，该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...

0 0 0 0 2025/03/24 arXiv:2503.04812v1 arthur

ColPali: Efficient Document Retrieval with Vision Language Models

文档是视觉丰富的结构，通过文本以及表格、图形、页面布局或字体传达信息。虽然现代文档检索系统在查询到文本匹配方面表现出强大的性能，但它们很难有效地利用视觉线索，从而阻碍了它们在检索增强生成等实际文档检索应用程序中的性能。为了对当前系统的视觉丰富文档检索进行基准测试，我们引入了视觉文档检索基准 ViDoRe，它由跨越多个领域、语言和设置的各种页面级检索任务组成 ...

0 0 1 2 2025/03/23 arXiv:2407.01449v6 arthur

Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition

在这项研究中，我们通过描述定义和解决零拍摄的“真实”分类，这是一个新的任务，该任务评估了视觉模型（VLMS）（例如剪辑）之类的能力，例如剪辑，仅根据描述性属性对对象进行分类，不包括对象类名称。这种方法突出了VLM在理解复杂的对象描述中的当前局限性，将这些模型推向了仅仅是对象识别。为了促进这种探索，我们引入了一个新的挑战，并发布了六个流行的细粒基准的数据，该数据省略了对象名称，以鼓励研究社区内的真正的零拍学习 ...

0 0 0 0 2025/03/12 arXiv:2412.13947v1 arthur

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

在扩散模型的显着进步的推动下，文本到图像的生成取得了长足的进步，从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型（MLLM），尤其是强大的商业模型，例如GPT-4O。尽管这些模型非常有效，但它们的大量成本限制了大规模评估中的可伸缩性 ...

0 0 0 0 2025/03/04 arXiv:2411.15488v1 arthur