arxiv ColPali: Efficient Document Retrieval with Vision Language Models

名称
ColPali: Efficient Document Retrieval with Vision Language Models
首页
https://yiyibooks.cn/arxiv/2407.01449v6/index.html
原始地址
https://arxiv.org/abs/2407.01449
描述
文档是视觉丰富的结构,通过文本以及表格、图形、页面布局或字体传达信息。虽然现代文档检索系统在查询到文本匹配方面表现出强大的性能,但它们很难有效地利用视觉线索,从而阻碍了它们在检索增强生成等实际文档检索应用程序中的性能。为了对当前系统的视觉丰富文档检索进行基准测试,我们引入了视觉文档检索基准 ViDoRe,它由跨越多个领域、语言和设置的各种页面级检索任务组成 ...