文档是视觉丰富的结构,通过文本以及表格、图形、页面布局或字体传达信息。虽然现代文档检索系统在查询到文本匹配方面表现出强大的性能,但它们很难有效地利用视觉线索,从而阻碍了它们在检索增强生成等实际文档检索应用程序中的性能。为了对当前系统的视觉丰富文档检索进行基准测试,我们引入了视觉文档检索基准 ViDoRe,它由跨越多个领域、语言和设置的各种页面级检索任务组成 ...

0 0 0 0 2025/03/23 arXiv:2407.01449v6 arthur

从视觉上富裕的文档中了解信息仍然是传统检索型生成(RAG)方法的重大挑战。现有基准主要集中在基于图像的问题答案(QA)上,忽视了密集的视觉文档中有效检索,理解和推理的基本挑战。为了弥合这一差距,我们介绍了Vidoseek,这是一个新颖的数据集,旨在评估需要复杂推理的视觉丰富文档的抹布性能 ...

0 0 0 0 2025/03/23 arXiv:2502.18017v1 arthur

在这项研究中,我们通过描述定义和解决零拍摄的“真实”分类,这是一个新的任务,该任务评估了视觉模型(VLMS)(例如剪辑)之类的能力,例如剪辑,仅根据描述性属性对对象进行分类,不包括对象类名称。这种方法突出了VLM在理解复杂的对象描述中的当前局限性,将这些模型推向了仅仅是对象识别。为了促进这种探索,我们引入了一个新的挑战,并发布了六个流行的细粒基准的数据,该数据省略了对象名称,以鼓励研究社区内的真正的零拍学习 ...

0 0 0 0 2025/03/12 arXiv:2412.13947v1 arthur

人类偏好一致性的最新进展显着增强了多模式的产生和理解。一个关键方法是培训奖励模型,以指导偏好优化。但是,现有模型通常是特定于任务的,从而限制了它们在各种视觉应用中的适应性 ...

0 0 0 0 2025/03/11 arXiv:2503.05236v1 arthur

尽管在生成AI方面取得了重大进展,但由于缺乏有效的指标和标准化的基准,全面的评估仍然具有挑战性。例如,广泛使用的夹克尺寸测量了(生成的)图像和文本提示之间的对齐,但是它无法为涉及对象,属性和关系组成的复杂提示而产生可靠的分数。原因之一是,剪辑编码的文本可以臭名昭著地充当“单词”,将诸如“马正在吃草”之类的提示混为一谈,“草在吃马” ...

0 0 0 0 2025/03/04 arXiv:2404.01291v2 arthur

在扩散模型的显着进步的推动下,文本到图像的生成取得了长足的进步,从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型(MLLM),尤其是强大的商业模型,例如GPT-4O。尽管这些模型非常有效,但它们的大量成本限制了大规模评估中的可伸缩性 ...

0 0 0 0 2025/03/04 arXiv:2411.15488v1 arthur

近年来,多模式大型语言模型(MLLM)在视觉识别任务方面经历了快速的进步。鉴于它们的潜在集成到许多关键应用中,因此重要的是要了解其视觉感知的局限性。在这项工作中,我们研究MLLM在回答有关图像的问题时是否可以像大型视觉细节一样有效地感知小型视觉细节 ...

0 0 0 0 2025/02/25 arXiv:2502.17422v1 arthur

由训练有素的LLM发起的多模式大语言模型(MLLM),首先将图像与文本对齐,然后对多模式混合输入进行微调。但是,MLLM灾难性地忘记了仅文本指令,这些说明不包括图像,可以在初始LLM中解决。在本文中,我们提出了翅膀,这是一种新颖的MLLM,在仅文本对话和多模式理解中都表现出色 ...

0 0 0 0 2025/02/21 arXiv:2406.03496v1 arthur

建立大型视力语言模型的长期文化能力对于视频理解,高分辨率图像理解,多模式代理和推理至关重要。我们介绍了Long-Vita,这是一个简单而有效的大型多模式模型,用于长篇小说视觉语言理解任务。它擅长在4K帧或1M Token 上同时处理和分析图像,视频和文本的方式,同时在短篇文本多模式任务上提供高级性能 ...

0 0 0 0 2025/02/21 arXiv:2502.05177v2 arthur

为了追求卓越的视频处理MLLM,我们遇到了一个令人困惑的悖论:“反宣传法”,其中更多的数据和更大的模型会导致性能较差。这项研究揭示了罪魁祸首:“暂时黑客”,这是一种现象,其中通过固定在精选框架上,缺少完整的视频叙述来建模快捷方式。在这项工作中,我们系统地建立了一个全面的时间黑客攻击理论,从强化学习的角度定义了它,引入了时间的困惑(TPL)分数来评估这种未对准,并提出了不可接受的时间奖励(UTR)框架以减轻时间的黑客攻击 ...

0 0 0 0 2025/02/20 arXiv:2502.12081v1 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)