我们建议知识意识预处理(KAP),这是一个针对传统中国非叙事文档量身定制的两阶段预处理框架,旨在提高混合检索系统的检索准确性。混合检索,它整合了稀疏检索(例如 ...

0 0 0 0 2025/04/27 arXiv:2503.08452v1 arthur

我们旨在开发一个检索型的一代(RAG)框架,该框架回答了以混合方式(例如,图表,表格)和各种格式(e ...

0 0 0 0 2025/04/21 arXiv:2504.09795v1 arthur

文档问答(DOCQA)是一项非常普遍的任务。使用大语言模型(LLM)或大型视觉语言模型(LVLM)和检索增强生成(RAG)的现有方法通常优先考虑单个模式的信息,从而无法有效整合文本和视觉提示。这些方法在复杂的多模式推理方面遇到了困难,从而限制了它们在实际文档上的性能 ...

0 0 0 0 2025/04/19 arXiv:2503.13964v1 arthur

检索增强生成 (RAG) 通过集成外部知识来增强大型语言模型 (LLM),以减少幻觉并合并最新信息,而无需重新训练。作为 RAG 的重要组成部分,外部知识库通常是通过使用光学字符识别 (OCR) 从非结构化 PDF 文档中提取结构化数据来构建的。然而,鉴于 OCR 的不完美预测以及结构化数据固有的非均匀表示,知识库不可避免地包含各种 OCR 噪声 ...

0 0 0 0 2025/04/19 arXiv:2412.02592v2 arthur

现有的跨模式检索方法通常依赖于大规模视觉语言对数据。这使得有效地开发出资源不足的感兴趣语言的跨模式检索模型具有挑战性。因此,旨在使视觉和低资源语言(目标语言)保持一致的跨语言跨模式检索(CCR),而无需使用任何人类标记的目标语言数据,但已引起了人们的关注越来越多 ...

0 0 0 0 2025/04/18 arXiv:2412.13510v1 arthur

跨语言跨模式检索(CCR)旨在根据非英语查询来检索视觉相关的内容,而无需在训练过程中依靠人类标记的跨模式数据对。一种流行的方法涉及利用机器翻译(MT)创建伪并行数据对,并在视觉和非英语文本数据之间建立对应关系。但是,由于视觉和文本之间存在显着的语义差距,以及由预训练的编码器和数据噪声引起的非英语表示的质量较低,因此对它们的表示形式构成了挑战 ...

0 0 0 0 2025/04/17 arXiv:2409.19961v1 arthur

多模式的大型语言模型(MLLM)最近在文本丰富的图像理解中显示出巨大的进步,但他们仍然在复杂的,多页的视觉上富裕文档中挣扎。使用文档解析器进行检索的传统方法遭受了性能和效率限制,而将所有页面直接呈现给MLLMS会导致效率低下,尤其是冗长的效率。在这项工作中,我们提出了一个名为** s ** elf的新颖框架 - ** v ** iSual ** r ** r ** etrieval- ** a ** a ** uginged ** g ** gy **势能(sv-rag),它可以拓宽任何MLLM的视野以支持长期记录的理解 ...

0 0 0 0 2025/04/16 arXiv:2411.01106v2 arthur

多模态检索增强生成(mRAG)在缓解多模态大语言模型(MLLM)固有的“幻觉”问题方面发挥着重要作用。尽管很有希望,但现有的启发式 mRAG 通常预定义固定的检索过程,这会导致两个问题:(1)非自适应检索查询。 (2) 重载检索查询 ...

0 0 0 0 2025/04/15 arXiv:2411.02937v4 arthur

基于对比学习的视频语言表示方法,例如剪辑,已经取得了出色的性能,可以在预定的视频文本对上进行语义互动 ...

0 0 0 0 2025/03/27 arXiv:2303.14369v1 arthur

通用多模式嵌入模型在诸如交织的图像文本检索,多模式抹布和多模式聚类等任务中起着至关重要的作用。但是,我们的经验结果表明,经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠,因此有效区分硬性负面对的挑战。为了解决这个问题,我们提出了一个简单而有效的框架,该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...

0 0 0 0 2025/03/24 arXiv:2503.04812v1 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)