arxiv MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

/documents/68604/

基本信息

文件基本信息

名称
MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation
描述
检索增强生成 (RAG) 使大型语言模型 (LLM) 能够动态访问外部信息,这对于回答有关以前未见过的文档的问题非常有用。尽管如此,由于上下文窗口有限,他们在高层次的概念理解和整体理解方面遇到了困难,这限制了他们对长篇、特定领域内容(如长篇书籍)进行深度推理的能力。 To solve this problem, knowledge graphs (KGs) have been leveraged to provide entity-centric structure and hierarchical summaries, offering more structured support for reasoning.然而,现有的基于 KG 的 RAG 解决方案仍然仅限于纯文本输入,并且无法利用视觉等其他模式提供的补充见解。另一方面,从视觉文档进行推理需要将文本、视觉和空间线索转化为结构化、层次化的概念。为了解决这个问题,我们引入了一种基于多模态知识图谱的 RAG,它可以实现跨模态推理以更好地理解内容。我们的方法将视觉提示融入知识图的构建、检索阶段和答案生成过程中。全局和细粒度问答任务的实验结果表明,我们的方法在文本和多模态语料库上始终优于现有的基于 RAG 的方法 ...