基本信息

文件基本信息

名称

MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

首页

https://yiyibooks.cn/arxiv/2512.20626v1/index.html

原始地址

https://arxiv.org/pdf/2512.20626

描述

检索增强生成 (RAG) 使大型语言模型 (LLM) 能够动态访问外部信息，这对于回答有关以前未见过的文档的问题非常有用。尽管如此，由于上下文窗口有限，他们在高层次的概念理解和整体理解方面遇到了困难，这限制了他们对长篇、特定领域内容（如长篇书籍）进行深度推理的能力。 To solve this problem, knowledge graphs (KGs) have been leveraged to provide entity-centric structure and hierarchical summaries, offering more structured support for reasoning.然而，现有的基于 KG 的 RAG 解决方案仍然仅限于纯文本输入，并且无法利用视觉等其他模式提供的补充见解。另一方面，从视觉文档进行推理需要将文本、视觉和空间线索转化为结构化、层次化的概念。为了解决这个问题，我们引入了一种基于多模态知识图谱的 RAG，它可以实现跨模态推理以更好地理解内容。我们的方法将视觉提示融入知识图的构建、检索阶段和答案生成过程中。全局和细粒度问答任务的实验结果表明，我们的方法在文本和多模态语料库上始终优于现有的基于 RAG 的方法 ...