18636279200的文档

18636279200

个性签名 ...

Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning

大语言模型（LLM）中的多模式推理与不完整的知识和幻觉伪像斗争，挑战文本知识图（kgs）仅由于其模态隔离而部分缓解。尽管多模式知识图（MMKGS）有望增强跨模式的理解，但它们的实际结构受到了手动文本注释和视觉声音实体链接中固有噪声的语义狭窄的影响。在本文中，我们提出了视觉对语言对语言的综合知识图（Valik），这是一种构建MMKGS的新方法，可通过补充跨模式信息来增强LLMS推理 ...

0 0 0 0 2025/06/28 arXiv:2503.12972v1 18636279200

UniRAG: Universal Retrieval Augmentation for Large Vision Language Models

最近，多模式（MM）大语言模型（LLMS）解锁了许多需要MM理解（例如，图像字幕或视觉问题的回答）和MM生成（e ...

0 0 0 0 2025/06/23 arXiv:2405.10311v3 18636279200

Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning

具有不完整方式的多模式学习是实用且具有挑战性的。最近，研究人员专注于通过应用可学习的提示在缺失的模态条件下提高预训练的多模式 Transformer （MMT）的鲁棒性。但是，这些基于及时的方法面临着几个局限性：（1）不完整的模态为特定于任务的推断提供了受限的模态提示，（2）虚拟内容引起的内容引起了信息丢失并引入噪声，并且（3）静态提示是实例 - 势不可挡，为各种缺失条件提供了有限的知识 ...

0 0 0 0 2025/06/19 arXiv:2501.01120v2 18636279200

Know3-RAG: A Knowledge-aware RAG Framework with Adaptive Retrieval, Generation, and Filtering

大型语言模型（LLM）的最新进展导致了自然语言产生的令人印象深刻的进步，但是它们产生幻觉或未经证实的内容的倾向仍然是一个关键问题。为了提高事实的可靠性，检索功能生成（RAG）在推理过程中整合了外部知识。但是，现有的抹布系统面临两个主要局限性：（1）由于外部知识监督有限而导致的不可靠的适应性控制，以及（2）由于参考不准确或无关的参考而引起的幻觉 ...

0 0 0 0 2025/06/11 arXiv:2505.12662v1 18636279200

A Multi-Granularity Retrieval Framework for Visually-Rich Documents

检索增强的生成（RAG）系统主要集中在基于文本的检索上，从而限制了它们在处理包含文本，图像，表和图表的视觉丰富文档中的有效性。为了弥合这一差距，我们提出了一个针对两个基准任务量身定制的统一的多范围多模式检索框架：mmdocir和m2kr。我们的方法集成了分层编码策略，模态感知的检索机制和视觉语言模型（VLM）的候选候选过滤，以有效捕获和利用文本和视觉方式之间的复杂相互依赖性 ...

0 0 0 0 2025/06/04 arXiv:2505.01457v2 18636279200

RAG-KG-IL: A Multi-Agent Hybrid Framework for Reducing Hallucinations and Enhancing LLM Reasoning through RAG and Incremental Knowledge Graph Learning Integration

本文介绍了RAG-KG-IL，这是一种新型的多代理混合框架，旨在通过将检索功能（RAG）和知识图（kgs）与增量学习（IL）方法整合到大语模型（LLMS）的推理能力（LLMS）。尽管有最近的进步，但LLMS在结构化数据，处理动态知识演变以及缓解幻觉的推理方面仍然面临重大挑战，尤其是在关键任务领域。我们提出的RAG-KG-IL框架通过采用一个多代理体系结构来解决这些局限性，该架构可以实现持续的知识更新，整合结构化知识，并结合了自主的代理，以增强解释性和推理 ...

0 0 0 0 2025/05/28 arXiv:2503.13514v1 18636279200

MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question Answering

搜索增强生成（RAG）在问答（QA）任务中的最新进展表现出了令人印象深刻的表现。然而，之前的大多数作品主要关注基于文本的答案。虽然一些研究涉及多模态数据，但它们在生成全面的多模态答案方面仍然存在不足，特别是在解释概念或提供有关如何实现特定目标的分步教程方面... ...

0 0 0 0 2025/05/22 arXiv:2408.08521v2 18636279200

RAKG:Document-level Retrieval Augmented Knowledge Graph Construction

随着知识图的兴起，基于图形的检索生成（RAG）技术（例如GraphRag和Pike-rag），知识图在增强大语言模型（LLMS）的推理能力中的作用变得越来越重要。但是，传统知识图构造（KGC）方法面临挑战，例如复杂的实体歧义，严格的模式定义和跨文档知识集成不足。本文着重于自动文档级知识图构建的任务 ...

0 0 0 0 2025/04/28 arXiv:2504.09823v1 18636279200

HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation

尽管检索型发电（RAG）增强了具有外部知识的大语言模型（LLMS），但传统的单格抹布在解决复杂的查询方面基本上仍有限制，要求在各个异质数据生态系统中进行协调推理。我们提出了HM-rag，这是一种新型的层次多代理多模式抹布框架，开创了协作智能，以跨结构化，非结构化和基于图形的数据进行动态知识综合。该框架由具有专业代理的三层体系结构组成：一种分解剂，通过语义吸引的查询重写和模式引导的上下文增强将复杂查询分解为上下文相干的子任务；使用专为向量，图形和基于Web的数据库设计的插件模块进行平行，模式特定检索的多源检索剂；以及使用一致性投票来整合多源答案并通过专家模型改进来检索结果的决策代理 ...

0 1 0 0 2025/04/27 arXiv:2504.12330v1 18636279200

Unsupervised Query Routing for Retrieval Augmented Generation

检索型生成的查询路由旨在将输入查询分配给最合适的搜索引擎。现有作品在很大程度上依赖于需要大量手动注释的监督数据集，导致高成本和有限的可扩展性以及对分布外情景的不良概括。为了应对这些挑战，我们介绍了一种新颖的无监督方法，该方法构建了“上限”响应，以评估检索功能的响应的质量 ...

0 0 0 0 2025/04/08 arXiv:2501.07793v1 18636279200