检索增强生成 (RAG) 使大型语言模型 (LLM) 能够访问更广泛的知识源,但由于检索文档中的噪音,事实不一致仍然存在,即使使用高级检索方法也是如此。我们证明,增强生成模型处理噪声内容的能力对于稳健的性能同样重要。在本文中,我们提出了 KARE-RAG(RAG 的知识感知细化和增强),它通过三个关键创新提高知识利用率:(1)促进训练期间错误检测的结构化知识表示,(2)密集直接偏好优化(DDPO) - 优先纠正关键错误的细化训练目标,以及(3)对比数据生成管道,在纠正事实错误的同时保持语义一致性。实验表明,我们的方法显着增强了跨模型规模的标准 RAG 管道,在不影响一般功能的情况下提高了域内和域外任务性能。值得注意的是,这些收益是通过适度的训练数据实现的,这表明通过有针对性的学习策略可以实现数据高效的优化。我们的研究结果为 RAG 改进确立了新的方向:通过改进模型学习处理检索到的内容的方式,我们可以提高跨不同推理范式的性能。所有数据和代码都将在 Github 上公开 ...

0 0 0 0 2026/01/23 arXiv:2506.02503v1 落叶