在本文中,我们研究了检索增强编码器-解码器语言模型的上下文学习能力。我们首先对最先进的 ATLAS 模型进行全面分析,并确定其在上下文学习中的局限性,这主要是由于预训练和测试之间的不匹配以及上下文长度的限制。为了解决这些问题,我们提出了 RAVEN,一种结合了检索增强掩码语言建模和前缀语言建模的模型 ...

0 0 0 0 2024/12/27 arXiv:2308.07922v3 15966829631

语义标识符 (ID) 是信息检索中的一个重要概念,旨在保留 ID 内的文档和项目等对象的语义。以前的研究通常采用两阶段管道来学习语义 ID,首先使用现成的文本编码器获取嵌入,然后根据嵌入导出 ID。然而,每个步骤都会引入潜在的信息丢失,并且文本编码器产生的潜在空间内的嵌入分布与语义索引所需的预期分布之间通常存在固有的不匹配 ...

0 0 0 0 2024/12/27 arXiv:2310.07815v3 15966829631

大型语言模型 (LLM) 具有只需几个示例即可解决新任务的卓越能力,但它们需要使用正确的工具。检索增强生成 (RAG) 通过检索给定任务的相关工具列表来解决此问题。然而,RAG 的工具检索步骤要求所有必需的信息都显式地出现在查询中 ...

0 0 0 0 2024/12/26 arXiv:2312.05708v1 15966829631

高效的知识检索通过促进选择满足用户请求所需的相关信息,在确保端到端面向任务的对话系统的成功方面发挥着关键作用。然而,当前的方法通常集成知识检索和响应生成,这在处理广泛的知识库时带来了可扩展性挑战。受到开放域问答的启发,我们提出了一种检索器-生成器架构,它利用检索器来检索相关知识,并利用生成器来生成系统响应 ...

0 0 0 0 2024/12/26 arXiv:2310.14528v1 15966829631

错误信息的挑战不断升级,特别是在政治言论中,需要先进的事实核查解决方案;在更复杂的多式联运索赔情况下,这一点更加明显。我们使用多模态大语言模型结合检索增强生成(RAG)来解决这个问题,并引入两种新颖的推理技术:RAG 链(CoRAG)和 RAG 树(ToRAG)。他们通过提取文本和图像内容、检索外部信息并根据先前的证据推理要回答的后续问题来对多模式主张进行事实核查 ...

0 0 0 0 2024/12/26 arXiv:2404.12065v2 15966829631

检索增强语言建模 (RALM) 方法在生成过程中根据基础语料库中的相关文档来调节语言模型 (LM),该方法被证明可以显着提高语言建模性能。此外,它们还可以缓解文本生成事实上不准确的问题,并提供自然来源归因机制。现有的 RALM 方法侧重于修改 LM 架构,以促进外部信息的合并,从而使部署变得非常复杂 ...

0 0 0 0 2024/12/26 arXiv:2302.00083v3 15966829631

利用大型语言模型生成代码在软件开发革命中显示出了良好的意义。尽管一般大型语言模型表现出智能,但由于自然语言和不同编程语言之间存在句法差距和词汇不匹配,它们在代码生成方面的特异性仍然可以提高。在本文中,我们提出了 CodeGRAG,一种图形检索增强代码生成框架,以增强 LLM 的性能 ...

0 0 0 0 2024/12/25 arXiv:2405.02355v3 15966829631

在这项研究中,我们引入了 BEnQA,这是一个包含孟加拉国初高中水平的平行孟加拉语和英语考试问题的数据集。我们的数据集包含大约 5000 个问题,涵盖多个科学主题,具有不同类型的问题,包括基于事实、应用和推理的问题。我们使用并行数据集对多个大型语言模型 (LLM) 进行基准测试,并观察到孟加拉语和英语模型之间存在显着的性能差异 ...

0 0 0 0 2024/12/24 arXiv:2403.10900v1 15966829631

问答(QA)有效评估语言模型的推理和知识深度。虽然一般领域和生物医学等领域的 QA 数据集非常丰富,但学术化学的探索却很少。化学质量保证通过有效地将复杂的化学信息转化为易于理解的格式,在教育和研究中发挥着至关重要的作用 ...

0 0 0 0 2024/12/24 arXiv:2407.16931v1 15966829631

GNN 和化学指纹是代表分子进行属性预测的主要方法。然而,在 NLP 中,由于其强大的下游任务迁移能力,Transformer 已成为表示学习事实上的标准。与此同时,围绕 Transformer 的软件生态系统正在迅速成熟,HuggingFace 和 BertViz 等库可以简化培训和内省 ...

0 0 0 0 2024/12/24 arXiv:2010.09885v2 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)