jecc的文档

jecc

个性签名 ...

Foundations of Vector Retrieval

向量是通用的数学对象，可以表示文本、图像、语音或这些数据模式的混合。无论数据是由手工制作的特征还是学习的嵌入表示，这种情况都会发生。收集足够多的此类向量，检索问题就变得紧迫相关：查找与查询向量更相似的向量 ...

0 0 0 0 2024/05/14 arXiv:2401.09350v1 jecc

Zero-Shot Listwise Document Reranking with a Large Language Model

基于双编码器或交叉编码器架构的监督排序方法在多阶段文本排序任务中取得了成功，但它们需要大量的相关性判断作为训练数据。在这项工作中，我们提出了具有大型语言模型（LRL）的Listwise Reranker，它在不使用任何特定于任务的训练数据的情况下实现了强大的重新排序有效性。与现有的逐点排序方法不同，LRL 直接对给定的候选文档生成一个重新排序的文档标识符列表 ...

0 0 0 0 2024/05/13 arXiv:2305.02156v1 jecc

Retrieval-Augmented Generation for AI-Generated Content: A Survey

模型算法的进步、可扩展的基础模型架构以及充足的高质量数据集的可用性促进了人工智能生成内容（AIGC）的发展。尽管 AIGC 取得了令人瞩目的表现，但它仍然面临着挑战，例如难以维护最新的长尾知识、数据泄露的风险以及与训练和推理相关的高成本。检索增强生成（RAG）最近成为解决此类挑战的范例 ...

0 0 0 0 2024/05/11 arXiv:2402.19473v4 jecc

R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models

检索增强大语言模型（LLM）利用信息检索系统检索到的相关内容来生成正确的响应，旨在缓解幻觉问题。然而，现有的检索器-响应器方法通常将相关文档附加到 LLM 的提示中以执行文本生成任务，而没有考虑检索到的文档与 LLM 之间细粒度结构语义的交互。这个问题对于准确生成响应尤其重要，因为 LLM 在处理用冗长文档增强的输入提示时往往会“中途失败” ...

0 0 0 0 2024/05/08 arXiv:2405.02659v1 jecc

Financial Report Chunking for Effective Retrieval Augmented Generation

信息分块是检索增强生成 (RAG) 的关键步骤。目前的研究主要集中在段落级分块上。这种方法将所有文本视为平等，并忽略了文档结构中包含的信息 ...

0 0 0 0 2024/05/07 arXiv:2402.05131v3 jecc

FinanceBench: A New Benchmark for Financial Question Answering

FinanceBench 是首创的测试套件，用于评估 LLM 在开卷财务问答 (QA) 方面的表现。它包含 10,231 个有关上市公司的问题，以及相应的答案和证明字符串。 FinanceBench 中的问题在生态上是有效的的，并且讲述了多个场景... ...

0 0 0 0 2024/12/24 arXiv:2311.11944v1 jecc

GRAMMAR: Grounded and Modular Methodology for Assessment of Domain-Specific Retrieval-Augmented Language Model

检索增强生成（RAG）系统已被积极研究并部署在各个行业中，以查询特定领域的知识库。然而，由于缺乏特定领域的查询和相应的基本事实，以及缺乏诊断失败案例原因的系统方法（无论它们是源于知识缺陷还是与系统相关的问题），评估这些系统提出了独特的挑战鲁棒性。为了应对这些挑战，我们引入了 GRAMMAR（RAG 评估的基础模块化方法），这是一个评估框架，包含两个关键要素：1）利用关系数据库和 LLM 有效生成可扩展查询-答案对的数据生成过程 ...

0 0 0 0 2024/05/06 arXiv:2404.19232v2 jecc

When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

在本文中，我们演示了大型语言模型 (LLM) 如何有效地学习使用现成的信息检索 (IR) 系统，特别是当需要额外的上下文来回答给定问题时。考虑到 IR 系统的性能，问答的最佳策略并不总是需要外部信息检索；相反，它通常涉及利用 LLM 本身的参数记忆。先前的研究已经在 PopQA 数据集中发现了这种现象，其中最流行的问题可以使用 LLM 的参数内存来有效解决，而不太流行的问题则需要使用 IR 系统 ...

0 0 0 0 2024/05/06 arXiv:2404.19705v1 jecc

RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing

大型语言模型（LLM）促进了自然语言处理（NLP）领域的重大进步，但它们也遇到了诸如幻觉和针对特定领域知识的需求等挑战。为了解决这些问题，最近的方法库外部资源搜索到的信息与LLM相结合，极大地提高了它们在NLP任务中的表现。本研究论文解决了搜索增强语言模型（RALM）、搜索增强生成（RAG）和搜索增强理解（RAU）缺乏全面概述的问题，深入研究了它们的范式、演变、分类和应用程序... ...

0 2 1 2 2024/12/07 arXiv:2404.19543v1 jecc

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

在本研究中，我们介绍了 CT-LLM，这是一种 2B 大语言模型 (LLM)，它说明了在开发 LLM 时向优先考虑中文的关键转变。 CT-LLM独特地从零开始，与传统方法不同，主要纳入中文文本数据，利用12000亿个 Token 的广泛语料库，其中8000亿个中文 Token 、3000亿个英文 Token 和1000亿个代码 Token 。这种策略组合促进了模型在理解和处理中文方面的卓越能力，通过对齐技术进一步增强了这种能力 ...

0 0 0 0 2024/04/24 arXiv:2404.04167v3 jecc