尽管有培养能力有能力的LLM,但维持其相关性和修正错误的方法仍然难以捉摸。因此,过去几年见证了LLM编辑技术的激增,其目标是有效地改变LLM内特定领域的行为,而不是为了其他输入的性能产生负面影响。本文深入探讨了LLM模型编辑的相关问题、方法和机遇... ...
检索增强生成支持语言模型通过提供外部上下文来加强其事实基础。然而,当提供大量信息时,语言模型常常面临挑战,从而降低了其解决问题的有效性。上下文压缩通过过滤掉不相关的信息来解决这个问题,但当前的方法在现实场景中仍然难以使用单步方法捕获关键信息 ...
Mooncake是Moonshot AI提供的领先LLM服务Kimi的服务平台。它采用以 KVCache 为中心的分解架构,将预填充和解码集群分开。它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的分解缓存 ...
信息提取 (IE) 对于将非结构化数据转换为知识图 (KG) 等结构化格式至关重要。 IE 中的一项关键任务是关系提取 (RE),它识别文本中实体之间的关系。存在各种 RE 方法,包括监督方法、无监督方法、弱监督方法和基于规则的方法 ...
自监督学习(SSL)最近已成为一种有前途的范式,用于在视觉、文本和语音领域的大规模数据上训练通用模型。尽管 SSL 已被证明在语音和音频方面有效,但其在音乐音频方面的应用尚未得到彻底探索。这部分是由于与音乐知识建模相关的独特挑战,特别是音乐的音调和音调特征 ...
近年来,大型语言模型(LLM)的规模急剧扩大,其计算和数据需求也相应激增。最先进的语言模型,即使规模相对较小,通常也需要对至少一万亿个 Token 进行训练。这种快速的进步已经超过了可用于大规模 LLM 预训练的开源数据集的增长 ...
解决有效处理长上下文的挑战已成为大型语言模型(LLM)的一个关键问题。出现了两种常见的策略:1)减少输入长度,例如通过检索增强生成(RAG)检索相关块,2)扩大LLM的上下文窗口限制。然而,这两种策略都有缺点:输入减少不能保证用所需信息覆盖部分,而窗口扩展则难以专注于解决任务的相关信息 ...
生成检索 (GR) 是信息检索中的一种新兴范例,它利用生成模型将查询直接映射到相关文档标识符 (DocID),无需传统的查询处理或文档重新排序。本调查全面概述了遗传资源,重点介绍了关键发展、索引和检索策略以及挑战。我们讨论各种文档标识符策略,包括基于数字和字符串的标识符,并探索不同的文档表示方法 ...
大型语言模型(LLM)在各个领域都展现出巨大的潜力;然而,它们在信息提取(IE)方面表现出显着的性能差距。需要注意的是,高质量的教学数据是提升LLM专业能力的关键,而目前的IE数据集往往规模小、碎片化、缺乏标准化模式。为此,我们引入了IEPile,一个综合性双语(英文和中文)IE指令语料库,其中包含约0. ...
传统的信息提取(IE)方法受到预定义类和静态训练范例的限制,通常在适应性方面表现不佳,尤其是在动态世界中。为了弥补这一差距,我们在本文中探索了一种基于指令的 IE 范例,利用大型语言模型 (LLM) 的强大跨任务泛化能力。我们观察到,大多数现有的 IE 数据集的标签集往往过于冗余,这导致在构建指令时包含大量与提取内容不直接相关的标签 ...