Mooncake是Moonshot AI提供的领先LLM服务Kimi的服务平台。它采用以 KVCache 为中心的分解架构,将预填充和解码集群分开。它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的分解缓存 ...
信息提取 (IE) 对于将非结构化数据转换为知识图 (KG) 等结构化格式至关重要。 IE 中的一项关键任务是关系提取 (RE),它识别文本中实体之间的关系。存在各种 RE 方法,包括监督方法、无监督方法、弱监督方法和基于规则的方法 ...
自监督学习(SSL)最近已成为一种有前途的范式,用于在视觉、文本和语音领域的大规模数据上训练通用模型。尽管 SSL 已被证明在语音和音频方面有效,但其在音乐音频方面的应用尚未得到彻底探索。这部分是由于与音乐知识建模相关的独特挑战,特别是音乐的音调和音调特征 ...
近年来,大型语言模型(LLM)的规模急剧扩大,其计算和数据需求也相应激增。最先进的语言模型,即使规模相对较小,通常也需要对至少一万亿个 Token 进行训练。这种快速的进步已经超过了可用于大规模 LLM 预训练的开源数据集的增长 ...
解决有效处理长上下文的挑战已成为大型语言模型(LLM)的一个关键问题。出现了两种常见的策略:1)减少输入长度,例如通过检索增强生成(RAG)检索相关块,2)扩大LLM的上下文窗口限制。然而,这两种策略都有缺点:输入减少不能保证用所需信息覆盖部分,而窗口扩展则难以专注于解决任务的相关信息 ...
生成检索 (GR) 是信息检索中的一种新兴范例,它利用生成模型将查询直接映射到相关文档标识符 (DocID),无需传统的查询处理或文档重新排序。本调查全面概述了遗传资源,重点介绍了关键发展、索引和检索策略以及挑战。我们讨论各种文档标识符策略,包括基于数字和字符串的标识符,并探索不同的文档表示方法 ...
大型语言模型(LLM)在各个领域都展现出巨大的潜力;然而,它们在信息提取(IE)方面表现出显着的性能差距。需要注意的是,高质量的教学数据是提升LLM专业能力的关键,而目前的IE数据集往往规模小、碎片化、缺乏标准化模式。为此,我们引入了IEPile,一个综合性双语(英文和中文)IE指令语料库,其中包含约0. ...
传统的信息提取(IE)方法受到预定义类和静态训练范例的限制,通常在适应性方面表现不佳,尤其是在动态世界中。为了弥补这一差距,我们在本文中探索了一种基于指令的 IE 范例,利用大型语言模型 (LLM) 的强大跨任务泛化能力。我们观察到,大多数现有的 IE 数据集的标签集往往过于冗余,这导致在构建指令时包含大量与提取内容不直接相关的标签 ...
现代 LVLM 仍然难以实现细粒度的文档理解,例如用户感兴趣区域的 OCR/翻译/标题、需要整个页面甚至多个页面上下文的任务。因此,本文提出了 Fox,一种有效的管道、混合数据和调优策略,可催化 LVLM 专注于单页/多页文档的任何位置。我们引入了一项新颖的任务,通过使 LVLM 将注意力集中在文档级区域来增强文档理解,例如将整页 OCR 重新定义为前景焦点 ...
用户喜欢在在线社区中分享“笔记”,包括他们的经历。因此,推荐符合用户兴趣的笔记就成为关键的任务。现有的在线方法仅将注释输入到基于伯特的模型中,以生成注释嵌入来评估相似性... ... ...