基于 Transformer 的大型语言模型 (LLM) 的最新进展导致许多任务的性能显着提高。这些收益伴随着模型大小的急剧增加,可能导致推理时的使用缓慢且成本高昂。然而,实际上, LLM 所经历的一系列世代是由不同难度级别组成的 ...

0 0 0 0 2024/05/13 arXiv:2207.07061v2 slices

段落检索是许多信息系统中的一项基本任务,例如网络搜索和问答系统,其中效率和有效性都是关键问题。近年来,基于预训练语言模型(PLM)的神经检索器(例如双编码器)取得了巨大成功。然而,研究发现,由于忽略了查询和候选段落之间的交互信息,双编码器的性能往往受到限制 ...

0 0 0 0 2024/05/10 arXiv:2306.02371v3 slices

在深度学习和图神经网络的影响下,推荐系统取得了显着的进步,特别是在捕获复杂的用户-项目关系方面。然而,这些基于图的推荐器严重依赖基于 ID 的数据,可能会忽略与用户和项目相关的有价值的文本信息,从而导致学习到的表示信息较少。此外,隐式反馈数据的使用引入了潜在的噪声和偏差,对用户偏好学习的有效性提出了挑战 ...

0 0 0 0 2024/05/03 arXiv:2310.15950v4 slices

从非结构化文本中智能地提取和链接复杂的科学信息是一项具有挑战性的工作,特别是对于那些缺乏自然语言处理经验的人来说。在这里,我们提出了一种简单的序列到序列方法,用于科学文本中复杂分层信息的联合命名实体识别和关系提取。该方法利用预先训练的大型语言模型 (LLM) GPT-3,该模型针对大约 500 对提示(输入)和完成(输出)进行了微调 ...

0 0 0 0 2024/05/02 arXiv:2212.05238v1 slices

由于大型语言模型 (LLM) 在众多下游 NLP 任务中表现出的非凡功效,文本分类未来研究的价值遇到了挑战和不确定性。在这个开放式语言建模的时代,任务界限逐渐消失,一个紧迫的问题出现了:在 LLM 的充分帮助下,我们在文本分类方面是否取得了重大进展?为了回答这个问题,我们提出了 RGPT,这是一种自适应增强框架,旨在通过循环集成一组强基础学习器来生成专门的文本分类 LLM。基础学习器是通过自适应调整训练样本的分布并用它们迭代微调 LLM 来构建的 ...

0 0 0 0 2024/05/02 arXiv:2402.07470v2 slices

尽管 GPT-3 等大规模语言模型 (LLM) 取得了显着的成功,但它们在文本分类任务中的性能仍然明显低于微调模型。这是由于(1)缺乏解决复杂语言现象的推理能力(例如, ...

0 0 1 1 2024/05/02 arXiv:2305.08377v3 slices

尽管大型语言模型(LLM)的能力令人印象深刻,但它很容易产生幻觉,即生成与预训练期间看到的事实不同的内容 ...

0 0 0 0 2024/04/22 arXiv:2309.03883v2 slices

最近改进从自回归大语言模型 (LLM) 中提取文本嵌入的方法主要集中在改进数据、骨干预训练语言模型或通过指令改进任务区分。在这项工作中,我们解决了自回归模型的架构限制: Token 嵌入不能包含输入中稍后出现的 Token 的信息。为了解决这个限制,我们提出了一种简单的方法“回声嵌入”,其中我们在上下文中重复输入两次,并从第二次出现中提取嵌入 ...

0 0 0 0 2024/04/18 arXiv:2402.15449v1 slices

自预训练语言模型时代之前,多阶段文本检索的有效性就已得到充分证明。然而,大多数现有研究使用的模型早于大型语言模型 (LLM) 的最新进展。本研究旨在探索最先进的 LLM 可以带来的潜在改进 ...

0 0 0 0 2024/04/18 arXiv:2310.08319v1 slices

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)