知识图谱与大型语言模型的结合

Amanda Kau
Australian National University
Canberra, Australia
amanda.kau@anu.edu.au
Xuzeng He11footnotemark: 1
Australian National University
Canberra, Australia
u7189309@anu.edu.au
Aishwarya Nambissan
Australian National University
Canberra, Australia
Aishwarya.Nambissan@anu.edu.au
Aland Astudillo
Swinburne University of Technology
Victoria, Australia
aastudillocontreras@swin.edu.au
Hui Yin
Swinburne University of Technology
Victoria, Australia
huiyin@swin.edu.au
Amir Aryani
Swinburne University of Technology
Victoria, Australia
aaryani@swin.edu.au

These authors contributed equally to this work.
摘要

近年来,自然语言处理(NLP)在聊天机器人、文本生成和语言翻译等各种人工智能(AI)应用中发挥了重要作用。 大型语言模型(大语言模型)的出现极大地提高了这些应用程序的性能,在语言理解和生成方面显示出惊人的成果。 然而,它们仍然表现出一些缺点,例如幻觉和缺乏特定领域的知识,这影响了它们在现实世界任务中的表现。 通过合并知识图 (KG) 可以有效缓解这些问题,知识图以结构化格式组织信息,以通用且可解释的方式捕获实体之间的关系。 同样,知识图谱的构建和验证提出了大语言模型可以帮助解决的挑战。 大语言模型和知识图谱之间的互补关系导致了将这些技术结合起来以获得值得信赖的结果的趋势。 这项工作收集了 28 篇论文,概述了 KG 支持的大语言模型、基于 LLM 的 KG 和 LLM-KG 混合方法的方法。 我们系统地分析和比较了这些方法,以提供全面的概述,突出关键趋势、创新技术和常见挑战。 这一综合将使该领域的新研究人员以及那些寻求加深对知识图谱和大语言模型如何有效结合以增强人工智能应用能力的理解的研究人员受益。

1简介

近年来自然语言处理(NLP)的快速发展可归因于大型数据集的可用性和计算能力的激增。 因此,大量的大语言模型被开发出来,如Google的BERT[1]和T5[2],OpenAI的GPT系列[3 ] 大语言模型广泛应用于各种任务,包括语言翻译、内容创建和虚拟助手。 它们擅长文本生成,支持自动论文写作、报告生成和创意故事讲述等应用。 大语言模型提供高精度的语言翻译,方便不同语言之间的交流。 它们还用于聊天机器人和客户服务,以有效处理查询并提供个性化响应。 此外,大语言模型还有助于总结大量文本,从文档中提取关键信息,并进行情感分析以了解舆情。 OpenAI 于 2020 年发布的 GPT-3 拥有 1750 亿个参数,由于其在这些不同应用中的卓越性能[4],极大地提高了公众的兴趣。

然而,大语言模型中的知识在训练时被冻结在参数中,导致了一些局限性。 这些模型往往会生成不准确或无意义的信息(幻觉),需要特定领域更详细的专业知识,特别是关于训练后出现的新知识,并且在决策过程中通常不清楚(缺乏可解释性)。 许多研究工作致力于整合替代知识源,例如语言学、基于检索和基于图形的知识,以增强语言模型[5,6,7] 这些类型的模型称为知识增强预训练模型 (KEPLM)。 2021 年,Wei 等人[5]调查了各种 KEPLM 及其相对于普通预训练模型 (PLM) 的改进性能。 2022年,Zhen等人[6]将知识增强方法分为显式融合方法和隐式融合方法。 显式方法通过修改模型输入和使用外部记忆将相关知识插入大语言模型中,而隐式方法则侧重于训练中包含在大语言模型中的知识,例如 BERT [1],它理解单词的上下文知识。 第二年,胡等人[7]对KEPLM进行了调查,重点关注NLP中的两个关键任务:自然语言理解和自然语言生成。 虽然这些早期的工作涉及不同的外部知识源,但 Yang 等人 [8] 在 2024 年发表的一篇最新评论仅关注从知识图谱 (KG) 注入的知识。 人们越来越关注知识图谱作为基于 LLM 模型的结构化知识的来源。 KG 的直观结构通过将节点及其之间的关系表示为边的实体来有效地表示现实世界的知识,这使得可以通过上下文更好地理解单词的语义。 因此,大语言模型可以有效地回忆事实,特别是在特定领域。

事实上,知识图(KG)的利用受到现有图的可用性的限制。 知识图谱的构建困难、成本高且耗时,需要大量步骤,例如实体提取、知识融合和共指解析。 此外,知识图谱是特定于每个领域的,因此为每个应用程序构建了单独的知识图谱,如果不随着知识的发展而更新,则可能会随着时间的推移变得无关紧要[9] 一些作品使用大语言模型来增强知识图谱构建过程,但它们只是将大语言模型用作信息提取器。 一个例子是服务域 BEAR [10] 的知识图谱,它是通过提示 ChatGPT 从非结构化数据中提取内容以填充现有本体而创建的。

之前的调查[5,6,7,8]都强调利用KG作为知识源来支持大语言模型。 知识图谱可以为大语言模型提供外部事实,不仅可以用于大语言模型的预训练,还可以作为检索事实来为大语言模型奠定基础。 然而,人们却很少关注大语言模型能为幼儿园带来的好处。 另一方面,在像前面提到的BEAR[10]这样的方法中,大语言模型仅仅用于从文档中解析和提取相关信息来构建KG,而忽略了大语言模型可以给我们带来的其他好处。公斤建设。 与我们最接近的工作是 Khorashadizadeh 等人[11]最近进行的一项综合调查,概述了大语言模型和 KG 之间的互惠互利。 然而,与之前的调查强调知识注入是知识图谱给大语言模型带来的唯一好处不同,本文将深入探讨知识图谱提供的其他好处。 此外,在[11]按用途对LLM-KG合作方法进行分类的同时,本文试图探索大语言模型和KGs联合使用的不同方式。

事实上,这种集成可以在一系列 NLP 任务中实现更好的性能,例如命名实体识别和关系分类。 由于知识图谱和大语言模型结合使用方式的多样性,我们提出以下研究问题:

  • (RQ1) 如何利用KG来提升大语言模型的能力?

  • (RQ2) 大语言模型可以通过哪些方式来支持和增强知识图谱

  • (RQ3) 如果模型以更联合的方式将 KG 和大语言模型结合起来,是否会有更多优势?

为了回答这些问题,我们对五年前发表的与大语言模型和知识图谱相关的文章进行了 arXiv 搜索。 我们从 2024 年 2 月到 2024 年 5 月进行了搜索,并选择 arXiv 作为我们评论的主要来源,因为它包含广泛的文章。 为了识别相关论文,我们通过搜索“大语言模型”或“知识图谱”等关键词来查看每篇文章的标题和摘要,如果它们报道了与大语言模型和知识图谱相关的原创研究,我们就会认为这些文章是相关的,要么是关于由知识图谱授权的大语言模型的主题,要么是由大语言模型授权的知识图谱或一些混合方法。

为了展示我们的搜索结果,我们首先在2部分中提供了大语言模型和知识图谱的简要背景,包括之前的调查。 接下来的部分对应于所提出的研究问题和详细方法,包括第3节中向大语言模型添加的知识图谱、第4节中大语言模型赋能的知识图谱以及一些混合知识图谱。方法见第 5 节。 6 节提供了主题分析,随后在 7 节中进行了讨论,我们回顾了所描述的方法的不同方面、优点和局限性。 最后,在第 8 节中的结论性意见中,我们通过提出一般分析以及该领域当前和未来的挑战来结束我们的审查。

2 背景

2.1 大型语言模型(大语言模型)

过去已经发布了各种 PLM,包括 BERT [1] 和 GPT-1 [3] BERT(来自 Transformers 的双向编码器表示)于 2018 年发布,具有基于 Transformer 的模型,可以双向理解上下文[1] 该模型在处理输入文本时可以同时考虑前面和后面的单词,从而能够准确地捕获单词和句子的含义。 第一个 GPT(Generative Pre-trained Transformer)也于同年发布,其重点是通过预测下一个单词[3]来生成文本。 进一步的发展成功地将 PLM 扩展到大语言模型,增加了 PLM 的规模和复杂性,从而提高了它们理解自然语言的卓越能力。

现在的大语言模型都是基于transformers架构[12],由于其特有的self-attention机制,在处理长序列方面表现出色。 大语言模型通常采用称为提示的一系列文本或代码作为输入。 分词器是大语言模型架构的一部分,它随后将输入转换为标记列表并将其输入到模型中,其中每个词符都是输入提示中的一个单词。 新的 Token 会被逐一生成,直至达到表示生成结束的特殊词符,或者总长度超过限制。 这些生成的标记被转换回文本格式作为模型的最终输出。 1显示了此工作流程的简单方案。 这个过程可以通过一些方程进行正式建模。 输入提示在被标记化之后,可以被视为标记列表x,其中x = [x1,。 . . , xn] 如果总共有 n 个标记。 基于Transformer架构的大语言模型通常维护一系列隐藏状态。 在步骤t,可以使用当前词符xt和所有先前的隐藏状态来计算隐藏状态ht

ht=LLM(xt,[h0,,hn1]) (1)

然后模型进一步将 ht 转换为概率分布,可用于对下一个生成的词符进行采样:

P(x)=t=1|x|P(xt|[h0,,ht1]) (2)

在这种情况下,由于其能够识别、概括、翻译、预测和生成文本和其他形式的内容,当前的大语言模型具有广泛的应用,包括问答和代码生成。 最近,一些焦点集中在多模态大语言模型上,它赋予大语言模型能力,例如 Google 的 Gemini [13] 的视觉能力和具有视觉能力的 GPT-4 (GPT-4V) [14]

[Uncaptioned image]
图1: 大语言模型文本生成工作流程。

2.2 知识图(KG)

KG 是一个有向标记图,其中节点表示任何现实世界的实体或概念,边表示节点之间的关系。 这种结构化数据格式已被证明是有效的,适用于多种领域,包括生物学和金融,以及社交网络建模或存储一般信息(如谷歌知识图谱)。 除了能够对关系进行建模之外,知识图谱还可以通过单词的上下文或相邻节点进一步深入了解单词的语义。 还可以研究图形结构,如[15]中所做的那样,以揭示一段时间内的研究趋势,或者在[16]中所做的,其中结构提供了对影响和成功的洞察研究出版物。 KG 中的数据通常表示为(主语、宾语、谓语)三元组。 这可以在时间知识图的情况下进行扩展,它使用四重表示(主语、宾语、谓词、时间戳)来捕获随时间变化的事实。

知识图谱的构建涉及三个一般步骤:知识获取、知识细化和知识演化[17] 知识获取涉及从多结构化数据中收集有关实体和关系的信息以构建知识图谱。 由于提取的三元组可能不完整,因此下一个知识细化步骤会使用附加数据来修复这些问题。 最后,现实世界知识随时间的演变可能不会反映在所构建的静态知识图谱中,因此图会随着知识演变步骤而动态更新。 KG构建方法基于众包或文本挖掘。 基于众包的知识图谱(如 WordNet [18] 和 ConceptNet [19])需要大量人力来构建,因为它们依赖于志愿者的贡献。 同时,通过文本挖掘构建的知识图谱利用命名实体识别和关系提取等一系列子任务从文本中提取图形数据。 然而,生成的知识图谱受到给定数据的质量和范围的限制。 众包和文本挖掘的构建方法都存在局限性。 因此,人们提出了许多方法来利用大语言模型来完成知识图谱构建过程中的关系提取和属性识别等任务,如[11]中所讨论。 利用大语言模型,KG构建可以更加自动化,同时保持准确性。

3 由 KG 授权的 LLM

知识注入。 研究和工业界已经实施了多种技术来使用知识图谱进行知识注入,通常包括大语言模型提示中的附加知识,如图2所示。 例如,Baek等人[20]提出了KAPING(Knowledge-Augmented language model PromptING),它从KG中检索事实并将其添加到输入问题中以构造大语言模型提示以进行零样本问答。 Sen 等人[21]也采用了类似的方法,其中来自知识图谱的事实在输入大语言之前通过知识图问答(KGQA)进行加权,而不是以前的方法模型。 在KICGPT(Knowledge In Context with GPT)[22]中,检索到的KG事实由大语言模型重新排序。 一个应用示例是 DRAK(特定领域检索增强知识),其中检索到的 KG 事实对于生物分子领域的大语言模型也很有用,这需要结构化知识[23] 这些方法只是用于将知识图谱知识注入大语言模型提示的众多技术变体的一个子集。 知识求解器[24]不是将检索到的知识图谱事实包含在大语言模型提示中,而是教导大语言模型以多跳方式遍历知识图谱来推理问题的答案。 通过这种方式,知识图谱可以提供大语言模型可以推理的事实,并为它们奠定基础。 增加大语言模型的可解释性。 另一方面,知识图谱对大语言模型的贡献远大于简单地提供知识基础的事实。 对于问答任务,QA-GNN(问答图神经网络)[25]对问题上下文和知识图谱的大语言模型编码进行联合推理,以统一两种表示。 为了更好的模型可解释性,使用图神经网络(GNN)来计算图节点之间的权重,提供模型通过知识图谱得出答案的推理路径。 另一个例子是LMExplainer [26],它使用知识图谱和图注意力神经网络来理解大语言模型的关键决策信号,并将其转换为自然语言解释以获得更好的可解释性。 因此,知识图谱还可以更好地解释大语言模型,并提供对大语言模型推理过程的洞察,从而增加人们对大语言模型的信任。

语义理解。 知识图谱还可以用于将语义理解或实体嵌入添加到大语言模型中。 例如,LUKE(Language Understanding with Knowledge-based Embeddings)[27]作为BERT的扩展,是一种实体感知的自注意力机制,可以帮助模型以某种方式处理单词和实体。给定文本作为独立标记并输出它们的上下文表示。 至于增加语义理解,最近有一种名为 Right for Right Reasons (R3) [28] 的方法,用于使用大语言模型执行 KGQA,将常识 KGQA 问题转化为树结构搜索,以充分利用使用表面常识公理,这是使推理过程可验证的关键属性,这样来自知识图谱的语义理解就可以添加到大语言模型中。

[Uncaptioned image]
图2: 大语言模型的知识图谱增强可以采用以下形式:(i)知识图谱知识注入大语言模型提示或(ii)知识图谱直接贡献于大语言模型的其他方法。

4 大语言模型赋能的KG

知识图谱赋能大语言模型的例子不胜枚举,但也可以考虑相反的整合方向:大语言模型赋能知识图谱。

时间预测。 最近的研究表明,大语言模型可以利用知识图谱数据进行预测,特别是对于具有方向和时间戳的知识图谱的特殊子集,即时态知识图谱(TKG)。 大多数关于 TKG 的先进研究主要集中在给定历史事实的情况下预测未来事实,其中使用大语言模型尤其有用。 例如,Xia及其同事提出了一种用于TKG预测的Chain-of-History(CoH)推理方法[29],其中大语言模型主要用于理解实体、关系的语义。 ,以及 TKG 中的时间戳,方法是逐步探索重要的高阶历史链,并仅根据最后一步推断的历史链来推理查询的答案。 或者,通过将上下文学习(ICL)与大语言模型结合使用,向大语言模型提供一些示例,以便它可以学习进行预测,Lee 等人[30]提供了 TKG 事实到大语言模型,发现大语言模型惊人地能够从历史数据中学习模式。 尽管缺乏执行此知识图谱任务通常所需的特殊架构或模块,但仍然如此。 大语言模型执行典型知识图谱任务的能力使得使用自然语言执行预测成为可能。

知识图谱构建。 正如前面所讨论的,一个主要挑战是知识图谱的构建过程耗时且成本高昂,而大语言模型可以通过多种方式做出贡献,如图3所示。 大语言模型在大型、多样化的数据集上进行训练,并隐式存储这些知识。 BertNet [31] 试图从大语言模型中获取任意关系的知识图谱,这对于一般的知识图谱很有用。 为了实现这一目标,初始提示被释义多次,大语言模型将为每个释义提示提供响应,这些响应被转换为实体对并进行排名。 排名靠前的对组成了KG。 Kommineni 等人[32]利用ChatGPT-3.5制作了半自动知识图谱构建管道,促使大语言模型生成有关数据的高级能力问题。 大语言模型的任务是从这些问题中提取实体和关系以形成本体,然后将从文档中检索到的信息映射到本体上以构建知识图谱。 类似的例子包括 AutoRD [33],这是最近推出的一个有用的框架,用于提取有关罕见疾病的信息并构建相应的知识图谱。 该系统可以将非结构化医学文本处理为输入和输出提取结果和知识图谱,其中大语言模型用于从医学本体中提取实体和关系。 最近,一个名为TKGCon(特定主题知识图谱构建)[34]的无监督框架利用大语言模型来构建本体和特定主题知识图谱,依靠大语言模型来生成和决策实体之间的关系来构造图的边。 这些方法表明大语言模型不仅仅能够从非结构化数据中提取知识。 他们还可以处理和推理数据以构建和完成知识图谱。 此外,Khorashadizadeh 等人[11]概述了使用大语言模型进行特定知识图谱构建任务的其他方法,例如文本到本体映射、实体提取和本体对齐。 大语言模型还用于通过事实检查和不一致检测来进行知识图谱验证。

[Uncaptioned image]
图3: LLM增强的知识图谱构建,其中(i)大语言模型用于信息提取或(ii)用于一般知识图谱数据操作。

5混合方法

融合文本和知识嵌入。 与前面几节介绍的方法相比,本节介绍的方法以更统一的方式将知识图谱和大语言模型结合起来,以知识图谱的显性知识和大语言模型中的隐性知识为基础。 一个例子是 ERNIE(Enhanced Language Representation with Informative Entities)[35],它通过将文本 T 编码器与知识 K 编码器堆叠在一起来将词汇、句法和知识信息融合在一起来表示统一特征空间中的单词标记和实体,类似于图4中的插图。 T-Encoder 的功能与大语言模型 BERT [1] 完全相同,以获得单词标记的特征表示。 这些特征与知识图谱中的实体嵌入一起随后被输入到 K-编码器中,K-编码器将这些单独的嵌入融合为统一的输出嵌入。 这种方法提高了实体类型和关系分类等知识驱动任务的性能。 CokeBERT [36] 采用了类似的架构,它利用大语言模型对单词标记进行编码,并从文本中检测到的每个实体的知识图谱中提取知识上下文。 使用 [35] 中的 K-Encoder 融合单词和知识嵌入。

在大语言模型中添加知识。 其他方法将知识图谱知识与大语言模型中的文本嵌入融合起来。 KnowBERT [37] 在 BERT 架构中包含一个额外的 KAR(知识注意力和重新上下文化)组件。 它从 BERT 层获取上下文表示,使用 KG 中可能的实体链接列表计算知识增强表示,并将新表示传递到 BERT 中的下一个 Transformer 块。 与标准 BERT 相比,KnowBERT 在关系提取、上下文中的单词和实体输入任务上表现出更好的性能。

多模态大语言模型。 两种类型的嵌入也被组合起来执行视觉问答。 KRISP [38] 使用多模态 BERT 预训练 Transformer 来处理其隐式知识模型中的问题和图像对。 单独的显式知识模型根据问题和图像符号(包括地点、对象和属性)构建知识图谱。 这两个模型一起工作来预测有关图像的答案。

这些方法的一个共同主题是它们执行更好的任务,例如实体键入,其中涉及根据实体的语义将实体分配到类别,以及视觉问答。 这些任务需要模型更好地理解语义,这似乎是混合方法的优势。

[Uncaptioned image]
图4: 结合文本和 KG 嵌入的混合方法。

6主题分析

在本节中,到目前为止提到的重要模型分为“附加”与“联合”知识图+大语言模型方法。

  • 附加组件 - 这里分类的模型使用大语言模型和知识图谱作为补充工具来增强其功能。 它们包括使用大语言模型创建知识图谱或使用知识图谱向大语言模型提供信息的模型。 采用这种方法的目的是让知识图谱和大语言模型能够独立运行,以最大限度地提高可扩展性、降低成本或灵活性等质量。

  • 联合 - 该类别下的模型利用大语言模型和知识图谱的综合优势来提高特定任务的性能。 这些任务依赖于应用程序,这种方法可以提供全面的理解、优化的结果并提高准确性。

LABEL:table:table1 的解释部分提供了将每个模型分类为特定类别的基本原理,以及模型特定方法的潜在优势。 这纯粹是我们的贡献。 这种新颖的视角可用于理解如何单独或一起使用这些技术。 这是之前其他论文中没有探讨过的角度。

表格1: KG-LLM 之间互动的模型和类型。
Model Add-on or Joint Explanation
KnowPhish Add-on KnowPhish Detector (KPD) combines: KnowPhish: For logo-based detection. This on its own is just a Brand Knowledge Base. Large Language Model (LLM): To extract brand information from webpage text, enabling detection of phishing attempts even without logos. Wikidata, a knowledge graph, was utilised to create the Brand Knowledge Base by providing information about brands as entities, including details such as logos, official website URLs, and aliases. The KG and LLM are used for two separate procedures and two separate intentions and act as add-ons [39]. The KG allows for better scaling to extend to many brands, while the LLM allows for extracting brand information from webpages from text. Using the KGs and LLMs as add-ons offers improved detection accuracy.
BEAR Add-on BEAR is an innovative open Knowledge Graph designed to capture knowledge pertinent to the service computing community. Service computing aims to act as a bridge between business services and IT services [10]. An ontology specific to the domain serves as the foundation for the KG, outlining the concepts and characteristics that would later populate the graph. The LLM is only used to improve the data extraction process to update the KG with the required relevant information. Utilising the LLM as an add-on eliminates the need for manual data annotation, saving time and costs.
K-BERT Joint BERT is an LLM that lacks domain-specific knowledge since it is pre-trained in general language from large-scale corpora. K-BERT addresses this by injecting domain knowledge from knowledge graphs into sentences. By using the functionalities of LLMs and KGs jointly, good performance in domain-specific tasks can be achieved in K-BERT without requiring extensive pre-training [40].
ERNIE Joint ERNIE is a language representation model trained on large-scale textual corpora and KGs, allowing it to simultaneously utilise lexical, syntactic, and knowledge information. Incorporating KGs in a joint fashion results in better language understanding [35].
LMExplainer Joint LMExplainer is a knowledge-enhanced tool designed to explain the predictions made by LLMs. It uses KGs and graph attention neural networks to describe the reasoning behind the model’s predictions [26]. This joint approach ensures that the explanations are human-understandable.

7 现有研究的优势和局限性

本节回顾了本文所涵盖的现有研究的优点和局限性,这对于理解这种结合知识图谱和大语言模型的联合方法至关重要。 我们发现的重要优势之一是联合使用知识图谱和大语言模型带来的性能提升,特别是在知识驱动领域。 结合知识图谱和大语言模型的模型通常表现出对知识更好的语义理解,从而使它们能够更好地执行实体打字等任务。 此外,正如QA-GNN[25]等多种方法所见,KG与大语言模型相结合可以提高模型的可解释性和可解释性,这在大语言模型构建时尤为重要。被用于医疗保健、教育和应急响应等敏感领域。

然而,目前的研究也存在局限性,可能会阻碍这种联合方法的更广泛应用或有效性。 主要问题之一是某些领域的知识图谱可能无法广泛使用,从而限制了知识图谱和大语言模型集成的能力。 即使使用大语言模型来帮助自动化知识图谱构建过程,他们也可能会产生幻觉或产生错误的结果,从而损害知识图谱数据的准确性和有效性。

此外,集成知识图谱和大语言模型可以导致更大的参数大小和更长的运行时间。 此外,如果包含额外的模块,就像第5节中讨论的几个混合模型的情况一样,也需要额外的时间和计算资源来训练这些模块。 正如杨等人[41]所证明的,由于这些知识图谱增强的预训练语言模型(KGPLM)将知识编码器模块注入到预训练语言模型(PLM)中,因此它们的运行时间在预训练、微调和推理阶段,它始终比普通的大语言模型 BERT 长。 尽管结合 KG 的外部知识可以让他们更轻松地训练并提高他们的表现。

另一个挑战是知识图谱和大语言模型可能会因为知识的快速演变而变得过时。 人们可能需要经常更新知识图谱或大语言模型来缓解这一问题。 尽管需要额外的 KG 完成步骤,但 KG 比大语言模型更容易更新。 就大语言模型而言,重复冗长且成本高昂的训练过程的不切实际会显着影响所涉及的时间和成本。 这就需要额外的方法来更新大语言模型,无论是通过知识图谱还是其他知识源。

知识图谱与大语言模型整合的有效性也是一个需要进一步研究的领域。 根据[42]的研究,只有少量的知识被成功地集成到两个著名的知识增强语言模型(LM)中,即ERNIE和K-Adapter,并且简单地增加知识集成语料库的规模可能不会带来更好的知识增强型语言模型。 这凸显了当前方法中的一个关键差距,并表明需要更有效的集成方法。

8结论

受研究问题“如何利用知识图谱来增强大语言模型的能力?”的驱动。 (RQ1)、“如何利用大语言模型来支持和增强知识图谱”(RQ2)和“如果模型以更联合的方式将知识图谱和大语言模型结合起来是否会有更多优势”(RQ3),我们进行了快速回顾一下,探索纯粹使用 KG 进行知识注入以支持基于 LLM 的模型,以及仅使用大语言模型作为信息提取器来支持基于 KG 的模型的流行情况。 为了了解这种联合方法的优势,我们回顾了 arXiv 的 20 多篇最先进的文章,并将现有方法分为三个不同的类别,包括大语言模型支持的知识图谱(添加可解释性、语义理解和实体嵌入的知识图谱)大语言模型)、知识图谱赋能的大语言模型(大语言模型利用知识图谱数据进行预测,注入隐性知识,有助于知识图谱构建)以及一些知识图谱和大语言模型以更统一的方式结合的混合方法。 我们还为这些方法提供了主题分析,并讨论了它们的优点和局限性。 为了回答研究问题,我们发现模型通常使用知识图谱或大语言模型作为附加组件,如果模型以更联合的方式将知识图谱和大语言模型结合起来会有更多优势。 此外,我们发现,尽管联合方法可以通过提高模型的可解释性或可解释性来显着提高模型的性能,但当前的研究也有其局限性,例如知识图谱的领域有限、计算资源消耗较高、经常由于过时而导致模型性能下降。知识的快速演变,以及知识整合缺乏有效性。

这一将知识图谱与大语言模型相结合的研究领域代表了人工智能(AI)崛起趋势的关键部分,并有可能带来更可靠和上下文感知的人工智能系统。 这些模型配备了特定领域的知识,比单独使用知识图谱或大语言模型来解决问题有更广泛的应用。 最终,这个研究领域将极大地影响我们如何构建一个更强大、更可解释、性能更高的人工智能系统,并为其他未来的发展提供途径。

尽管知识图谱与大语言模型相结合的联合方法取得了成功,但仍然存在一些尚未解决的挑战。 为了解决知识整合效率低下的问题,未来的研究可能会通过修改模型架构或微调来继续探索该问题的潜在解决方案。 一种可能的解决方案是将知识注入基于特征的预训练模型中。 未来的研究还可以集中于开发更小的集成模型,以减少计算资源和时间,因为集成知识图谱和大语言模型通常会导致更大的参数大小和更长的运行时间。 鉴于较小的 KGPLM 可以优于较大的普通大语言模型,因此有可能实现需要较少计算资源的最佳集成模型。 在过去的一年里,人们对多模态大语言模型的兴趣也激增,它可以将音频、图像或视频数据与文本一起处理,自 2023 年初以来每个月都会发布一些多模态大语言模型。 由于这些模型建立在大语言模型的骨干上,可以预见,它们也可以继承大语言模型迄今为止所经历的一些限制,并可能从合并知识图谱中受益。 因此,其他研究可以探索多模态知识图谱与大语言模型相结合的潜在用途,以促进多模态模型研究的最新进展。

参考

  • [1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding, 2019. arXiv:1810.04805.
  • [2] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer, 2023. URL: https://arxiv.org/abs/1910.10683, arXiv:1910.10683.
  • [3] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training. 2018. URL: https://api.semanticscholar.org/CorpusID:49313245.
  • [4] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
  • [5] Xiaokai Wei, Shen Wang, Dejiao Zhang, Parminder Bhatia, and Andrew Arnold. Knowledge enhanced pretrained language models: A compreshensive survey, 2021. arXiv:2110.08455.
  • [6] Chaoqi Zhen, Yanlei Shang, Xiangyu Liu, Yifei Li, Yong Chen, and Dell Zhang. A survey on knowledge-enhanced pre-trained language models, 2022. arXiv:2212.13428.
  • [7] Linmei Hu, Zeyi Liu, Ziwang Zhao, Lei Hou, Liqiang Nie, and Juanzi Li. A survey of knowledge enhanced pre-trained language models. IEEE Transactions on Knowledge and Data Engineering, 36(4):1413–1430, 2024. doi:10.1109/TKDE.2023.3310002.
  • [8] Linyao Yang, Hongyang Chen, Zhao Li, Xiao Ding, and Xindong Wu. Give us the facts: Enhancing large language models with knowledge graphs for fact-aware language modeling. IEEE Transactions on Knowledge and Data Engineering, pages 1–20, 2024. doi:10.1109/TKDE.2024.3360454.
  • [9] Maha Farghaly, Mahmoud Mounir, Mostafa Aref, and Sherin M. Moussa. Investigating the challenges and prospects of construction models for dynamic knowledge graphs. IEEE Access, 12:40973–40988, 2024. doi:10.1109/ACCESS.2024.3378514.
  • [10] Shuang Yu, Tao Huang, Mingyi Liu, and Zhongjie Wang. Bear: Revolutionizing service domain knowledge graph construction with llm. In Flavia Monti, Stefanie Rinderle-Ma, Antonio Ruiz Cortés, Zibin Zheng, and Massimo Mecella, editors, Service-Oriented Computing, pages 339–346, Cham, 2023. Springer Nature Switzerland.
  • [11] Hanieh Khorashadizadeh, Fatima Zahra Amara, Morteza Ezzabady, Frédéric Ieng, Sanju Tiwari, Nandana Mihindukulasooriya, Jinghua Groppe, Soror Sahri, Farah Benamara, and Sven Groppe. Research trends for the interplay between large language models and knowledge graphs, 2024. arXiv:2406.08223.
  • [12] Micaela E. Consens, Cameron Dufault, Michael Wainberg, Duncan Forster, Mehran Karimzadeh, Hani Goodarzi, Fabian J. Theis, Alan Moses, and Bo Wang. To transformers and beyond: Large language models for the genome, nov 2023. URL: http://arxiv.org/abs/2311.07621v1, arXiv:2311.07621.
  • [13] Gemini Team. Gemini: A family of highly capable multimodal models, 2024. arXiv:2312.11805.
  • [14] R OpenAI. Gpt-4v (ision) system card. Citekey: gptvision, 2023.
  • [15] Joao T. Aparicio, Elisabete Arsenio, Francisco Santos, and Rui Henriques. Using dynamic knowledge graphs to detect emerging communities of knowledge. Knowledge-Based Systems, 294:111671, 2024. URL: https://www.sciencedirect.com/science/article/pii/S095070512400306X, doi:10.1016/j.knosys.2024.111671.
  • [16] Xinbing Wang, Luoyi Fu, Xiaoying Gan, Ying Wen, Guanjie Zheng, Jiaxin Ding, Liyao Xiang, Nanyang Ye, Meng Jin, Shiyu Liang, Bin Lu, Haiwen Wang, Yi Xu, Cheng Deng, Shao Zhang, Huquan Kang, Xingli Wang, Qi Li, Zhixin Guo, Jiexing Qi, Pan Liu, Yuyang Ren, Lyuwen Wu, Jungang Yang, Jianping Zhou, and Chenghu Zhou. Acemap: Knowledge discovery through academic graph, 2024. arXiv:2403.02576.
  • [17] Lingfeng Zhong, Jia Wu, Qian Li, Hao Peng, and Xindong Wu. A comprehensive survey on automatic knowledge graph construction, 2023. arXiv:2302.05019.
  • [18] Christiane Fellbaum. WordNet: An electronic lexical database. MIT press, 1998.
  • [19] Robyn Speer, Joshua Chin, and Catherine Havasi. Conceptnet 5.5: An open multilingual graph of general knowledge. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 31, 2017. URL: http://dx.doi.org/10.1609/aaai.v31i1.11164, doi:10.1609/aaai.v31i1.11164.
  • [20] Jinheon Baek, Alham Fikri Aji, and Amir Saffari. Knowledge-augmented language model prompting for zero-shot knowledge graph question answering, 2023. arXiv:2306.04136.
  • [21] Priyanka Sen, Sandeep Mavadia, and Amir Saffari. Knowledge graph-augmented language models for complex question answering. In Proceedings of the 1st Workshop on Natural Language Reasoning and Structured Explanations (NLRSE), pages 1–8, 2023.
  • [22] Yanbin Wei, Qiushi Huang, Yu Zhang, and James Kwok. Kicgpt: Large language model with knowledge in context for knowledge graph completion. In Findings of the Association for Computational Linguistics: EMNLP 2023. Association for Computational Linguistics, 2023. URL: http://dx.doi.org/10.18653/v1/2023.findings-emnlp.580, doi:10.18653/v1/2023.findings-emnlp.580.
  • [23] Jinzhe Liu, Xiangsheng Huang, Zhuo Chen, and Yin Fang. Drak: Unlocking molecular insights with domain-specific retrieval-augmented knowledge in llms. Authorea Preprints, 2024.
  • [24] Chao Feng, Xinyu Zhang, and Zichu Fei. Knowledge solver: Teaching llms to search for domain knowledge from knowledge graphs, 2023. arXiv:2309.03118.
  • [25] Michihiro Yasunaga, Hongyu Ren, Antoine Bosselut, Percy Liang, and Jure Leskovec. Qa-gnn: Reasoning with language models and knowledge graphs for question answering, 2022. arXiv:2104.06378.
  • [26] Zichen Chen, Ambuj K Singh, and Misha Sra. Lmexplainer: a knowledge-enhanced explainer for language models, 2023. arXiv:2303.16537.
  • [27] Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, and Yuji Matsumoto. Luke: Deep contextualized entity representations with entity-aware self-attention, 2020. arXiv:2010.01057.
  • [28] Armin Toroghi, Willis Guo, Mohammad Mahdi Abdollah Pour, and Scott Sanner. Right for right reasons: Large language models for verifiable commonsense knowledge graph question answering, 2024. arXiv:2403.01390.
  • [29] Yuwei Xia, Ding Wang, Qiang Liu, Liang Wang, Shu Wu, and Xiaoyu Zhang. Enhancing temporal knowledge graph forecasting with large language models via chain-of-history reasoning, 2024. arXiv:2402.14382.
  • [30] Dong-Ho Lee, Kian Ahrabian, Woojeong Jin, Fred Morstatter, and Jay Pujara. Temporal knowledge graph forecasting without knowledge using in-context learning, 2023. arXiv:2305.10613.
  • [31] Shibo Hao, Bowen Tan, Kaiwen Tang, Bin Ni, Xiyan Shao, Hengzhe Zhang, Eric P. Xing, and Zhiting Hu. Bertnet: Harvesting knowledge graphs with arbitrary relations from pretrained language models, 2023. arXiv:2206.14268.
  • [32] Vamsi Krishna Kommineni, Birgitta König-Ries, and Sheeba Samuel. From human experts to machines: An llm supported approach to ontology and knowledge graph construction, 2024. arXiv:2403.08345.
  • [33] Lang Cao, Jimeng Sun, and Adam Cross. Autord: An automatic and end-to-end system for rare disease knowledge graph construction based on ontologies-enhanced large language models, 2024. arXiv:2403.00953.
  • [34] Linyi Ding, Sizhe Zhou, Jinfeng Xiao, and Jiawei Han. Automated construction of theme-specific knowledge graphs. arXiv preprint arXiv:2404.19146, 2024.
  • [35] Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, and Qun Liu. Ernie: Enhanced language representation with informative entities, 2019. arXiv:1905.07129.
  • [36] Yusheng Su, Xu Han, Zhengyan Zhang, Yankai Lin, Peng Li, Zhiyuan Liu, Jie Zhou, and Maosong Sun. Cokebert: Contextual knowledge selection and embedding towards enhanced pre-trained language models. AI Open, 2:127–134, 2021. URL: https://www.sciencedirect.com/science/article/pii/S2666651021000188, doi:10.1016/j.aiopen.2021.06.004.
  • [37] Matthew E. Peters, Mark Neumann, Robert L. Logan IV au2, Roy Schwartz, Vidur Joshi, Sameer Singh, and Noah A. Smith. Knowledge enhanced contextual word representations, 2019. arXiv:1909.04164.
  • [38] Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, and Marcus Rohrbach. Krisp: Integrating implicit and symbolic knowledge for open-domain knowledge-based vqa. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 14111–14121, June 2021.
  • [39] Yuexin Li, Chengyu Huang, Shumin Deng, Mei Lin Lock, Tri Cao, Nay Oo, Bryan Hooi, and Hoon Wei Lim. Knowphish: Large language models meet multimodal knowledge graphs for enhancing reference-based phishing detection, 2024. arXiv:2403.02253.
  • [40] Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, and Ping Wang. K-bert: Enabling language representation with knowledge graph, 2019. arXiv:1909.07606.
  • [41] Linyao Yang, Hongyang Chen, Zhao Li, Xiao Ding, and Xindong Wu. Give us the facts: Enhancing large language models with knowledge graphs for fact-aware language modeling, 2024. arXiv:2306.11489.
  • [42] Yifan Hou, Guoji Fu, and Mrinmaya Sachan. What has been enhanced in my knowledge-enhanced language model?, 2022. arXiv:2202.00964.