知识链：通过知识图学习将知识推理集成到大型语言模型中

Yifei Zhang, Xintao Wang¹¹footnotemark: 1,
Jiaqing Liang, Sirui Xia, Lida Chen, Yanghua Xiao
Fudan University
{yifeizhang23, xtwang21}@m.fudan.edu.cn
{l.j.q.light, siruixia39}@gmail.com shawyh@fudan.edu.cn
The first two authors contributed equally.Corresponding author.

摘要

大型语言模型（大语言模型）在涉及日益复杂的推理的各种自然语言处理（NLP）任务中表现出了令人印象深刻的熟练程度。知识推理是推理的一种主要类型，旨在从现有知识中推导出新知识。虽然它在知识图（KG）的背景下得到了广泛的研究，但大语言模型中的知识推理仍未得到充分探索。在本文中，我们介绍了知识链，这是一个全面的知识推理框架，包括数据集构建和模型学习的方法。对于数据集构建，我们通过 KG 上的规则挖掘创建 KnowReason。对于模型学习，我们观察到由朴素训练引起的规则过度拟合。因此，我们通过模拟人类内部知识探索过程的试错机制来增强 CoK。我们使用 KnowReason 进行了广泛的实验。我们的结果表明，CoK 不仅在知识推理方面，而且在一般推理基准方面，都可以有效细化大语言模型。

Yifei Zhang^†^†thanks: The first two authors contributed equally., Xintao Wang¹¹footnotemark: 1, Jiaqing Liang, Sirui Xia, Lida Chen, Yanghua Xiao ^†^†thanks: Corresponding author. Fudan University {yifeizhang23, xtwang21}@m.fudan.edu.cn {l.j.q.light, siruixia39}@gmail.com shawyh@fudan.edu.cn

1简介

Refer to caption — 图1：目前的大语言模型主要致力于知识推理，即，结合所获得的知识来推断新知识。

大型语言模型（大语言模型）在广泛的自然语言处理（NLP）任务中建立了新的最先进技术（Brown 等人，2020；Bang 等人，2023）。它们的令人印象深刻的地方越来越多地扩展到挑战推理能力的复杂问题，包括算术推理（Cobbe等人，2021）、常识推理（Talmor等人，2018）和符号推理推理（Srivastava 等人，2022）。这些推理能力使大语言模型能够做出明智的决策，解决复杂的问题，并提供更准确和相关的响应

知识推理是推理中不可或缺的一个方面，它结合已获得的知识衍生出新的知识Chen 等人(2020)，如图1所示。它与常识推理和符号推理有相似之处，都依赖现有知识和逻辑推理来得出新结论。此前，知识推理已经在知识图（KG）的背景下得到了广泛的研究。 KG 以关系三元组的形式表示事实知识，例如，(Plato,author_of,The Republic)。 KG 的知识推理是利用现有的知识来推断和推导新的知识，通常通过显式建模或隐式学习关系模式的组合规则（Sun 等人，2019）。这丰富了知识图谱并支持链接预测（朱等人，2021）和事实分类（姚等人，2019）等下游任务。现有的知识图谱推理方法可以分为基于结构化的方法，如 TransE (Bordes 等人，2013) 和基于描述的方法，如 LMKE (Wang 等人，2022) t1>. 然而，大语言模型中的知识推理仍然未被充分探索，这可以作为大语言模型推理的有价值的补充。

在本文中，我们建议利用知识图谱将这种知识推理能力整合到大语言模型中。具体来说，我们引入了知识链（CoK），一个用于知识推理的综合学习框架。 CoK 包括数据集构建和模型学习的方法。数据集构建基于KG。如图2所示，它包括三个步骤： 1）规则挖掘，挖掘KG中的组合规则； 2）知识选择，识别与这些规则匹配的相互关联的三元组； 3）样本生成，将三元组转换为自然语言样本。对于模型学习，我们观察到通过行为克隆训练大语言模型通常会导致规则过度拟合和随之而来的幻觉。因此，我们通过试错机制进一步增强了CoK，该机制模拟人类知识探索的内部过程，以提高泛化性。

我们进行了大量的实验来验证 CoK 的有效性，其中涵盖了匿名和常规设置。在匿名设置中，我们替换了实体名称，以确保分析不受数据泄露的影响。在常规设置中，我们不仅展示了 CoK 对于真实知识推理的价值，还展示了其他推理基准的价值。

本文的贡献主要总结如下：

•

我们引入知识推理任务来评估和丰富大语言模型。我们精心策划的数据集名为 KnowReason，将发布以促进该方向的未来研究。
•

我们提出知识链（CoK），一个提升大语言模型知识推理能力的综合框架。 CoK提供了详细的数据集构建方法，以及行为克隆和试错两种学习方法。
•

我们在各种环境下进行了广泛的实验，包括匿名环境和常规环境。我们的结果验证了 CoK 的有效性，并有望推广到新规则和升级挑战。此外，我们还通过 CoK 在改善其他各种任务方面的功效来展示其广泛的实用性。

2相关作品

大语言模型推理

大语言模型在许多NLP任务中取得了显着的成功，其能力已扩展到复杂的推理任务，例如常识推理（Talmor等人，2018），算术推理（Cobbe等）人，2021），以及符号推理（Srivastava 等人，2022）。据观察，大语言模型在使用标准提示时在推理任务上表现不佳（Wei等人，2022）。针对这个问题，Brown等人提出了少样本提示(Brown等人, 2020)，为模型提供了问答对的例子，并在推理任务中被证明是有效的。为了进一步提升性能，Wei 等人 (2022) 提出了Chain-of-Thought (CoT) 提示(Wei 等人, 2022)，它为模型提供了包含显式推理步骤的输入输出示例。与CoT不同的是，Program of Thoughts（PoT）使用语言模型将推理过程表达为程序，然后执行生成的程序得出答案（陈等人，2022）。思想树（ToT）通过将层次结构纳入推理过程（Yao等人，2024）来扩展CoT的概念。这种方法对于需要复杂决策和推理的任务特别有用，其中必须评估多个路径才能得出正确的解决方案。尽管 ToT 对于决策和路径选择是有效的，但它需要访问上下文等外部信息。相比之下，我们的工作引入了 CoK 框架，利用大语言模型的内部知识库来增强其知识推理能力。

KG 上的知识推理

知识推理是利用已知知识推断新知识的过程（陈等人，2020），广泛应用于知识图谱补全（张等人，2020）。知识图谱推理（KGR）的主要方法可大致分为四大类：基于嵌入的推理通过将符号表示映射到向量空间进行数值表示来捕获实体和关系之间的隐式关联(Bordes 等人, 2013); 基于符号的推理使用逻辑规则来推断知识图中的新关系，提供可解释的、类人的推理（Galárraga等人，2013）；基于神经网络的推理利用神经架构来预测知识图谱中的关系，实现复杂灵活的推理（Socher等人，2013；Schlichtkrull等人，2018）；混合推理结合了基于符号、基于嵌入和基于神经网络的推理，提高知识图谱推理的准确性和可解释性（Xiong等人，2017；Guo等人，2018））。

3方法论

3.1 准备工作和任务制定

知识图谱

KG 将事实集合存储为三元组，表示为 $G=\{(e,r,e^{\prime})\mid e,e^{\prime}\in\mathcal{E},r\in\mathcal{R}\}$ ，其中 $\mathcal{E}$ 和 $\mathcal{R}$ 分别表示实体和关系的集合。

原子和规则

知识图谱包含可以提取或建模以推断新知识的组合规则。这些规则由多个关系原子组成，其中原子可以表示为 $r(X,Y)$ ，其中 $r$ 是关系， $X, Y$ 是实体的变量。 KG中的规则可以用以下公式表示：

r_{h}(X,Y)\leftarrow r_{1}(X,Z_{1})\wedge\ldots\wedge r_{n}(Z_{n-1},Y)

(1)

这里， $r_{h}(X,Y)$ 表示head原子，表示规则头，而 $r_{1}(X,Z_{1})\ldots\wedge r_{n}(Z_{n-1},Y)$ 表示规则体。

例如，在规则中 $\textit{LiveIn}(X,Y)\leftarrow\textit{WorkFor}(X,Z_{1})\wedge\textit{LocateIn}% (Z1_{Y})\wedge\textit{LiveIn}(X,Y)$ 是规则头， $\textit{WorkFor}(X,Z_{1})\wedge\textit{LocateIn}(Z_{1},Y)$ 是规则体。

任务制定

给定一个原子 $r_{h}(X,Y)$ ，其中 $X$ 已知， $Y$ 未知，我们试图确定 $Y$ 。知识推理涉及识别适当的规则，然后利用支持规则主体的事实来确定 $Y$ 的值。

3.2知识链数据构建

在本节中，我们将介绍 CoK 方法的思想以及我们如何构建数据。

规则挖掘

在此步骤中，我们首先挖掘 2 跳规则，然后将它们组合起来创建 3 跳和 4 跳规则。

为了从知识图中的三元组导出数据构造规则，我们利用广度优先方法对连接头实体和尾实体的 2 跳原子组合进行采样。我们使用的算法如附录A.1所示。这些组合用作 2 跳规则的实例。例如，给定一个原子 $r_{3}(e1,e3)$ ，我们可以对实例 $r_{1}(e1,e3)\leftarrow r_{2}(e1,e2)\wedge r_{3}(e2,e3)$ 进行采样。该路径的头和尾分别对应于原子的头实体 $e_{1}$ 和尾实体 $e_{3}$ 。对应的规则是 $r_{1}(X,Y)\leftarrow r_{2}(X,Z)\wedge r_{3}(Z,Y)$ 。

对整个知识图谱进行采样后，我们获得了一系列规则实例。首先，我们统计每个规则对应的实例数量。少于 1000 个实例的规则被认为是非典型的，并从列表中删除，作为第一轮规则过滤。

对于规则 $r_{1}(X,Y)\leftarrow r_{2}(X,Z)\wedge r_{3}(Z,Y)$ ，如果图中满足规则体的实例组合数量为 $x$ ，并且同时满足规则头为 $y$ ，则该规则的置信度公式为 $y/x$ 。使用此公式，我们计算每个规则的置信度，并设置合理的阈值 0.6。如果置信度大于0.6，我们认为该规则有效并保留它；否则，我们将丢弃它。应用上述步骤后，我们获得了 203 条 2 跳规则。

我们结合 2 跳规则来创建更长的规则。给定两个规则，如果一个规则的规则头是另一个规则的规则体的一部分，我们用第一条规则的规则体替换该部分。例如，考虑以下两条规则：

1） $\textit{BornIn}(X,Y)\leftarrow\textit{HighSchool}(X,Z_{1})\wedge\textit{% LocateIn}(Z_{1},Y)$ ；

2） $\textit{CitizenOf}(X,Y)\leftarrow\textit{BornIn}(X,Z_{1})\wedge\textit{CityOf}% (Z_{1},Y)$ 。

Rule1 的头部 $\textit{BornIn}(X,Y)$ 是 Rule2 主体的一部分，因此我们将其替换为 Rule1 的主体以形成 3 跳规则： $\textit{CitizenOf}(X,Y)\leftarrow\textit{HighSchool}(X,Z_{1})\wedge\textit{% LocateIn}(Z_{1},Y)\wedge\textit{CityOf}(Z_{1},Y)$ 。

使用这种方法，我们生成 159 个 3 跳规则和 158 个 4 跳规则。

知识选择

在知识推理过程中，如果大语言模型无法获取支持推理路径的事实，则由于缺乏关键信息而无法完成推理。另一方面，如果我们查询的事实已经嵌入到大语言模型的内部参数中，则由于潜在的数据泄露，推理的有效性无法得到保证。因此，选择适合CoK数据构建的知识至关重要。

我们在匿名设置和常规设置中构建数据集，并将不同的知识选择过程应用于这两种设置。

对于获得的每个规则，我们首先从知识图中识别其所有实例。为了防止模型在训练过程中过度拟合特定规则，从而导致路径依赖，我们确保训练数据中每个规则的数量均衡。我们通过为每个规则采样相同数量的实例来实现这一点。接下来，对于每个实例，我们收集所涉及的事实并将其用于知识选择。

在匿名设置中，我们用随机的、不存在的字符串替换事实中的所有实体名称，使所有实体成为大语言模型的新知识。然后我们收集所有匿名事实并使用它们生成知识数据以进行知识注入。

在常规环境中，事实中的实体代表现实世界的知识。对于每个实例，我们收集相关事实并使用它们对大语言模型进行知识探索。如果大语言模型知道支持实例主体的所有事实，但不知道实例头所代表的事实，则保留该实例用于后续步骤中生成样本。

样本生成

最后，我们应用先进的大语言模型 ¹¹1本文使用GPT-3.5进行样本生成。将知识转化为自然语言句子。

对于知识数据集，我们为每个实体生成一段自然语言描述。对于 CoK 数据集，我们为上一步中获得的每个实例生成一个样本。对于规则头 $r_{h}(X,Y)$ ，我们提示高级大语言模型生成自然语言问题。考虑到实体之间的关系，如果多个 $Y$ 对应于单个 $X$ ，则提问 $Y$ 将导致多个答案，从而使评估复杂化。因此，我们选择 $X$ 和 $Y$ 之间的唯一实体来生成问题。对于规则体，我们将所有事实组合起来形成一条推理链，描述从 $X$ 到 $Y$ 的推理过程，将其作为问题的答案。样本生成详情见附录A.3

我们的实验包括匿名和常规设置。在每个设置中，CoK 数据集都以监督方式用于大语言模型。相反，知识数据集仅在匿名环境下的连续预训练阶段使用，将知识注入大语言模型。

3.3知识链学习

天真的训练

首先，我们直接在KnowReason上以行为克隆的方式训练大语言模型。然而，我们观察到一种称为规则过度拟合的现象。在这种情况下，经过训练的模型倾向于依赖训练过程中遇到的规则，即使没有支持事实。

反复试验

因此，我们在 CoK 学习中引入了一种试错（T&E）机制，它模拟了人类探索内部知识的过程。

为了模拟人类的知识推理过程，我们人类首先选择一个合理的规则，并在遇到问题时根据它开始推理。在此过程中，如果我们意识到我们缺乏规则所需的关键事实，我们就会转向替代推理路径，而不是在没有基本信息的情况下继续下去。

因此，我们将试错的概念与我们的方法相结合，将对大语言模型内部知识库的探索纳入推理过程。这种方法使大语言模型能够辨别何时应用规则以及何时由于缺乏支持事实而回溯它，从而切换到更合适的规则。

我们设计了一个符号代理，与大语言模型结合使用，采用试错方法生成探索路径。对于每个样本，符号代理首先选择一个可能的规则作为候选路径，然后在大语言模型的内部知识库中搜索该规则的支持事实。如果规则体的任何部分缺乏支持事实，则该过程被记录为错误，并且符号代理切换到另一条规则作为候选路径。重复此过程，直到找到具有足够支持事实的推理路径，从而得出所需的结果。整个探索过程被捕获为数据样本，其中至少包含一个错误和正确的推理路径。这个试错过程如算法1所示。

Data: knowledge graph

G

, rule head

r_{h}(X,Y)

, large language model

M

Result: exploration process

P

t\leftarrow 1

;

2 while True do

// Select candidate rule

R_{t}\leftarrow\textit{CandidateRule}(r_{h})

;

// Search for supporting facts

4 for $fact\in R_{t}(\text{rule\_body})$ do

5 if not $\text{IsFactExist}(fact,M)$ then

\textit{RecordError}()

;

t\leftarrow t+1

;

8 continue;

11 return $P$

Algorithm 1 CoK (T&E)

4实验

4.1设置

数据集

我们选择 Wikidata5m Wang 等人 (2021) 作为我们的数据源，这是一个与 Wikidata 一致的百万级知识图谱数据集，便于数据处理和使用。

我们构建了一个数据集KnowReason，其中包括知识数据集和CoK数据集。构造方法详见3节。

匿名设置和常规设置

我们在匿名设置和常规设置下进行实验。

在匿名设置中，我们对大语言模型中的知识推理进行了初步实验，避免了大语言模型固有知识对该任务的影响。在这些设置中，所有实体名称都替换为随机的、不存在的角色名称，确保模型参数不包含这些实体的先验知识。因此，我们的训练数据包括连续预训练阶段使用的知识数据集，以及指令微调阶段使用的 CoK 数据集。知识数据包含与每个实体相关的语料信息，为模型注入推理所需的前提知识。同时，CoK 和 CoK (T&E) 数据作为监督微调阶段的 CoK 数据集。我们的训练数据统计如表1所示。

Dataset	#Entity	#Relation	#Rule	#Samples	Avg. Sample Hops
Dataset	#Entity	#Relation	#Rule	#Samples	CoK	CoK(T&E)
Overall	6611	520	644	2793	2.43	5.34
2-hop	4748	203	326	1993	2	4.4
3-hop	978	159	172	400	3	6.6
4-hop	885	158	146	400	4	8.8

表格1： KnowReason数据集匿名设置下的训练数据统计

在常规设置中，我们验证了 CoK 在现实场景中的有效性。常规设置中的实体和关系反映了现实世界的知识。因此，我们的大语言模型仅使用CoK数据集来开发知识推理能力，而无需知识注入步骤。除了知识推理之外，我们还进一步评估了 CoK 学习对于大语言模型在下游任务中的一般推理能力的好处。

评估分裂

为了评估模型的知识推理能力，我们设计了两个测试数据集：域内（ID）和域外（OOD）测试。

1）域内测试 ID设置中样本的推理路径也出现在训练样本中。 ID设置得分较高表明大语言模型可以通过应用学习到的规则来增强其知识推理能力。

2）域外测试与ID设置不同，OOD设置中样本的推理路径不会出现在训练数据中。 OOD设置上得分较高意味着大语言模型的知识推理能力有效地推广到以前未见过的规则。

此外，ID 和 OOD 设置都分为三个子集，每个子集对应不同的规则长度。

楷模

我们在 Llama3-8B-instructAI@Meta (2024) 和 Mistral-7b-instruct-v0.2Jiang 等人 (2023) 上进行实验。

在微调阶段，我们对模型训练采用全面微调。对于每个训练数据集，模型训练 4 轮。每个时期之后，都会在评估训练数据集上进行测试，并报告最佳性能作为该设置的结果。

方法

我们在匿名设置下比较了以下四种方法。

•

Vanilla CoT 在这种方法中，我们提示模型通过逐步推理来回答问题，无需任何微调。
•

情境学习 CoK (ICL-CoK) 在这种方法中，我们为模型提供了来自 CoK 学习数据的六个问题和答案对示例。
•

CoK 在这种方法中，我们使用 CoK 数据对模型进行微调。
•

CoK (T&E) 在这种方法中，我们使用 CoK (T&E) 数据对模型进行微调。

指标

对于知识推理任务，给定规则头 $r_{h}(X,Y)$ ，我们用自然语言提出一个问题来识别 $Y$ ，其中 $Y$ 是黄金实体的问题。

我们使用精确匹配精度作为我们的指标。对于我们测试数据的每个子集，评估公式如下：

score(T)=\frac{E}{L(T)}

(2)

其中 $T$ 表示测试数据集， $E$ 是预测实体与黄金答案完全匹配的样本数， $L(T)$ 是样本总数在测试数据集中 $T$ 。

4.2 匿名设置的结果

Model	Method	Rule Length	ID				OOD
Model	Method	Rule Length	2-hop	3-hop	4-hop	all	2-hop	3-hop	4-hop	all
Mistral-7b	Vanilla CoT	-	5.47	6.97	4.48	5.64	4.98	5.47	4.98	5.14
	ICL-CoK	2	7.46	7.96	7.46	7.63	7.96	6.97	6.97	7.30
		2&3-hop	7.96	7.96	6.97	7.63	8.46	5.97	7.46	7.30
		2&3&4-hop	6.47	6.97	7.46	6.97	6.97	4.98	7.46	6.47
	CoK	2	11.94	14.93	12.94	13.27	16.92	7.96	5.97	10.28
		2&3-hop	15.92	19.90	16.9	17.58	16.42	8.96	14.93	13.43
		2&3&4-hop	13.43	15.92	21.89	17.08	12.44	16.92	22.89	17.41
	CoK(T&E)	2-hop	11.94	8.90	9.95	10.28	14.93	11.94	11.94	12.94
		2&3-hop	18.41	24.80	16.92	20.07	20.90	23.88	19.90	21.56
		2&3&4-hop	14.93	17.91	22.89	18.57	18.41	19.90	25.87	21.39
Llama3-8b	Vanilla CoT	-	4.98	6.97	8.96	6.97	5.97	8.96	5.97	6.97
	ICL-CoK	2-hop	8.46	6.97	6.97	7.46	7.96	6.97	6.97	7.30
		2&3-hop	7.46	7.96	6.97	7.46	7.96	7.46	5.97	7.13
		2&3&4-hop	7.46	8.96	8.46	8.29	6.97	8.96	8.96	8.29
	CoK	2-hop	17.41	12.94	13.93	14.76	13.43	8.96	7.96	10.12
		2&3-hop	15.42	19.90	14.93	16.75	19.40	15.92	13.93	16.42
		2&3&4-hop	16.42	18.91	21.89	19.07	10.45	17.91	19.90	16.09
	CoK(T&E)	2	11.94	15.92	15.92	14.59	18.91	16.92	11.94	15.92
		2&3-hop	11.94	20.90	16.92	16.58	21.39	23.88	18.91	21.39
		2&3&4-hop	16.92	19.90	20.90	19.24	12.94	21.89	22.89	19.24

表2：不同方法、不同规则长度的匿名设置实验结果(%)。最好的结果是粗体，次好的结果是下划线。

我们使用4.1节中提到的每种方法进行实验。对于我们的 CoK 和 CoK (T&E) 方法，我们使用不同长度的规则为每种方法构建三个版本的数据。这种方法使我们能够探索规则长度与模型知识推理能力之间的关系。实验结果如表2所示。

CoK有效提升大语言模型知识推理能力。

我们的结果表明，CoK 和 CoK (T&E) 在所有测试数据集上始终优于基线。值得注意的是，根据一些 CoK 示例，ICL-CoK 通常优于普通 CoT。然而，它的得分仍然相对较低，这表明没有微调的大语言模型尽管在其参数内包含关键信息，但仍难以基于其内部知识进行知识推理。

通过反复试验，CoK (T&E) 进一步提高了 OOD 设置中的性能。

在CoK中，ID数据集训练的得分普遍高于OOD数据集的得分，这说明了规则过度拟合的现象，其中大语言模型依赖于在训练过程中遇到的推理路径。此规则过度拟合可能会导致幻觉和 OOD 数据集泛化的损失。 CoK (T&E) 在大多数数据集上都超越了 CoK，在 OOD 数据集上的改进尤其显着。这表明CoK（T&E）使大语言模型能够考虑更合适的问题规则，而不是盲目应用以前遇到的规则。

学习长规则。

为了研究规则长度的影响，我们使用具有不同规则长度的数据集进行实验。我们观察到，在 2 跳和 3 跳测试数据集上，CoK (T&E)-3-hop 获得了最高分数，而 CoK (T&E)-4-hop 在 4 跳测试数据集上获得了最高分数。随着数据中的规则变长，模型的性能不会持续提高；相反，使用最大长度为 4 跳的规则进行训练实际上会降低性能。

为了找出原因，我们计算了模型在输出中使用的规则的长度，结果如表3所示。从结果来看，模型在使用较长规则进行训练时倾向于使用较长规则。当有较短路径可用时，使用较长推理路径会增加推理难度，因为推理过程中的每一步都需要模型进行探索和决策。

较长规则的训练有助于大语言模型学习使用更复杂的规则进行推理。然而，较长的规则并不总是更好。使用它们进行训练可能会导致在推理过程中使用较长规则的倾向，即使有更短或更简单的路径可用，也可能会降低更简单任务的性能。

Training Samples	2-hop	3-hop	4-hop
2-hop	100.0	0.0	0.0
2&3-hop	83.7	27.3	0.0
2&3&4-hop	47.2	24.6	28.2

表3：使用不同规则长度的数据进行训练时，模型输出中各种规则长度的比例（%）。

误差分析

我们进行了额外的实验来分析模型在 ID 和 OOD 设置中预测错误的原因。我们根据模型推理过程中第一个错误步骤对错误类型进行分类。例如规则错误表明模型选择了不合适的推理路径，而fact1错误表明模型在事实 $r_{1}(X,Y)$ 中使用了不正确的 $Y$ 。结果如表4所示。

	Rule	Fact1	Fact2
ID	34.78	38.89	26.32
OOD	63.15	23.27	13.57

表 4：规则、事实 1 和事实 2 中 ID 和 OOD 设置中不同类型错误的比例 (%)。

结果表明，在 ID 数据集上，大多数错误是由模型使用不正确的事实引起的。这可能是因为 ID 数据集中的推理路径也出现在训练数据中。相反，在 OOD 数据集上，更多错误可归因于模型选择的推理路径。关于事实错误，我们注意到模型在实体选择的初始阶段经常出现幻觉。我们认为发生这种情况是因为，在推理的后期阶段，模型的知识选择范围变得更加受限，因为它包含了额外的支持事实

具体来说，我们发现在一些错误样本中，模型选择了适当的推理路径并使用了正确的事实，但仍然得出了错误的实体。发生这种情况是因为对于事实 $r_{h}(X,Y)$ , $r_{h}$ 和 $X$ 的组合可以对应于多个 $Y$ 。尽管由于使用不同的事实，模型推导出的结果与真实情况不同，但推理过程仍然有效。

4.3 常规设置的结果

常规设置的下游任务

在常规设置中，我们使用常规数据训练模型，利用现实世界的实体进行数据构建，并在下游任务上进一步测试模型。

常规设置的结果如表5所示。

Model	Method	ID	OOD
Mistral-7b	Vanilla CoT	0.00	0.00
	ICL-CoK	5.50	6.20
	CoK	27.00	21.89
	CoK (T&E)	21.33	22.22

表 5：不同方法在常规设置上的性能（%）。

常规设置的结果验证了匿名实验得出的结论：当提示 CoK 示例时，ICL-CoK 在 ID 和 OOD 数据集上都优于普通 CoT。 CoK和CoK（T&E）都增强了大语言模型的知识链能力。此外，CoK（T&E）进一步减少了大语言模型的规则依赖性，从而提高了 OOD 数据集上的性能。

为了进一步研究 CoK 的泛化性，我们在其他流行的基准测试上测试了我们的 CoK 探索方法。下游任务的结果如表6所示。结果表明，CoK (T&E) 在三个常识推理基准上的表现优于基线，这表明 CoK 可以很好地推广到需要各种类型知识（例如世界知识）的其他推理任务。

Method	CSQA	BBH	ARC-e	ARC-c
Mistral-7b	66.5	53.2	81.2	72.2
Mistral-7b + CoK (T&E)	68.1	54.7	82.3	69.4

表 6： Mistral-7b 和 Mistral-7b + CoK (T&E) 在四个推理基准上的性能比较。

5结论

在本文中，我们提出了知识链，一个旨在将知识推理能力集成到大语言模型中的综合学习框架，涵盖数据构建和模型学习的方法。我们为模型构建 KnowReason 数据集。 CoK虽然有效提升了大语言模型在知识推理任务上的表现，但也可能导致规则过拟合。通过采用试错方法，CoK (T&E) 解决了这个问题并进一步提高了模型性能。对两个推理基准的大量实验证明了 CoK 对其他推理任务的泛化。

局限性

知识推理能力评价

由于大语言模型中的知识推理在之前的研究中仍未得到充分探索，并且没有适合我们任务的公共数据集或基准，因此使用我们构建的数据集KnowReason进行模型知识推理能力的训练和测试。为了解决这个问题，我们努力确保数据集的多样性。

常规设置的数据因型号而异

在常规设置中，数据中的实体代表现实世界的知识。为了防止数据泄露，我们对每个模型进行知识探测，使常规设置数据模型特定。相反，对于匿名设置，我们构建的数据需要在连续预训练阶段进行知识注入，但适用于所有模型。

道德声明

在本文中，我们提出了知识链框架，该框架包括数据构建和模型学习方法，以增强大语言模型的知识推理能力。我们的数据构建基于 KG 的组合规则。首先，为了确保我们数据的合理性，我们根据规则的置信度来过滤规则。然而，仍然存在一些规则可能仍然不合理，导致样本有缺陷的可能性。其次，由于我们使用先进的大语言模型来生成样本，大语言模型中存在的偏差不可避免地会影响知识。为了解决这些伦理问题，我们将优化规则挖掘方法，使模型的输出更好地与人类认知保持一致。

参考

AI@Meta (2024) AI@Meta. 2024. Llama 3 model card.
Bang et al. (2023) Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, et al. 2023. A multitask, multilingual, multimodal evaluation of chatgpt on reasoning, hallucination, and interactivity. arXiv preprint arXiv:2302.04023.
Bordes et al. (2013) Antoine Bordes, Nicolas Usunier, A. Garcia-Duran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multi-relational data. In Neural Information Processing Systems.
Brown et al. (2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901.
Chen et al. (2022) Wenhu Chen, Xueguang Ma, Xinyi Wang, and William W Cohen. 2022. Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks. arXiv preprint arXiv:2211.12588.
Chen et al. (2020) Xiaojun Chen, Shengbin Jia, and Yang Xiang. 2020. A review: Knowledge reasoning over knowledge graph. Expert systems with applications, 141:112948.
Clark et al. (2018) Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. 2018. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv:1803.05457v1.
Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. 2021. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.
Galárraga et al. (2013) Luis Antonio Galárraga, Christina Teflioudi, Katja Hose, and Fabian Suchanek. 2013. Amie: association rule mining under incomplete evidence in ontological knowledge bases. In Proceedings of the 22nd international conference on World Wide Web, pages 413–422.
Guo et al. (2018) Shu Guo, Quan Wang, Lihong Wang, Bin Wang, and Li Guo. 2018. Knowledge graph embedding with iterative guidance from soft rules. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 32.
Jiang et al. (2023) Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. 2023. Mistral 7b. arXiv preprint arXiv:2310.06825.
Schlichtkrull et al. (2018) Michael Schlichtkrull, Thomas N Kipf, Peter Bloem, Rianne Van Den Berg, Ivan Titov, and Max Welling. 2018. Modeling relational data with graph convolutional networks. In The semantic web: 15th international conference, ESWC 2018, Heraklion, Crete, Greece, June 3–7, 2018, proceedings 15, pages 593–607. Springer.
Socher et al. (2013) Richard Socher, Danqi Chen, Christopher D Manning, and Andrew Ng. 2013. Reasoning with neural tensor networks for knowledge base completion. Advances in neural information processing systems, 26.
Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, et al. 2022. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615.
Sun et al. (2019) Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. 2019. Rotate: Knowledge graph embedding by relational rotation in complex space. Preprint, arXiv:1902.10197.
Suzgun et al. (2022) Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V Le, Ed H Chi, Denny Zhou, , and Jason Wei. 2022. Challenging big-bench tasks and whether chain-of-thought can solve them. arXiv preprint arXiv:2210.09261.
Talmor et al. (2018) Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. 2018. Commonsenseqa: A question answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937.
Talmor et al. (2019) Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. 2019. CommonsenseQA: A question answering challenge targeting commonsense knowledge. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4149–4158, Minneapolis, Minnesota. Association for Computational Linguistics.
Wang et al. (2021) Xiaozhi Wang, Tianyu Gao, Zhaocheng Zhu, Zhengyan Zhang, Zhiyuan Liu, Juanzi Li, and Jian Tang. 2021. Kepler: A unified model for knowledge embedding and pre-trained language representation. Transactions of the Association for Computational Linguistics, 9:176–194.
Wang et al. (2022) Xintao Wang, Qianyu He, Jiaqing Liang, and Yanghua Xiao. 2022. Language models as knowledge embeddings. In Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence.
Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837.
Xiong et al. (2017) Wenhan Xiong, Thien Hoang, and William Yang Wang. 2017. Deeppath: A reinforcement learning method for knowledge graph reasoning. arXiv preprint arXiv:1707.06690.
Yao et al. (2019) Liang Yao, Chengsheng Mao, and Yuan Luo. 2019. Kg-bert: Bert for knowledge graph completion. arXiv preprint arXiv:1909.03193.
Yao et al. (2024) Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, and Karthik Narasimhan. 2024. Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36.
Zhang et al. (2020) Zhao Zhang, Fuzhen Zhuang, Hengshu Zhu, Zhiping Shi, Hui Xiong, and Qing He. 2020. Relational graph neural network with hierarchical attention for knowledge graph completion. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pages 9612–9619.
Zhu et al. (2021) Zhaocheng Zhu, Zuobai Zhang, Louis-Pascal Xhonneux, and Jian Tang. 2021. Neural bellman-ford networks: A general graph neural network framework for link prediction. Advances in Neural Information Processing Systems, 34:29476–29490.

附录ACoK数据构建细节

A.1 规则挖掘

在规则挖掘步骤中，我们首先使用广度优先搜索算法从原始知识图谱中查找复合规则实例，我们使用的算法为算法2。

1 for each triple $(A,r1,B)$ do

2 if B is in triplets then

3 for each $(r2,C)$ for the value of B do

4 if A is in triplets then

5 for each $(r3,C^{\prime})$ for the value of A do

6 if $C^{\prime}==C$ then

7 return combination

Algorithm 2 BFS for rule instances

A.2知识选择

在匿名设置中，在确定规则的支持事实后，需要对数据进行额外的处理。如果一个实例的头部是另一个实例身体的一部分，使用该实例进行样本生成和模型训练可能会导致数据泄漏，从而导致评估不公平。为了解决这个问题，我们将实例中的头部和身体部分分开。通过遍历所有实例，我们为身体事实创建了一组。如果某个实例的头事实出现在该集合中，则该实例存在数据泄露的风险，因此会被丢弃。

A.3样本生成

知识数据集

知识数据集用于在匿名环境下将知识注入大语言模型。它在连续预训练阶段使用，因此以语料库的形式呈现。

对于知识库中的每个实体，我们建立到所有相关事实的映射。利用这些事实，我们提示高级大语言模型生成描述性段落，封装有关实体的知识。我们使用的提示符是 Prompt A.3

为了增强模型记忆知识的能力，我们将每个实体的相关事实分为10个集合，并将它们输入到大语言模型中生成语料库。对于每个实体，我们提示大语言模型生成四个不同版本的知识语料库。此外，为了提高模型从内部知识库中提取知识的能力，我们将相应的 CoK 数据集成到预训练语料库中。因此，具有不同规则长度的CoK数据集的每个子集都有对应的预训练知识数据集。

CoK数据集

CoK数据集用于监督微调阶段的模型学习，有匿名和常规两种设置。我们有 3 个步骤来生成 CoK 数据集的样本：

1）关系模板生成对于每个关系，我们生成一个模板句子，描述原子中两个实体的关系。例如，有一个原子 $\textit{CitizenOf}(X,Y)$ ，模板是{{ $X$ 是 $Y$ 的公民}}。我们用来生成关系模板的提示如下：

2)问题模板生成对于规则头中的每个关系，我们为其生成一个问题模板。考虑到规则的充分性和非必要性，并确保每个提出的问题只有一个正确答案，我们提示大语言模型生成一个可能的语气问题，并且只对原子中的唯一实体提出问题。我们用来生成问题模板的提示如下：

3）样本生成 CoK数据集的样本是问答对的形式，因此对于一个样本，我们分别生成问题和答案。

对于问题生成，我们将规则头替换为相应的模板。对于答案生成，我们替换规则主体和规则头中的每个事实，将所有生成的句子连接到模板答案中。然后我们提示大语言模型将这些句子打磨成自然语言，作为该样本的答案。我们用来生成自然语言答案的提示如下：

附录B实验设置

B.1 数据集详细信息

KnowReason 的测试数据集

KnowReason测试数据集统计结果如表7

Setting	Rule Length	#Entity	#Relation	#Rule	#Sample
ID	2-hop	460	135	147	201
	3-hop	307	96	70	201
	4-hop	360	118	73	201
OOD	2-hop	446	43	28	201
	3-hop	267	66	36	201
	4-hop	353	94	41	201

表 7： KnowReason测试数据集统计

下游任务的基准

•

CommonsenseQA(CSQA) (Talmor 等人, 2019) CommonsenseQA 是一个新的多项选择题回答数据集，需要不同类型的常识知识来预测正确答案。它包含 12,102 个问题，其中有 1 个正确答案和 4 个干扰答案。
•

AI2 Reasoning Challenge (ARC) （Clark 等人，2018） ARC 是一个包含 7,787 个真实小学水平的多项选择科学问题的数据集，旨在鼓励以下方面的研究：高级问答。数据集分为挑战集（ARC-c）和简单集（ARC-e）。
•

BIG-Bench Hard(BBH) （Suzgun 等人，2022） BBH 是一个多元化的评估套件，专注于被认为超出当前语言模型能力的任务。它专注于 23 项具有挑战性的 BIG-Bench 任务，在这些任务中，先前的语言模型评估并没有优于人类评估者的平均水平。

B.2方法细节

香草CoT

在普通 CoT 中，我们只需使用 {{let's think step by step}} 来提示模型。我们使用的提示符如下：

ICL-CoK

在 ICL-CoK 中，我们使用 CoK 数据集中的 6 个示例来提示模型。在不同规则长度设置下，我们使用不同规则长度的示例，具体如表8

Rule Length	# Example
Rule Length	2-hop	2&3-hop	2&3&4-hop
2	6	0	0
3	3	3	0
4	2	2	2

表8： #ICL-CoK 提示中的示例

我们使用的提示符如下：

科克

我们使用CoK的提示符如下：

科克 (T&K)

我们用于CoK（T&E）的提示符如下：

附录C案例研究

C.1 规则示例

表 9 显示了我们从 KG 中挖掘的规则示例。

Rule Length

Rules

2-hop

Country(X,Y)

\leftarrow

PlaceOfBirth(Z,X)

\wedge

CountryOfCitizenship(Z,Y)

Contry(X,Y)

\leftarrow

MemeberOfSportsTeam(Z,X)

\wedge

CountryOfCitizenship(Z,Y)

CastMember(X,Y)

\leftarrow

OriginalLanguageOfFilm(X,Z)

\wedge

LanguagesSpoken(Y,Z)

3-hop

Country(X,Y)

\leftarrow

PlaceOfBirth(Z,X)

\wedge

ResidentOf(Z,W)

\wedge

Country(W,Y)

Country(X,Y)

\leftarrow

PlaceOfBirth(Z,X)

\wedge

EducatedIn(Z,W)

\wedge

Country(W,Y)

4-hop

Country(X,Y)

\leftarrow

PlaceOfBirth(Z,X)

\wedge

Spouse(Z,W)

\wedge

PlaceOfBirth(W,V)

\wedge

CountryOfCitizenship(W,Y)

DistantRelative(A,B)

\leftarrow

PlaceOfBirth(A,X)

\wedge

ParentOf(Y,A)

\wedge

CountryOfCitizenship(Y,Z)

\wedge

Spouse(A,W)

\wedge

ChildOf(B,W)

表 9：我们挖掘的不同长度规则的示例

C.2 知识数据集示例

表10显示了我们在连续预训练阶段使用的知识数据集的示例。

Knowledge

Excn, a company known for its innovative approach and cutting-edge solutions, has its headquarters situated in Dyxeti. This strategic location serves as the central hub for Excn’s operations, allowing the company to efficiently coordinate its various departments and teams. Dyxeti’s vibrant business environment and access to top talent make it an ideal setting for Excn to thrive and continue its mission of driving progress and success in the industry.

Ccmr is the location where the headquarters of Bplx is situated. The presence of Bplx’s headquarters in Ccmr is significant as it serves as the central hub for the organization’s operations and decision-making. Ccmr, with its strategic position, provides Bplx with easy accessibility to its stakeholders and allows for efficient management of the business. This centralized location in Ccmr ensures effective coordination among various departments and facilitates seamless communication between Bplx and its global network.

Nryxg is the official language of Gexdzjp, serving as the primary means of communication within the region. It is the designated language used for official documents, government proceedings, and educational instruction, reflecting the cultural and linguistic identity of the people of Gexdzjp. Through the use of Nryxg, individuals in Gexdzjp are able to effectively communicate and connect with one another, fostering a sense of unity and shared understanding among its inhabitants.

表 10：知识数据集示例

C.3 CoK数据集示例

表11显示了CoK设置中的数据示例。

Rule Length	Question	Answer
2-hop	Which country might Anykid be a citizen of?	Cckqlvy has Anykid as a part of their team. Cckqlvy is from the country Vevedgta. Therefore, Anykid may be a citizen of Vevedgta. Consequently, Vevedgta is the correct answer.
3-hop	Which country may Pzdazwi belong to?	Mjzk is a citizen of Pzdazwi and is a cast member of Kqts, who is from the country Vevedgta. Therefore, it is possible that Pzdazwi is also from the country Vevedgta.
4-hop	What may be the original language of Yvag?	Brq is fluent in speaking, writing, or signing Owiyxpqf languages. Brq is a actor in Vffdgv, which is produced by Lmljpgzx. Yvag is directed by Lmljpgzx. Therefore, it is possible that the original language of Yvag is Owiyxpqf.

表 11： CoK数据集中CoK方法的示例

表12显示了CoK（T&E）设置中的数据示例。

Rule Length	Question	Answer
2-hop	To which country does Qzdhsdq belong?	To find the answer, we can follow the reasoning path: official_language(Y, X) $\leftarrow$ language_of_work_or_name(A, X), country_of_origin(A, Y). Lzdxfzxw is from Vevedgta, but since we are unsure of Lzdxfzxw’s military branch, this path is not applicable. Let’s consider a different path: country(X, Y) $\leftarrow$ military_branch(A, X), country_of_citizenship(A, Y). Bmezedu serves in the military branch Qzdhsdq, which is linked to Vevedgta. Therefore, we can conclude that Qzdhsdq is associated with Vevedgta. Hence, the answer is Vevedgta.
3-hop	What might be the language of Yjuphmb?	If a person has a work X and is an author of a book Y, then the language of book Y could be the same as the language of work X. In this case, Yjuphmb is a work of Kvyps, Kvyps is the author of Tkbz, and the language of Tkbz is Xsbfi. Therefore, it is possible that the language of Yjuphmb is Xsbfi.
4-hop	Which country might Liose from?	To find the answer, we can use the reasoning path: Country(X,Y) $\leftarrow$ PlaceOfBirth(Z,X) $\wedge$ EducatedIn(Z,W) $\wedge$ Country(W,Y). However, since we are unsure of where Liose was educated, this path is not viable. Let’s consider an alternative path: Country(X,Y) $\leftarrow$ PlaceOfBirth(Z,X) $\wedge$ Spouse(Z,W) $\wedge$ PlaceOfBirth(W,V) $\wedge$ LocateIn(W,Y). Since Liose is born is Bhsz and Ari is her spouse, Ari was born in Zhww which locates in Vevegde, it is plausible that Liose is a citizen of Vevegde

表 12： CoK数据集中CoK（T&E）方法的示例

C.4 不同类型错误的情况

表13展示了错误分析中不同类型的错误，包括规则错误、事实1错误和事实2错误。

Error Type	Question	Model Output	Explain
Rule	Can you tell me the country where Nzwscwm is from?	Nzwscwm is the country that the author of Wcsa is a citizen of. Wcsa is from the country Vevedgta, so it’s possible that Nzwscwm is also from Vevedgta. So the answer is Vevedgta.	The reasoning path is not reasonable.
Fact1	To which country does Ztgl possibly belong?	Ztgl is the head coach of Mfqep. Mfqep is from the country Zxdxcgh. Therefore, it is possible that Ztgl also belongs to the country Zxdxcgh. Thus, Zxdxcgh is the answer.	Ztgl is not a coach, the first fact is wrong.
Fact2	What is the language Arstkb use?	Arstkb has cast member Qoztebgc, who speaks the language Crbzovw. This means that Arstkb use Crbzovw language. Thus, Crbzovw is the answer.	Qoztebgc does not speak Crbzovw, the second fact is wrong.

表 13：三种错误类型的示例