LLaGA：大型语言和图形助手

Runjin Chen Tong Zhao Ajay Jaiswal Neil Shah Zhangyang Wang

摘要

图神经网络（GNN）推动了图结构数据分析的进步。最近，像GPT-4这样的大型语言模型（大语言模型）的兴起预示着深度学习的新时代。然而，由于将图结构翻译成语言的固有困难，它们在图数据上的应用提出了明显的挑战。为此，我们引入了Large Language and Graph Assistant (LLaGA)，一种创新模型，有效集成大语言模型能力，处理图结构数据的复杂性。 LLaGA保留了大语言模型的通用性质，同时将图数据调整为与大语言模型输入兼容的格式。 LLaGA 通过将图节点重新组织为结构感知序列，然后通过多功能投影仪将它们映射到词符嵌入空间来实现这一点。 LLaGA 在多功能性、通用性和可解释性方面表现出色，使其能够在不同的数据集和任务中始终如一地表现良好，将其能力扩展到未见过的数据集或任务，并为图形提供解释。我们在流行的图形基准上进行的广泛实验表明，LLaGA 使用一个模型在四个数据集和三个任务中提供了出色的性能，在监督和零样本场景中都超越了最先进的图形模型。我们的代码位于 https://github.com/VITA-Group/LLaGA

1简介

图无所不在，代表着来自社交网络、生物网络和推荐系统等的大量现实世界数据。图神经网络（GNN）（Kipf & Welling，2017；Defferrard 等人，2016；Veličković 等人， 2017），嵌入了消息传递和聚合技术，是处理复杂图结构的强大算法工具。尽管如此，GNN 的一个关键限制是其多任务处理能力较弱。 GNN 通常针对单个任务进行训练，但在应用于多个任务时很难保持性能。自监督学习（Jin等人，2021；Ju等人，2023）可能会提供一些改进，但它们仍然需要特定于任务的头部或针对下游任务的调整。

最近，具有大量上下文感知知识和语义理解能力的大语言模型的出现(例如， LLaMa (Touvron 等人, 2023)、GPTs (Achiam等人, 2023), Claude (Perez 等人, 2022)) 标志着人工智能研究的重大进步。大语言模型的一个关键优势是能够用单一模型解决各种任务，展示出强大的语言技能和解释所提供答案的能力。这些模型不仅在语言相关任务方面表现出了卓越的熟练程度，而且在理解和生成视觉内容方面也表现出了出色的熟练程度（Liu 等人，2023；Wang 等人，2023）。然而，当涉及到本质上包含丰富的关系和结构信息的图结构数据时，直接应用此类模型会带来挑战。因此，研究人员（Fatemi等人，2023；Chen等人，2023a）探索了将图结构翻译成适合语言模型使用的自然语言的方法。然而，用纯文本描述图往往很冗长，无法直接表示图的内在特征，常常导致对节点和边关系的重复和不直观的描述。因此，如果没有特定的适应，大语言模型在基本图形任务上的表现会很差（Chen等人，2023a）。随后，InstructGLM (Ye 等人, 2023)用语言描述图，并尝试通过针对特定任务的微调来增强大语言模型的图任务性能。然而，这种专业化限制了模型的多功能性，可能限制其在其他图任务或非图相关领域的有效性。最近，GraphGPT （Tang 等人，2023）将文本描述与自监督图 Transformer 相结合，将图数据合并到大型语言模型（大语言模型）中。然而，预训练的图 Transformer 可能无法提取特定下游任务的所有相关结构信息，从而导致性能不太令人满意。受这些问题的推动，这项工作提出了一个重要的问题：如何开发一个框架，有效地编码跨不同任务和领域的图的结构信息，使其能够被大语言模型理解，同时保持大语言模型的通用性？

为此，我们引入了Large Language and Graph Assistant (LLaGA)，一种新颖的框架，它将丰富的图结构数据与大型语言模型的大量上下文感知技能和理解能力无缝集成。 LLaGA 具有以下三个令人印象深刻的特征，使 LLaGA 与之前的作品区分开来：

•

多功能性： LLaGA 采用简单但普遍适用的方法来编码图形中的结构细节，并使用单个多功能投影仪实现图形和词符空间之间的总体对齐。该投影仪可有效处理跨多个数据集的各种图形任务，无需针对特定任务进行调整。值得注意的是，我们的多功能 LLaGA 框架的性能甚至可以超过专门的以任务为中心的图模型。
•

泛化性：鉴于图和词符空间之间的全面对齐，LLaGA 不仅在训练过程中遇到的数据集和任务中表现出色，而且无需额外调整即可对以前未见过的数据集和任务表现出强大的泛化能力。
•

可解释性：LLaGA 的一个关键特性是它能够提供节点嵌入的详细解释，从而极大地增强对其决策过程的理解。

为了实现这一目标，LLaGA 独特地将图数据重新组织为节点序列，而不将结构信息转换为可能不明确的自然语言描述。这些序列在新颖的节点级模板的帮助下进行格式化，以反映每个中心节点周围的结构信息，同时保留图的节点特征。请注意，这种转换是无参数的，确保保留原始结构完整性，而无需进一步蒸馏。随后，LLaGA 通过多功能投影仪将节点表示转换为大语言模型可理解的词符嵌入空间，这有助于减轻微调大语言模型的昂贵计算成本并保持大语言模型模型'通用。投影仪通常在跨各种任务的多个图数据集上进行训练，例如节点分类、链接预测和节点描述。这确保了它可以从不同的角度解释图形数据，并吸收处理多个任务（同时）的固有能力，增强其实用性，并有可能增强 LLaGA 在各种看不见的数据集和任务中的泛化能力。值得注意的是，与 GNN 中使用的传统多任务学习方法不同，LLaGA 以统一的问答格式训练所有任务，避免了对特定于任务的损失函数或头的需要。我们大量的实验表明，LLaGA 在大语言模型的图和词符空间之间实现了稳健的对齐，促进了模型在多个任务、未见过的测试集和有趣的非分布数据集上的应用。

据我们所知，LLaGA 是第一个在各种图形数据集和任务中一致良好执行的单一模型。它与针对特定数据和任务定制的专用 GNN 的有效性相匹配，同时还对未见过的数据集或任务表现出强大的通用性。

2方法论

Refer to caption — 图1： LLaGA 框架及其即时设计范例的图示。

在本节中，我们详细介绍LLaGA框架。我们从符号设置开始，然后详细解释将图转换为词符嵌入空间的方法。随后，我们深入研究训练过程，包括提示和任务的设计以及训练目标。

2.1 符号

图是封装一组实体及其相互关系的结构。正式地，图被表示为 $\mathcal{G}=(\mathcal{V},\mathcal{E},\mathcal{X})$ 。这里， $\mathcal{V}$ 表示节点（实体）的集合。边集 $\mathcal{E}$ 表示 $\mathcal{V}$ 中节点之间的连接。 $\mathcal{X}$ 是节点对应的属性信息。每个节点 $v_{i}\in\mathcal{V}$ 都与一个属性特征 $x_{i}\in\mathcal{X}$ 相关联。在本文中，我们主要关注文本属性图，这意味着每个节点的属性 $x_{i}\in\mathcal{X}$ 以文本格式表示。此外，我们引入 $\mathcal{N}_{v}^{k}$ 来表示节点 $v$ 周围的 $k^{th}$ 跳邻域集。

2.2 结构感知图翻译

LLaGA（大型语言和图形助手）的主要目标是将图形输入转换为大型语言模型可以理解的词符嵌入空间。这种翻译可以利用大语言模型固有的推理能力来完成图形相关的任务，而无需对大语言模型参数进行任何修改。 LLaGA 通过最初将图中的节点重新组织为节点嵌入序列来实现此目的。这些序列根据我们提出的模板进行结构化，然后使用投影仪将其转换为词符嵌入序列。

第一步涉及将图转换为节点嵌入序列。认识到图分析的基本单位是节点，我们开发了两个用于图分析的节点级模板。这些模板用途广泛，不仅适用于节点级任务，还适用于链接预测等其他任务。这两个模板都旨在对节点周围的结构信息进行编码，提供不同的分析视角。第一个是邻域详细信息模板，提供中心节点及其直接周围环境的深入视图。第二个是Hop-Field Overview Template，提供节点邻域的汇总视图，可扩展到更大的字段。

邻域详细信息模板旨在详细说明节点及其周围邻域的详细信息。给定一个节点 $v$ ，我们首先构建一个以 $v$ 为中心的固定形状的采样计算树。对于邻居的每一跳，我们定义一个邻居样本大小，表示为 $n_{1},n_{2},...$ ，其中 $n_{i}$ 表示 $i^{th}$ 跳的样本大小。以根节点为中心节点 $v$ 构建计算树。从 $v$ 的1跳邻居集中，记为 $\mathcal{N}_{v}^{1}$ ，我们随机选择 $n_{1}$ 个节点，形成新的邻居集 $\widetilde{\mathcal{N}_{v}^{1}}$ 。如果 $\mathcal{N}_{v}^{1}$ 的大小小于 $n_{1}$ ，即 $|\mathcal{N}_{v}^{1}|<n_{1}$ ，我们用占位符节点补充集合以达到 $n_{1}$ 的大小>。因此， $\widetilde{\mathcal{N}_{v}^{1}}$ 的大小始终是 $n_{1}$ ，即 $|\widetilde{\mathcal{N}_{v}^{1}}|=n_{1}$ 。 $\widetilde{\mathcal{N}_{v}^{1}}$ 中的节点被视为根节点的子节点。随后，对于 $\widetilde{\mathcal{N}_{v}^{1}}$ 中的每个节点，我们递归地将 $n_{2}$ 邻居采样为其子节点。任何节点不足的集合都用占位符节点填充。对于任何占位符节点，其子节点都是占位符节点。如图1左上角所示，根节点为 $A$ ，我们展示 $A$ 的2跳邻居结构，示例两个跃点的大小均为 3。 $A$ 的一阶邻居是 $\{B,C,D\}$ ，因此它们显示在计算图的第二层中。由于 $B$ 有 2 个邻居 $\{A,G\}$ ，因此我们将此集合扩展为 $\{A,G,[pad]\}$ ，其中 $[pad]$ 表示占位符节点。对于节点 $C$ 和 $D$ 也是如此。最终，这个过程产生了一个以节点 $A$ 为中心的完美三元计算树。然后对计算树进行层序遍历，将中心节点及其邻域的综合细节转化为固定长度的节点序列。例如，在图 1 中，表示节点 $A$ 及其邻域的序列为 $A$ $B$ $C$ $D$ $A$ $G$ $[pad]$ $A$ $[pad]$ $[pad]$ $A$ $E$ $F$ 、其中，每个序列位置唯一对应原始图中的一个相对结构位置。

将中心节点及其结构信息转换为节点序列后，我们将它们映射到节点嵌入空间中。在文本属性图的背景下，我们可以利用各种现成的文本编码模型 $\phi$ ，例如SBERT （Reimers & Gurevych，2019）、RoBERTa (Liu 等人, 2019) 和 SimTeG (Duan 等人, 2023)，对文本特征进行编码。占位符节点由相同大小的零向量表示。我们进一步在每个序列位置集成拉普拉斯嵌入（Dwivedi & Bresson，2020），增强结构信息的表示。用 $\mathcal{A}_{tree}$ 表示计算树的邻接矩阵，拉普拉斯嵌入定义为 $\mathcal{A}_{tree}$ 的拉普拉斯矩阵的特征向量：

L=I-\mathcal{D}^{-\frac{1}{2}}\mathcal{A}_{tree}\mathcal{D}^{-\frac{1}{2}}=U^{% T}\Lambda U

(1)

其中 $\mathcal{D}$ 表示 $\mathcal{A}_{tree}$ 的度矩阵， $U$ 表示模板的拉普拉斯嵌入。值得注意的是，在样本大小固定的情况下，计算树的形状保持不变，因此使用此模板的所有图的拉普拉斯嵌入仅计算一次。然后将该嵌入附加到编码的节点特征以形成最终的节点嵌入。该过程概述如下：令 $v_{1}$ 、 $v_{2}$ 、 $\dots$ 、 $v_{n}$ 表示编码后的节点序列。 $v_{i}$ 的最终节点嵌入 $h_{v_{i}}$ 由下式给出

h_{v_{i}}=\begin{cases}\textbf{0}\ \ ||\ \ U_{i},&\text{if }v_{i}=[pad];\\ \phi(x_{v_{i}})\ ||\ U_{i},&\text{otherwise,}\end{cases}

(2)

其中 $||$ 表示串联。随后，中心节点及其结构信息被转化为节点嵌入序列 $h_{v_{1}}$ 、 $h_{v_{2}}$ 、 $\dots$ 、 $h_{v_{n}}$ 。

Hop-Field Overview Template 提供中心节点及其邻域的汇总视图。该模板使用跃点嵌入来表征跨各个邻域跃点的节点特征。这些跃点嵌入是通过在编码文本特征上传递无参数消息来获得的。对于每个中心节点 $v$ , $i^{th}$ 跳嵌入 $h_{v}^{i}$ 计算如下：

h_{v}^{i}=\frac{1}{|\mathcal{N}_{v}^{1}|}\sum_{v^{\prime}\in\mathcal{N}_{v}^{1% }}h_{v^{\prime}}^{i-1},

(3)

其中 $h_{x}^{0}=\phi(x_{v})$ 。通过此计算， $h_{v}^{i}$ 可能包含来自 $i^{th}$ 跳邻域集 $\mathcal{N}_{v}^{i}$ 中所有邻居的信息。一系列跳嵌入 $h_{v}^{0}$ 、 $h_{v}^{1}$ 、 $h_{v}^{2}$ 、 $\ldots$ 可以表示中心节点及其结构信息。与邻域详细模板（为每个邻居使用单独的嵌入）不同，跳字段概述模板使用单个嵌入来总结每个跳的邻居。这种方法可能会为了更广泛的各自领域而牺牲一些细节。这些模板之间的选择应基于输入数据的性质和所需的详细程度。

为了增强大语言模型对图输入的自然理解，必须将节点嵌入空间与输入词符空间对齐。这种对齐是通过使用专门校准的投影仪将每个节点嵌入映射到词符嵌入空间来实现的，表示为 $f_{\theta}$ 。从数学上讲，对于嵌入 $h_{i}$ 的给定节点，此过程可以表示为：

e_{i}=f_{\theta}(h_{i}).

(4)

因此，节点嵌入序列 $h_{1}$ 、 $h_{2}$ 、...、 $h_{n}$ 被转换为相应的词符嵌入序列 $e_{1}$ 、 $e_{2}$ 、...、 $e_{n}$ 。在我们的框架中，这种转换是通过充当投影仪的简单 MLP 来促进的。需要注意的是，投影仪的参数 $\theta$ 是 LLaGA 训练过程中唯一需要调整的参数。

2.3对齐调整

在 LLaGA 中，我们在图上采用了三个关键任务——节点分类、链接预测和节点描述——来精心调整投影仪。前两个任务，节点分类和链接预测，在图 ML 领域已经很成熟并得到广泛认可。相比之下，节点描述任务在传统的图分析中不太常见，旨在将节点嵌入与特定的描述性文本对齐。这项创新任务可以提供丰富的图表语义解释，从而更深入地了解基于图表的预测背后的逻辑。此任务的问题和答案可以表述如下：问题：请描述中心节点： $<$ 节点序列 $>$ 。答案：中心节点代表[论文/产品/…]，它是关于[节点描述]的。对于文本属性图，可以从节点特征获得节点描述。通过将这三个不同的任务集成到训练过程中，我们的投影仪对图有了全面而细致的理解，并且可以作为所有这些任务的节点嵌入和词符嵌入空间之间的多功能转换器。此外，它可以显式地生成节点嵌入的解释，从而增强可解释性。

在训练期间，我们以聊天的形式组织问题和答案。在我们的实验中，Vicuna （Chiang 等人，2023）作为主要的基础大语言模型（大语言模型），因此我们遵循Vicuna的实现策略并相应地设置系统消息。有关问答模板和训练或推理输入序列的详细信息，请参见图1中的插图。在输入处理阶段，我们对提示中的所有单词进行标记，并将它们转换为各自的词符嵌入。对于 $<$ 节点序列 $>$ ，我们用投影节点嵌入 $e_{1}$ , $e_{2}$ ，...， $e_{n}$ 训练目标是最大化生成正确答案的概率，公式为

\underset{\theta}{\text{maximize }}p(X_{answer}|X_{graph},X_{question},X_{% system}).

(5)

3实验结果

我们进行了全面的实验，以验证我们的框架在各种环境下的有效性，旨在解决几个关键的研究问题：

•

RQ1：与标准图任务（例如节点分类和链接预测）中的基线模型相比，LLaGA 的表现如何？
•

RQ2： LLaGA 对节点嵌入生成的解释有多好？
•

RQ3：模型在适应零样本中的新数据集或任务时转移知识的效率如何？
•

RQ4：我们的编码模板对整体性能的贡献是什么？

3.1设置

数据集。我们在四个广泛认可的图数据集上训练和评估我们的模型：ogbn-Arxiv (Hu 等人, 2020)、ogbn-Products (Hu 等人, 2020)、 Pubmed，和 Cora （Yang 等人，2016）。这些数据集跨越引文网络和电子商务领域，其稀疏性和大小各不相同，规模从小到大不等。详细的统计和数据分割方法参见附录A。

任务。我们的模型利用 LLaGA 完成 3 项任务：节点分类、链接预测和基于图的节点描述。节点分类的目标是根据研究主题或产品特征对节点进行分类。在链接预测任务中，我们预测节点对之间是否存在边。节点描述任务涉及基于编码的节点嵌入生成节点描述。训练的基本事实来自分类标签和文本特征，结构如下：中心节点代表[标签]域中的论文/产品，它是关于[文本特征]。

评估指标。对于评估指标，我们对节点分类和链路预测任务采用准确度，对节点描述任务采用 Sbert 分数和描述标签准确度。 Sbert 分数衡量生成的描述的嵌入与 Sbert 编码的真实描述之间的相似性。描述标签准确度表示从节点描述推断出的标签的准确度。对于 LLaGA 框架，只有当样本在其响应中准确识别类别的全名时，才被认为是准确的。

实施细节。在模型的实现中，我们主要采用 Vicuna-7B-v1.5-16K (Chiang 等人, 2023) 作为基础模型，并使用 SimTeg (Duan 等人, 2023) 作为默认文本编码模型。此外，我们对附录C和D中的各种基础大语言模型和嵌入进行了比较分析。所有模型的学习率始终设置为 2e-5，批量大小保持为 16。我们训练我们的模型一个时期。然而，为了弥补有限的数据大小，我们将最小数据集 Cora 中的训练样本复制了 3 次。对于邻域详细模板，我们对每个节点周围的两跳邻居进行采样，将每跳的样本大小设置为 10。在Hop-Field Overview Template中，采用4跳嵌入来封装中心节点周围的结构信息。我们将具有邻域详细模板和 Hop-Field 概述模板的 LLaGA 实现分别表示为 LLaGA-ND-7B 和 LLaGA-HO-7B。

基线。在我们的比较分析中，我们将我们的框架与三类最先进的模型进行基准测试，以确保进行彻底的评估。第一类为图神经网络，包括GCN (Kipf & Welling, 2016)、GraphSage (Hamilton 等人, 2017)、GAT (Veličković 等人, 2018）、SGC （吴等人，2019）和 SAGN （孙等人，2021）。第二类包括基于 Transformer 的图模型 NodeFormer (Wu 等人, 2022)。最后一类以领先的通用大语言模型GPT-3.5为代表。对于前两类，采用相同的文本编码方法对文本特征进行编码，以确保公平的比较。对于 GPT-3.5，我们利用 Chen 等人（Chen 等人，2023a）调查的节点分类结果，并通过采用一致的图形描述提示格式将该方法扩展到链接预测任务。此外，我们还与并发工作 GraphGPT (Tang 等人, 2023) 进行了比较。

3.2总体性能比较（RQ1）

表格1： 4 种设置下节点分类和链路预测与基线模型的性能比较。单焦点表示在单个任务和数据集上训练的模型。任务专家是指在所有数据集中专门针对一项任务进行训练的模型，专门针对该任务。分类专家表示在所有数据集上经过节点分类和链接预测训练的模型，精通分类任务。通用模型能够处理跨数据集的分类任务，并且擅长语义任务，例如为节点嵌入生成可解释的描述。 (粗体表示所有方法的最佳结果，而下划线突出显示此设置下的最佳基线结果)

Model Type	Model	Node Classification Accuracy(%)				Link Prediction Accuracy(%)
Model Type	Model	Arxiv	Products	Pubmed	Cora	Arxiv	Products	Pubmed	Cora
Single Focus	GCN	73.72	80.75	92.96	88.93	91.43	93.95	90.91	81.59
	GraphSage	76.29	82.87	94.87	88.89	91.64	94.96	90.64	79.15
	GAT	74.06	83.06	92.33	88.97	85.99	93.85	83.96	80.06
	SGC	71.77	75.47	87.35	87.97	87.99	88.51	83.60	80.94
	SAGN	75.70	82.58	95.17	89.19	90.62	94.85	90.48	79.88
	NodeFormer	74.85	83.72	94.90	88.23	91.84	90.93	77.69	77.26
	LLaGA-ND-7B	75.98	84.60	95.03	88.86	91.24	97.36	91.41	83.79
	LLaGA-HO-7B	76.66	84.67	95.03	89.22	94.15	95.56	89.18	86.82
Task Expert	GCN	71.45	80.88	89.25	81.62	88.51	93.54	81.01	78.88
	GraphSage	72.56	82.50	94.15	81.99	87.76	93.49	76.14	80.74
	GAT	72.19	82.61	87.97	83.58	82.58	92.03	76.85	79.76
	NodeFormer	72.35	82.99	94.41	83.27	84.11	93.42	80.40	81.03
	LLaGA-ND-7B	76.41	84.60	94.78	88.19	91.20	97.38	93.27	89.41
	LLaGA-HO-7B	76.40	84.18	95.06	89.85	94.36	95.85	88.88	87.50
Classification Expert	GCN	70.95	80.02	89.00	82.77	87.69	92.88	72.28	78.35
	GraphSage	71.91	81.62	91.81	82.44	89.23	92.22	75.36	82.09
	GAT	70.90	81.83	87.72	82.07	85.18	92.11	75.00	80.35
	NodeFormer	63.20	75.55	89.50	69.19	82.33	75.42	78.22	81.47
	LLaGA-ND-7B	75.85	83.58	95.06	87.64	90.81	96.56	92.36	87.35
	LLaGA-HO-7B	75.99	83.32	94.80	89.30	94.30	96.05	88.64	88.53
General Model	GPT3.5-Turbo	55.00	75.25	88.00	71.75	63.80	60.30	68.70	65.74
	LLaGA-ND-7B	74.29	82.21	92.42	87.82	90.53	96.82	86.31	81.91
	LLaGA-HO-7B	75.01	82.07	94.45	87.82	92.04	86.80	89.81	84.41

表2：与并发工作进行比较。

Model	Arxiv	Pubmed	Pubmed
Model	NC	NC	LP
GraphGPT-Mix-7B	64.76	74.16	58.86
GraphGPT-Std-7B	63.90	–	80.26
LLaGA-ND-7B(General)	74.29	92.42	86.31
LLaGA-HO-7B(General)	75.01	94.45	89.81

表3：展示 LLaGA 框架可解释性的示例。

Title: Real time hand gesture detection and classification using convolutional neural networks.

Abstract: Real-time recognition of dynamic hand gestures from video streams is a challenging task since (i) there is no indication when a gesture starts and ends in the video, (ii) performed gestures should only be recognized once, and (iii) the entire architecture should be designed considering the memory and power budget. In this work, …

Label: cs.CV(Computer Vision and Pattern Recognition)

USER: Please describe the center node: $<$ node embedding sequence $>$ .

LLaGA: This node represents a paper in cs.CV(Computer Vision and Pattern Recognition) domain, it’s about learning to detect and recognize hand gestures using convolutional neural networks.

Title: An efficient graph convolutional network technique for the travelling salesman problem.

Abstract: This paper introduces a new learning-based approach for approximately solving the Travelling Salesman Problem on 2D Euclidean graphs. We use deep Graph Convolutional Networks to build efficient TSP graph representations and output tours in a non-autoregressive manner via highly parallelized beam search. Our approach …

Label: cs.LG(Machine Learning)

USER: Please describe the center node: $<$ node embedding sequence $>$ .

LLaGA: This node represents a paper in cs.LG(Machine Learning) domain, it’s about deep graph convolutional networks for solving the traveling salesman problem.

Title: Inverse boosting pruning trees for depression detection on twitter

Abstract: Depression is one of the most common mental health disorders, and a large number of depression people commit suicide each year… We argue that it is feasible to identify depression at an early stage by mining online social behaviours. Our approach, …

Label: cs.LG(Machine Learning)

USER: Please describe the center node: $<$ node embedding sequence $>$ .

LLaGA: This node represents a paper in cs.SI(Social and Information Networks) domain, it’s about predicting suicide risk using social media data. (Label is different from ground truth, but also reasonable)

我们将 LLaGA 模型与四种不同设置的各种基线进行比较：单一焦点、任务专家、分类专家和通用模型。单焦点设置涉及针对特定任务在单个数据集上训练的模型，从而专注于该任务。任务专家是指在所有数据集上训练的模型，但专注于单个任务，使它们能够作为该领域的专家执行任务。在分类专家设置中，模型在所有数据集上进行训练，以执行节点分类和链接预测任务。通用模型经过针对所有数据集的节点分类、链接预测和节点描述的训练，使模型不仅可以处理分类任务，还可以处理节点描述等语义任务。比较结果如表1所示。值得注意的是，当在任务专家或分类专家设置中实现基于 GNN 或基于 Transformer 的基线时，他们使用多任务学习方法进行训练，该方法将共享主干与针对不同数据集或任务的特定于任务的分类头结合在一起。相比之下，我们的 LLaGA 框架采用单个投影仪来处理所有任务。

与基线比较：我们的分析揭示了三个关键观察结果。观察1：与所有设置中的基线模型相比，LLaGA 框架表现出了卓越的性能，特别是在多任务学习场景中。这凸显了 LLaGA 在处理各种图形任务方面的多功能性和强大能力。观察2：虽然许多基线模型在多任务学习场景中都经历了显着的性能下降，但 LLaGA 的表现却表现出最小的性能下降甚至改进。这反映了 LLaGA 在跨不同数据集和任务提取常见模式方面的熟练程度。这一特征暗示了开发配备简单投影仪的强大多模型大语言模型的潜力。观察3：邻里详细信息模板和 Hop-Field 概览模板都具有明显的优势。邻域详细模板在需要详细邻居信息的任务中表现出色，而跳域概述模板在依赖于具有更大感受野的邻居信息的更广泛概述的任务中更有效。例如，在识别产品类别时，仅根据其许多邻居是“电子产品”而将产品分类为“视频游戏”是不合逻辑的。更详细的分析揭示了众多“Nintendo Switch”邻居，使分类更加准确，如 ogbn-Products 数据集的情况所示。相反，对于某些引文图，论文相邻类别的概述可以提供更多信息，从而使 Hop-Field 概述模板成为更好的选择。

与并发工作的比较：我们与我们的同期工作 GraphGPT (Tang 等人, 2023) 进行了比较分析。 GraphGPT 是一个通用模型，旨在使用大语言模型解决图任务。它采用文本编码模型来提取节点特征，并利用预先训练的图 Transformer 来编码结构信息。在我们的比较中，我们专注于我们最稳健和最通用的模型，结果详见表2，GraphGPT的结果直接引用自其原始论文。 “Mix”和“Std”代表 GraphGPT 训练过程中使用的两类提示。 LLaGA 最通用的模型经过 12 项任务的训练，包括 Arxiv、Products、Pubmed 和 Cora 等数据集上的节点分类、链接预测和节点描述。相比之下，GraphGPT 最通用的模型仅针对三个任务进行训练：Arxiv 和 Pubmed 上的节点分类，以及 Pubmed 上的链接预测。但我们的模型在这三项任务上仍然表现出卓越的性能，凸显了我们的 LLaGA 框架的功效。

3.3口译能力调查（RQ2）

表 4：使用 Sbert 分数和描述标签准确性对节点描述任务进行定量评估。术语基值是指在两个随机选择的样本的真实描述之间计算的平均Sbert相似度。

Dataset	Model	Base value	Sbert score	ACC
Arxiv	LLaGA-ND-7B	0.2231	0.6023	74.64
Arxiv	LLaGA-HO-7B	0.2231	0.6228	75.49
Products	LLaGA-ND-7B	0.1513	0.4952	83.18
Products	LLaGA-HO-7B	0.1513	0.5193	84.60
Pubmed	LLaGA-ND-7B	0.4869	0.6847	92.27
Pubmed	LLaGA-HO-7B	0.4869	0.6934	94.27
Cora	LLaGA-ND-7B	0.3221	0.6465	86.72
Cora	LLaGA-HO-7B	0.3221	0.6545	86.90

如前所述，我们的 LLaGA 框架擅长提供节点嵌入的全面解释。我们最初使用几个定量指标评估 LLaGA 在节点描述任务中的性能，结果如表 4 所示。 Sbert 分数表示使用 Sbert 测量的真实值与 LLaGA 生成的文本之间的语义相似性。我们还提供了一个基值供您参考，代表两个随机选择的样本的平均相似度。值得注意的是，LLaGA 的 Sbert 分数显着超过了该基值，证明了其在为节点嵌入生成有意义且相关的描述方面的有效性。此外，从这些描述中提取标签的高精度证实了生成内容的准确性。

为了进一步说明这一点，表3展示了示例描述。这些示例表明 LLaGA 生成的文本具有高质量。即使在 LLaGA 的标签预测与真实情况存在偏差的某些情况下，其结果也被发现是合理的，并且 LLaGA 有效地利用其生成的文本来证实这些合理的解释。

3.4零射击能力调查（RQ3）

表 5：链接预测的零样本

Train $\rightarrow$ Test	Model	Accuracy
Arxiv+Pubmed $\downarrow$ Cora	GCN	58.97
	GraphSage	67.68
	GraphGPT-7B	50.74
	LLaGA-ND-7B	86.47
	LLaGA-HO-7B	87.35
Arxiv+Pubmed+Cora $\downarrow$ Products	GCN	56.73
	GraphSage	58.92
	GraphGPT-7B	50.74
	LLaGA-ND-7B	92.65
	LLaGA-HO-7B	92.99

在本节中，我们将说明 LLaGA 的泛化能力，重点关注零样本设置中的链接预测任务。节点分类任务中的泛化能力分析请参见附录B。

零样本学习需要在某些数据集上训练模型，然后在未见过的数据集或任务上对其进行评估。这种方法有助于评估模型转移知识的熟练程度。在我们的研究中，我们检查了 LLaGA 在域内和域外传输场景中的零样本性能。对于域内传输，模型在 Arxiv 和 Pubmed 数据集上进行训练，并在 Cora 数据集上进行评估。所有三个数据集都包含引文图。相反，对于域外传输，训练在 Arxiv、Pubmed 和 Cora 数据集上进行，并在 Products 数据集上进行评估。在这里，虽然训练数据集是引文图，但测试集由电子商务图组成。结果如表 5 所示，表明我们的模型在这两种情况下都表现出了强大的零样本功能。这表明 LLaGA 可以有效地识别和利用跨数据集的相似模式，不仅能够熟练地将知识转移到类似数据，而且还能够转移到领域明显不同的数据集。

3.5模板消融研究 (RQ4)

表 6：模板消融研究。

Task	Template	Arxiv	Products	Pubmed	Cora
NC	None	73.92	80.45	94.60	84.50
	ND	75.85	83.58	95.06	87.64
	HO	75.99	83.32	94.80	89.30
LP	None	89.98	91.73	78.19	83.97
	ND	90.81	96.56	92.36	87.35
	HO	94.30	96.05	88.64	88.53

我们进行了一项消融研究，以调查我们的编码模板的个体贡献。为此，我们在分类专家设置中训练一个新模型，但不使用模板。该模型仅依靠中心节点的嵌入进行预测，而不是封装中心节点周围结构信息的节点嵌入序列。结果如表6所示。很明显，与没有模板的模型相比，邻域详细模板和 Hop-Field 概览模板都显着提高了性能。这在链接预测任务中尤其明显，该任务严重依赖结构信息。所有这些发现都强调了我们的模板在编码节点结构信息方面的有效性。

4相关工作

4.1 图神经网络

GNN 长期以来一直处于图机器学习的前沿。它们旨在将输入节点转换为紧凑的向量表示，适合与分类头配对时的后续分类任务。许多 GNN 之间的共同策略(Kipf & Welling, 2016; Veličković 等人, 2018; Xu 等人, 2018; Gau 等人, 2018;Chiang 等人, 2019; You 等人, 2020; Chen 等人, 2018; Thekumparampil 等人, 2018)，涉及分层消息传递机制。这种方法使节点能够逐步聚合和处理来自其直接邻居的信息，从而将节点嵌入到较低维的空间中。与此同时，越来越多的研究（Yun 等人，2019；Ying 等人，2021；Wu 等人，2022；Chen 等人，2022）一直在探索基于 Transformer 的编码器的集成用于图数据分析，为增强 GNN 功能开辟新途径。然而，传统图模型的一个显着限制是其任务泛化能力较差。 GNN 通常针对单一分类任务进行训练。当应用于各种数据集或下游任务时，这些模型通常无法使用单个模型在所有任务中一致地表现良好（Ju等人，2023）。

4.2 GNN 的自监督学习

最近的进展在 GNN 上采用了自监督学习策略来增强其泛化性能。这些方法包括为图结构开发专门的借口任务，例如互信息最大化（Veličković等人，2019；Hassani＆Khasahmadi，2020），白化去相关（Zhang等人，2021）和生成重建（侯等人，2022）。此外，还对多任务学习与自监督学习范式的整合进行了研究，为增强模型泛化能力提供了新的见解（Ju等人，2023）。然而，在从图编码器获得通用嵌入之后，这些方法仍然需要特定于任务的分类头并针对每个下游任务进行调整。

4.3 图的大型语言模型

最近的研究探索了将大语言模型（大语言模型）与 GNN 集成，利用大语言模型丰富的图数据增强知识。研究重点是用大语言模型增强GNN以丰富图文本属性（Ye等人，2023；Chen等人，2023b；Tang等人，2023；Guo等人，2023；He等人，2023；Huang等人，2023），尽管这些方法在很大程度上依赖于 GNN 进行预测，可能限制了它们的范围。另外，以语言方式表示用于直接大语言模型处理的图的努力在有效地将结构翻译成自然语言方面遇到了困难，常常产生次优结果（黄等人，2023；郭等人，2023）。虽然对图进行微调大语言模型可以提高特定任务的性能，但它也可能限制大语言模型的多功能性。 GraphGPT (Tang 等人, 2023) 试图通过使用预训练的图 Transformer 为大语言模型编码图结构来解决这些挑战，尽管事实证明找到一个普遍适用的图模型很困难。我们的贡献在于引入了一种新颖的编码方法，该方法将图数据转换为与大语言模型直接兼容的序列，从而避免了对中间模型的需要。该方法在一系列任务中表现出卓越的多功能性和通用性，即使在零样本场景中，也优于传统的图模型。

5结论

本文介绍了 LLaGA，这是一种创新框架，可有效地将大型语言模型（大语言模型）集成到图域中，同时保持其在其他任务中的熟练程度。 LLaGA 没有使用复杂的语言来描述结构信息，而是使用模板将图结构转换为序列，然后使用调谐投影仪将节点嵌入映射到词符嵌入空间。该投影仪在文本和图形之间建立了全面的对齐，使大语言模型能够用于基本图形任务，例如跨各种数据集的节点分类和链接预测。并且它可以进一步推广到未见过的数据集或任务，而无需任何适应。此外，它还有助于生成节点嵌入的文本解释。通过在不同环境下的广泛评估，我们的方法在监督和零样本图学习场景中证明了其有效性。

6 影响陈述

我们的研究引入了LLaGA，这是一种新颖的框架，它将大语言模型的功能与图结构无缝地融合在一起，增强了大语言模型执行基本图任务的多功能性。 LLaGA 的更广泛影响延伸到图数据至关重要的众多领域，包括但不限于生物信息学、社交网络分析和知识图谱。当我们突破机器学习和人工智能的界限时，我们认识到监控意外后果的重要性，例如偏见的延续或预测见解的滥用。为此，我们鼓励持续进行伦理评估和制定指南，以确保 LLaGA 的应用为社会做出建设性贡献。这项工作旨在成为迈向更复杂、公平和透明的人工智能系统的垫脚石，这些系统尊重跨领域数据的复杂结构。

参考

Achiam et al. (2023) Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
Chen et al. (2018) Chen, J., Ma, T., and Xiao, C. Fastgcn: fast learning with graph convolutional networks via importance sampling. arXiv preprint arXiv:1801.10247, 2018.
Chen et al. (2022) Chen, J., Gao, K., Li, G., and He, K. Nagphormer: A tokenized graph transformer for node classification in large graphs. In The Eleventh International Conference on Learning Representations, 2022.
Chen et al. (2023a) Chen, Z., Mao, H., Li, H., Jin, W., Wen, H., Wei, X., Wang, S., Yin, D., Fan, W., Liu, H., et al. Exploring the potential of large language models (llms) in learning on graphs. arXiv preprint arXiv:2307.03393, 2023a.
Chen et al. (2023b) Chen, Z., Mao, H., Wen, H., Han, H., Jin, W., Zhang, H., Liu, H., and Tang, J. Label-free node classification on graphs with large language models (llms). arXiv preprint arXiv:2310.04668, 2023b.
Chiang et al. (2019) Chiang, W.-L., Liu, X., Si, S., Li, Y., Bengio, S., and Hsieh, C.-J. Cluster-gcn: An efficient algorithm for training deep and large graph convolutional networks. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 257–266, 2019.
Chiang et al. (2023) Chiang, W.-L., Li, Z., Lin, Z., Sheng, Y., Wu, Z., Zhang, H., Zheng, L., Zhuang, S., Zhuang, Y., Gonzalez, J. E., Stoica, I., and Xing, E. P. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, March 2023. URL https://lmsys.org/blog/2023-03-30-vicuna/.
Defferrard et al. (2016) Defferrard, M., Bresson, X., and Vandergheynst, P. Convolutional neural networks on graphs with fast localized spectral filtering. Advances in neural information processing systems, 29, 2016.
Duan et al. (2023) Duan, K., Liu, Q., Chua, T.-S., Yan, S., Ooi, W. T., Xie, Q., and He, J. Simteg: A frustratingly simple approach improves textual graph learning. arXiv preprint arXiv:2308.02565, 2023.
Dwivedi & Bresson (2020) Dwivedi, V. P. and Bresson, X. A generalization of transformer networks to graphs. arXiv preprint arXiv:2012.09699, 2020.
Fatemi et al. (2023) Fatemi, B., Halcrow, J., and Perozzi, B. Talk like a graph: Encoding graphs for large language models. arXiv preprint arXiv:2310.04560, 2023.
Gao et al. (2018) Gao, H., Wang, Z., and Ji, S. Large-scale learnable graph convolutional networks. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018.
Guo et al. (2023) Guo, J., Du, L., and Liu, H. Gpt4graph: Can large language models understand graph structured data? an empirical evaluation and benchmarking. arXiv preprint arXiv:2305.15066, 2023.
Hamilton et al. (2017) Hamilton, W., Ying, Z., and Leskovec, J. Inductive representation learning on large graphs. Advances in neural information processing systems, 30, 2017.
Hassani & Khasahmadi (2020) Hassani, K. and Khasahmadi, A. H. Contrastive multi-view representation learning on graphs. In International conference on machine learning, pp. 4116–4126. PMLR, 2020.
He et al. (2023) He, X., Bresson, X., Laurent, T., Perold, A., LeCun, Y., and Hooi, B. Harnessing explanations: Llm-to-lm interpreter for enhanced text-attributed graph representation learning. arXiv preprint arXiv:2305.19523, 2023.
Hou et al. (2022) Hou, Z., Liu, X., Cen, Y., Dong, Y., Yang, H., Wang, C., and Tang, J. Graphmae: Self-supervised masked graph autoencoders. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pp. 594–604, 2022.
Hu et al. (2020) Hu, W., Fey, M., Zitnik, M., Dong, Y., Ren, H., Liu, B., Catasta, M., and Leskovec, J. Open graph benchmark: Datasets for machine learning on graphs. Advances in neural information processing systems, 33:22118–22133, 2020.
Huang et al. (2023) Huang, J., Zhang, X., Mei, Q., and Ma, J. Can llms effectively leverage graph structural information: when and why. arXiv preprint arXiv:2309.16595, 2023.
Jin et al. (2021) Jin, W., Liu, X., Zhao, X., Ma, Y., Shah, N., and Tang, J. Automated self-supervised learning for graphs. arXiv preprint arXiv:2106.05470, 2021.
Ju et al. (2023) Ju, M., Zhao, T., Wen, Q., Yu, W., Shah, N., Ye, Y., and Zhang, C. Multi-task self-supervised graph neural networks enable stronger task generalization. In The Eleventh International Conference on Learning Representations, 2023. URL https://openreview.net/forum?id=1tHAZRqftM.
Kipf & Welling (2017) Kipf, T. and Welling, M. Semi-supervised classification with graph convolutional networks. ArXiv, abs/1609.02907, 2017.
Kipf & Welling (2016) Kipf, T. N. and Welling, M. Semi-supervised classification with graph convolutional networks. In International Conference on Learning Representations, 2016.
Langley (2000) Langley, P. Crafting papers on machine learning. In Langley, P. (ed.), Proceedings of the 17th International Conference on Machine Learning (ICML 2000), pp. 1207–1216, Stanford, CA, 2000. Morgan Kaufmann.
Liu et al. (2023) Liu, H., Li, C., Wu, Q., and Lee, Y. J. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023.
Liu et al. (2019) Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
Perez et al. (2022) Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., et al. Discovering language model behaviors with model-written evaluations, 2022. URL https://arxiv.org/abs/2212.09251.
Reimers & Gurevych (2019) Reimers, N. and Gurevych, I. Sentence-bert: Sentence embeddings using siamese bert-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 3982–3992, 2019.
Sun et al. (2021) Sun, C., Gu, H., and Hu, J. Scalable and adaptive graph neural networks with self-label-enhanced training. arXiv preprint arXiv:2104.09376, 2021.
Tang et al. (2023) Tang, J., Yang, Y., Wei, W., Shi, L., Su, L., Cheng, S., Yin, D., and Huang, C. Graphgpt: Graph instruction tuning for large language models. arXiv preprint arXiv:2310.13023, 2023.
Thekumparampil et al. (2018) Thekumparampil, K. K., Wang, C., Oh, S., and Li, L.-J. Attention-based graph neural network for semi-supervised learning. arXiv preprint arXiv:1803.03735, 2018.
Touvron et al. (2023) Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
Veličković et al. (2017) Veličković, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., and Bengio, Y. Graph attention networks. arXiv preprint arXiv:1710.10903, 2017.
Veličković et al. (2019) Veličković, P., Fedus, W., Hamilton, W. L., Liò, P., Bengio, Y., and Hjelm, R. D. Deep graph infomax. 2019.
Veličković et al. (2018) Veličković, P., Cucurull, G., Casanova, A., Romero, A., Liò, P., and Bengio, Y. Graph attention networks. In International Conference on Learning Representations, 2018. URL https://openreview.net/forum?id=rJXMpikCZ.
Wang et al. (2023) Wang, W., Chen, Z., Chen, X., Wu, J., Zhu, X., Zeng, G., Luo, P., Lu, T., Zhou, J., Qiao, Y., et al. Visionllm: Large language model is also an open-ended decoder for vision-centric tasks. arXiv preprint arXiv:2305.11175, 2023.
Wu et al. (2019) Wu, F., Souza, A., Zhang, T., Fifty, C., Yu, T., and Weinberger, K. Simplifying graph convolutional networks. In International conference on machine learning, pp. 6861–6871. PMLR, 2019.
Wu et al. (2022) Wu, Q., Zhao, W., Li, Z., Wipf, D. P., and Yan, J. Nodeformer: A scalable graph structure learning transformer for node classification. Advances in Neural Information Processing Systems, 35:27387–27401, 2022.
Xu et al. (2018) Xu, K., Hu, W., Leskovec, J., and Jegelka, S. How powerful are graph neural networks? In International Conference on Learning Representations, 2018.
Yang et al. (2016) Yang, Z., Cohen, W., and Salakhudinov, R. Revisiting semi-supervised learning with graph embeddings. In International conference on machine learning, pp. 40–48. PMLR, 2016.
Ye et al. (2023) Ye, R., Zhang, C., Wang, R., Xu, S., and Zhang, Y. Natural language is all a graph needs. arXiv preprint arXiv:2308.07134, 2023.
Ying et al. (2021) Ying, C., Cai, T., Luo, S., Zheng, S., Ke, G., He, D., Shen, Y., and Liu, T.-Y. Do transformers really perform badly for graph representation? Advances in Neural Information Processing Systems, 34:28877–28888, 2021.
You et al. (2020) You, Y., Chen, T., Wang, Z., and Shen, Y. L2-gcn: Layer-wise and learned efficient training of graph convolutional networks. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2124–2132, 2020.
Yun et al. (2019) Yun, S., Jeong, M., Kim, R., Kang, J., and Kim, H. J. Graph transformer networks. Advances in neural information processing systems, 32, 2019.
Zhang et al. (2021) Zhang, H., Wu, Q., Yan, J., Wipf, D., and Yu, P. S. From canonical correlation analysis to self-supervised graph neural networks. Advances in Neural Information Processing Systems, 34:76–89, 2021.

附录A数据集统计

表 7：数据集统计

Dataset	Domain	#Node	#Edge	Sparsity(‱)
Cora	citation	2708	5429	14.8065
Pubmed	citation	19717	44338	2.2810
Arxiv	citation	169343	1166243	0.8134
Products	e-commerce	2449029	61859140	0.2063

在引文图中（ogbn-Arxiv、Pubmed、Cora），每个节点代表一篇论文，其中标题和摘要作为节点特征，边表示共引。对于 ogbn-Products，节点代表亚马逊产品，以商品描述作为节点特征，边缘表示共同购买。

数据分割。对于节点级任务，我们遵循每个数据集的标准训练/验证/测试分割 (Hu 等人, 2020)：Arxiv 为 6:2:3，Products 为 8:2:90 ，以及 Pubmed 和 Cora 的 6:2:2。对于链路预测，我们从节点级训练集和节点级测试集中随机选择节点对进行测试，确保边缘级训练集的大小与节点级训练集的大小相同。

附录B节点分类的零样本能力

表8：节点分类的零样本

Train $\rightarrow$ Test	Prompt Type	Model	Accuracy(%)
Arxiv+Pubmed $\rightarrow$ Cora (Test task: 7 categories)	Only Node Embedding	GraphGPT-7B	8.30
	Only Node Embedding	LLaGA-7B	34.69
	Node Embedding+Text Attributes	GraphGPT-7B	44.65
	Node Embedding+Text Attributes	LLaGA-7B	59.59
Arxiv+Pubmed+Cora $\rightarrow$ Products (Test task: 47 categories)	Only Node Embedding	GraphGPT-7B	1.40
	Only Node Embedding	LLaGA-7B	13.89
	Node Embedding+Text Attributes	GraphGPT-7B	18.84
	Node Embedding+Text Attributes	LLaGA-7B	43.79

为了探索 LLaGA 的泛化能力，我们还采用零样本学习来完成节点分类任务。与链接预测任务不同，由于任务之间不同的标签集和不同的知识要求，将零样本学习应用于节点分类提出了更大的挑战。然而，在所有节点分类任务中可能可转移的一个普遍方面是图和语义词符空间之间的对齐。为此，我们在某些数据集的节点描述任务上训练模型，以建立图结构和词符空间之间的广义对齐，随后使用不同数据集在节点分类任务上测试这种对齐。此外，我们还评估了 LLaGA 在域内和域外传输场景中的零样本性能。在域内场景中，训练是在引文图（Arxiv + Pubmed）上进行的，测试也在引文图（Cora）上进行。然而，域外场景涉及引文图（Arxiv + Pubmed + Cora）上的训练，以及电子商务图（产品）上的测试。由于传统的GNN依赖于特定任务的分类头，而新的分类任务的标签集可能会有所不同，因此它们无法对节点分类任务进行零样本学习。我们的比较仅限于基于 llm 的基线，特别是 GraphGPT。

我们的评估包含两种提示。在第一个提示中，模型仅提供节点嵌入序列，包含中心节点的属性和结构信息。第二个提示还通过合并中心节点的文本属性来辅助模型来增强这一点。如表 8 所示，我们的研究结果表明，LLaGA 在所有设置中始终优于 GraphGPT。这种优势归功于LLaGA在图空间和词符空间之间的全面对齐。此外，包含中心节点的文本属性似乎在零样本场景中提供了一些优势。然而，仅基于节点序列嵌入的提示显示出应用于节点属性难以用文本描述的图（例如非文本图）的潜力。

附录 C文本编码方法的灵活性

表 9： LLaGA 经过 SBert 和 Roberta Embedding 训练。

Embedding	Model	Node Classification Accuracy				Link Prediction Accuracy
Embedding	Model	Arxiv	Products	Pubmed	Cora	Arxiv	Products	Pubmed	Cora
Sbert	GCN	66.00	77.41	82.04	79.70	91.38	94.91	84.31	83.15
	GraphSage	66.79	76.00	82.74	80.66	88.18	94.23	78.38	83.62
	LLaGA	74.46	80.70	90.04	88.56	93.68	96.84	91.39	87.79
Roberta	GCN	66.51	77.74	80.04	79.30	91.01	94.66	80.94	81.03
	GraphSage	68.14	76.73	81.27	82.29	88.80	94.11	74.31	82.88
	LLaGA	74.19	81.13	89.78	88.19	93.52	96.79	89.96	85.15

LLaGA 展示了其节点属性文本编码方法的灵活性。在我们最初的实验中，我们采用 SimTeG (Duan 等人, 2023) 作为主要编码模型。本节还探讨了 SBERT (Reimers & Gurevych, 2019) 和 RoBERTa (Liu 等人, 2019) 作为替代编码方法的使用。这些试验的结果如表9所示。所有模型（包括基线）都在分类专家环境中进行了训练。对于 LLaGA，我们利用 Hop-Field Overview Template 进行结构编码。值得注意的是，无论选择何种编码模型，LLaGA 在性能上始终超过其他领先的 GNN。

附录D与各种大语言模型的集成

表 10：与各种大语言模型集成

Base Model	Node Classification Accuracy				Link Prediction Accuracy
Base Model	Arxiv	Products	Pubmed	Cora	Arxiv	Products	Pubmed	Cora
Vicuna-7B	75.99	83.32	94.80	89.30	94.30	96.05	88.64	88.53
LLAMA2-7B	76.26	84.21	94.83	86.53	94.15	96.03	89.39	85.44
OPT-2.7B	75.66	83.01	95.01	88.38	93.36	92.83	86.92	89.41

LLaGA 还展示了各种基础大型语言模型（大语言模型）的灵活性。在我们的主要实验中，Vicuna-7B 作为基础模型。本节详细介绍了 LLaGA 基础大语言模型与替代模型的替换，包括 LLaMA2-7B 和 OPT-2.7B。这些替换的结果如表10所示。对于结构编码，我们采用 Hop-Field 概述模板。模型在分类设置中进行训练。很明显，无论基础大语言模型如何，LLaGA 始终能产生良好的结果，即使对于 OPT-2.7B 等相对较轻的模型也显示出其有效性。

附录 E实验方差

表 11： Cora 和 Pubmed 数据集的方差信息

Setting	Dataset	Model	NC(%)	LP(%)
Single Focus	Cora	LLaGA-ND-7B	88.86 $\pm$ 0.78	83.79 $\pm$ 1.26
	Cora	LLaGA-HO-7B	89.22 $\pm$ 0.46	86.82 $\pm$ 0.88
	Pubmed	LLaGA-ND-7B	95.03 $\pm$ 0.12	91.41 $\pm$ 0.21
	Pubmed	LLaGA-HO-7B	95.03 $\pm$ 0.07	89.18 $\pm$ 0.34

我们在相对较小的数据集上进行了五次训练和推理，方差信息详见表11。