批判性地审视

异亲环境下的 GNN 评估：

我们真的取得进展了吗？

Oleg Platonov
HSE University, Yandex Research
olegplatonov@yandex-team.ru &Denis Kuznedelev
Skoltech, Yandex Research
dkuznedelev@yandex-team.ru &Michael Diskin
HSE University, Deepcake.io
michael.s.diskin@gmail.com &Artem Babenko
Yandex Research
artem.babenko@phystech.edu &Liudmila Prokhorenkova
Yandex Research
ostroumova-la@yandex-team.ru

摘要

节点分类是一种经典的图机器学习任务，图神经网络（GNN）最近在该任务上取得了很好的成果。然而，人们通常认为标准 GNN 只适用于同质图，即边倾向于连接同一类节点的图。没有此属性的图被称为异质，并且通常假设需要专门的方法才能在此类图上实现强大的性能。在这项工作中，我们挑战了这一假设。首先，我们表明用于评估异性特异性模型的标准数据集具有严重的缺陷，使得使用它们获得的结果不可靠。这些缺点中最显着的是数据集 squirrel 和 chameleon 中存在大量重复节点，这会导致训练测试数据泄漏。我们表明，删除重复节点会强烈影响 GNN 在这些数据集上的性能。然后，我们提出了一组具有不同属性的异质图，我们相信它们可以作为评估异质下 GNN 性能的更好基准。我们证明标准 GNN 在这些异质图上取得了很好的结果，几乎总是优于专门的模型。我们的数据集和重现实验的代码可在 https://github.com/yandex-research/heterophilous-graphs 获取。

1简介

图结构数据的机器学习领域最近引起了广泛关注，图神经网络（GNN）在大多数图任务上取得了特别出色的结果。因此，使用 GNN 已经成为图机器学习事实上的标准方法，文献中已经提出了许多版本的 GNN（Kipf & Welling, 2017; Hamilton 等人, 2017; Veličković 等人, 2018; Xu 等人，2019），其中大多数属于通用消息传递神经网络（MPNN）框架（Gilmer 等人，2017）。 MPNN 通过迭代邻域聚合过程来学习节点表示，其中每一层通过组合节点本身及其邻居的前一层表示来更新每个节点的表示。节点特征向量用作初始节点表示。因此，MPNN 将节点特征与图拓扑相结合，使它们能够学习节点之间复杂的依赖关系。

在许多现实世界的网络中，边往往连接相似的节点。此属性称为同质性。同质网络的典型例子是社交网络，其中用户倾向于与具有相似兴趣的用户联系，以及引用网络，其中论文大多引用同一研究领域的作品。同质性的反面称为异质性：此属性描述了网络节点连接到与其不相似的节点的偏好。例如，在金融交易网络中，欺诈者经常与非欺诈用户进行交易，而在约会网络中，大多数联系发生在异性之间。

GNN 的早期工作主要在同亲图上评估其模型。这导致有人声称 GNN 隐式使用图的同质性，因此不适合异质数据集（Zhu 等人，2021；2020；He 等人，2022；Wang 等人，2022）。最近，许多工作提出了专门为异质图设计的新 GNN 模型，据称其性能优于标准 GNN。然而，这些模型通常是在 Pei 等人 (2020) 首次在异性学习背景下使用的相同的六个异性图上进行评估。在这项工作中，我们挑战了这种评估设置。我们强调了标准异亲数据集的几个缺点，如多样性低、规模小、某些数据集的类极度不平衡，最重要的是，松鼠和变色龙数据集中存在大量重复节点。我们表明，模型依赖于重复节点引入的训练测试数据泄漏来获得强大的结果，并且删除这些节点会显着影响模型的性能。

由于当前使用的异性基准的缺点，我们收集了一组不同的异性图，并建议将它们用作更好的基准。所提出的数据集来自不同的领域并表现出各种结构特性。我们根据所提出的基准评估了各种 GNN，包括标准的和异质性特定的，据我们所知，这构成了对异质性特定模型最广泛的实证研究。在此过程中，我们发现标准基线几乎总是优于异性特异性模型。因此，异性学习的进展可能仅限于用于评估的标准数据集。然而，我们的结果还表明，有一个对于异亲图学习有用的技巧——分离自我嵌入和邻居嵌入，这是在 Zhu 等人 (2020) 中提出的。这一技巧持续改进基线（例如 GAT 和 Graph Transformer）并允许实现最佳结果。我们希望所提出的基准将有助于异质性学习的进一步进展。

2相关工作

测量同质性

尽管人们在开发异质图的图表示学习方法方面付出了很大的努力，但还没有普遍认可的同质性衡量标准。文献中通常使用的同质性度量是边缘同质性 (Abu-El-Haija 等人, 2019; Zhu 等人, 2020)，它只是边缘的分数连接相同类别的节点，以及节点同质性 (Pei 等人, 2020)，计算每个节点具有相同类别的邻居的比例，然后对这些节点进行平均所有节点的值。这两项措施简单直观；然而，如Lim 等人 (2021) 所示； Platonov 等人 (2022)，它们对类的数量及其平衡很敏感，这使得这些度量难以解释并且在不同数据集之间无法比较。为了解决这些问题，Lim 等人 (2021) 提出了另一种同质性措施。然而，Platonov 等人 (2022) 表明它也可以提供不可靠的结果。为了解决现有措施的问题，Platonov 等人 (2022) 提出使用调整同质性，根据期望值校正类内边的数量。因此，调整后的同质性对类的数量及其平衡变得不敏感。 Platonov 等人 (2022) 表明，调整后的同质性满足许多理想的属性，这使得它适合比较不同数据集之间的同质性水平。因此，在我们的工作中，我们将使用调整后的同质性来测量图的同质性。

图形数据集

GNN 的早期工作主要在高度同质图上评估其模型。其中最受欢迎的是三个引用网络：cora、citeseer 和 pubmed (Giles 等人, 1998; McCallum 等人，2000；Namata 等人，2012；Sen 等人，2008；Yang 等人，2016)。文献中出现的用于节点分类的其他图形数据集的示例包括引用网络 coauthor-cs、coauthor-physicals 和共同购买网络 amazon-computers t2>、Shchur 等人 (2018) 的 amazon-photo、Hamilton 等人 (2017) 的讨论网络 reddit t6>. 这些数据集也具有很高的同质性。最近，创建了 Open Graph Benchmark (Hu 等人, 2020)，为评估 GNN 性能提供具有挑战性的大规模图。所提出的数据集如ogbn-arxiv、ogbn-products、ogbn-papers100M也具有高度同质性（Zhu等人，2020 ; Platonov 等人, 2022).

至于异性图，大多数致力于异性学习的研究中使用的数据集仅限于Pei等人（2020）采用的六个图：squirrel,变色龙、演员、德克萨斯州、康奈尔大学和威斯康星州。这些图已成为评估异性特异性模型事实上的标准基准，并在许多论文中使用（Zhu 等人，2021；2020；Chien 等人，2021；Yan 等人，2022；Maurya 等人， 2022；李等人，2022；何等人，2022；王等人，2022；王等人，2022；杜等人，2022；苏雷什等人，2021；博等人，2021；马等人，2022； Luan 等人, 2022; Bodnar 等人, 2022)。我们在第 3 节中进一步讨论这些数据集。最近，Lim 等人 (2021) 提出了一组大规模异质图数据集。然而，由于其规模，这些数据集主要适合评估可扩展的图方法而不是 GNN，因此尚未在 GNN 社区中得到广泛采用。

异质学习的特殊方法

最近提出了许多设计用于在异质性下或在同质性和异质性环境下获得良好结果的方法。在本段中，我们简要描述其中的一些。裴等人(2020)是第一个引起人们对异质学习的关注的人。他们的方法（Geom-GCN）预先计算无监督节点嵌入并定义这些嵌入的潜在空间中的卷积。 Zhu 等人 (2020) 是异质性方面的另一项开创性工作，它确定了现有 GNN 中的三种设计，使模型能够泛化到异质性设置：自我和邻居嵌入分离、跨高阶聚合邻域，并组合来自不同层的中间表示以获得最终的节点表示。 Zhu等人(2021)进一步提出了一种新的架构CPGNN，该架构在GNN聚合步骤中结合了可学习的类兼容性矩阵，可以对不同级别的同质性进行建模。 Chien 等人 (2021) 开发了一种受通用 PageRank 启发的架构 (GPR-GNN)，其具有可学习的权重，旨在适应各种节点标签模式。 Yan 等人 (2022) 将异性下的学习与过度平滑问题联系起来，并提出了对 GCN 架构的两项修改：度数校正和签名消息。 Maurya 等人 (2022) 提出了 FSGNN，它将特征聚合与 GNN 层解耦并使用软特征选择。 Li 等人 (2022) 开发了 GloGNN 和 GloGNN++ 模型，用于聚合图中全局节点的信息。 He等人(2022)提出了块建模引导的GNN架构，可以学习不同节点的不同聚合规则。 Wang & Zhu (2022) 介绍了 JacobiConv——一种谱 GNN，应该在同性图和异性图上都能取得很好的结果。 Wang等人(2022)设计了一种新的传播机制，可以自适应地改变不同节点的传播和聚合。 Du 等人 (2022) 提出了 GBK-GNN，它使用双核特征变换和选择门来捕获同质和异质设置中的有用信息。 Suresh 等人 (2021) 建议将输入图转换为基于邻近度和结构信息的计算图。 Bo 等人 (2021) 提出了一种自门机制，使他们的模型能够自适应地集成低频和高频信号。 Luan 等人 (2022) 引入了自适应通道混合（ACM）框架来解决那些对 GNN 性能有害的异质性情况。 Bodnar 等人 (2022) 提出了神经束扩散模型，该模型可以从数据中学习细胞束，从而在异性图上取得良好的结果。

标准 GNN 在异质性下的性能

虽然人们普遍认为标准 GNN 在异质性下表现不佳（Zhu 等人，2021；2020；He 等人，2022；Wang 等人，2022），但最近出现了一些工作表明标准 GNN 可以在一些异质图上取得很好的结果（Ma 等人，2022；Luan 等人，2022）。然而，这些结果主要是在合成或半合成数据集上获得的。 Platonov 等人 (2022) 通过所考虑的图的高标签信息性来解释这些观察结果：即使这些邻居具有不同的标签，邻居标签之间的互信息也可能很高。我们表明，标准 GNN 通常也能取得出色的结果，并且在标签信息量较低的现实世界图上表现优于专用方法。

3 流行的异嗜数据集的问题

在本节中，我们重新审视常用于异性节点分类的数据集。正如第2节中所讨论的，以下六个数据集是最受欢迎的：维基百科网络松鼠和变色龙，维基百科页面网络中的演员共现(actor) 和 WebKB 数据集 texas、wisconsin 和 cornell。这些数据集的标准预处理由 Pei 等人 (2020) 完成。首先，我们注意到这些数据集仅来自三个来源；因此，它们没有提供对真实数据中可以找到的不同异性模式的足够覆盖，并且需要更多样化的数据集来对异性下的模型进行公平评估。然而，这并不是该基准测试的唯一问题。在本节中，我们将展示其中一些数据集具有某些可能严重影响评估结果的缺点。

3.1 松鼠和变色龙

这些数据集最初由 Rozemberczki 等人 (2021) 收集：节点表示来自英文维基百科（2018 年 12 月）的文章，边反映它们之间的相互链接。节点特征指示文章中特定名词的存在。目标变量是网页的平均月流量，任务是节点回归。 Pei 等人 (2020) 将任务转换为节点分类，根据原始回归目标将节点分为五类，这种预处理成为文献中的标准。

在分析这些数据集时，我们注意到许多节点组具有完全相同的回归目标和完全相同的邻域。例如，在 squirrel 中，有一组 48 个节点，它们都具有相同的回归目标 370193 和相同的 15 个邻居，而在 chameleon 中，有一组 92 个节点具有相同的回归目标 14480 和相同的 18 个邻居。为了简洁起见，我们进一步将此类节点称为“重复节点”。我们注意到，虽然预计自然图中的某些节点具有相同的邻域，但许多节点不太可能共享相同的平均每月流量（在这些数据集中是 0-850K 范围内的整数）。然而，这些数据集中的一些节点不仅同时共享相同的回归目标和邻域，而且这种重复的数量非常大。由于来自同一组的重复项出现在数据集的训练、验证和测试部分中，因此它们会造成训练测试数据泄漏：对于测试集中的重复项，可以通过简单地将节点的邻域与节点的邻域进行匹配来预测它们的标签。训练节点。这种泄漏不仅存在于原始节点回归任务中，而且也存在于节点分类任务中，因为分类任务的标签基于回归目标。我们进一步表明，消除这种数据泄漏会严重影响 GNN 的性能。

经过对这些数据集的进一步调查，我们发现以下内容：1）重复节点可能具有不同的特征，2）重复节点的所有边缘都是传出的，3）对于（几乎）每个这样的重复节点组，都有一个唯一的节点数据集中具有相同的平均月流量和相同的传出边缘，但具有一些额外的传入边缘。我们假设这可能是数据集中应该出现的网页的实际版本，而具有相同月平均流量和相同传出边缘的所有其他节点都应该被删除。

表格1：维基百科数据集中的重复项

GraphSAGE accuracy
	squirrel	chameleon
number of nodes	5201	2277
number of duplicates	2978	1387
number of non-duplicates	2223	890
on duplicates	$51.69\pm 01.68$	$74.89\pm 02.05$
on non-duplicates	$34.67\pm 02.30$	$46.17\pm 03.21$

表1显示了squirrel和chameleon中的节点数量，以及重复和非重复的数量。重复项占每个数据集的一半以上。在同一张表中，我们分别报告了 GraphSAGE (Hamilton 等人, 2017) 对重复项和非重复项的准确性。我们可以看到这两种类型的节点上的性能存在显着差异，证实该模型隐式依赖数据泄漏来进行预测。我们还注意到，所有类中都存在重复项，并在附录 B 中的表 5 中提供了类之间重复项的分布。

我们通过删除所有重复项来进一步过滤这些数据集，即没有传入边的节点，并且图中存在具有相同平均每月流量和相同组传出边的节点。我们在原始数据集和过滤后的数据集上评估了多个模型；结果见表2（我们参考第5.1节和附录A了解模型和评估设置的描述）。首先，我们发现许多模型的性能显着下降，特别是在 chameleon 数据集上。这种性能下降证实了模型隐式依赖于泄露的数据来在未过滤的数据集上获得强大的结果。此外，我们发现模型之间的确切性能下降明显不同，因此过滤后的数据集上的模型排名与原始数据集上的排名有很大不同。这表明不同的模型利用数据泄漏的能力不同。为了更好地说明排名的差异，我们在表 2 中报告了原始数据集和过滤数据集上的模型排名。有些型号的性能变化特别大。例如，FSGNN 是两个原始数据集上的最佳模型，但是，在过滤后的 squirrel 和 chameleon 上，它分别仅获得第 10 名和第 4 名。如此重大的变化引起了人们对先前工作中依赖于分析不同模型在这些数据集上的性能所得出的结论的有效性的担忧。

表2：原始和过滤后的松鼠和变色龙模型的准确性。 “排名”列报告原始数据集和过滤数据集上的模型排名列表中的位置。

	squirrel			chameleon
	accuracy on original dataset	accuracy on filtered dataset	ranks	accuracy on original dataset	accuracy on filtered dataset	ranks
ResNet	$33.88\pm 1.79$	$36.55\pm 1.82$	12 / 7	$49.52\pm 1.73$	$36.73\pm 4.71$	12 / 14
ResNet+SGC	$34.36\pm 1.21$	$38.36\pm 1.97$	11 / 5	$49.93\pm 2.27$	$41.01\pm 4.54$	11 / 2
ResNet+adj	$65.46\pm 1.58$	$38.37\pm 1.99$	2 / 4	$71.07\pm 2.23$	$38.67\pm 3.87$	2 / 12
GCN	$39.06\pm 1.52$	$39.47\pm 1.47$	6 / 2	$50.18\pm 3.29$	$40.89\pm 4.12$	10 / 3
SAGE	$35.83\pm 1.32$	$36.09\pm 1.99$	9 / 9	$50.18\pm 1.78$	$37.77\pm 4.14$	9 / 13
GAT	$32.21\pm 1.63$	$35.62\pm 2.06$	14 / 11	$45.02\pm 1.75$	$39.21\pm 3.08$	16 / 9
GAT-sep	$35.72\pm 1.98$	$35.46\pm 3.10$	10 / 13	$50.24\pm 2.22$	$39.26\pm 2.50$	8 / 8
GT	$31.61\pm 1.10$	$36.30\pm 1.98$	15 / 8	$44.93\pm 1.40$	$38.87\pm 3.66$	17 / 11
GT-sep	$36.08\pm 1.58$	$36.66\pm 1.63$	8 / 6	$50.33\pm 2.57$	$40.31\pm 3.01$	7 / 5
H ${}_{2}$ GCN	$29.45\pm 1.65$	$35.10\pm 1.15$	17 / 15	$46.27\pm 2.71$	$26.75\pm 3.64$	15 / 16
CPGNN	$30.91\pm 1.98$	$30.04\pm 2.03$	16 / 16	$48.77\pm 2.10$	$33.00\pm 3.15$	13 / 15
GPR-GNN	$33.39\pm 2.05$	$38.95\pm 1.99$	13 / 3	$47.26\pm 1.74$	$39.93\pm 3.30$	14 / 6
FSGNN	$68.93\pm 1.69$	$35.92\pm 1.32$	1 / 10	$77.85\pm 0.46$	$40.61\pm 2.97$	1 / 4
GloGNN	$61.21\pm 1.96$	$35.11\pm 1.24$	3 / 14	$70.04\pm 2.12$	$25.90\pm 3.58$	3 / 17
FAGCN	$47.63\pm 1.85$	$41.08\pm 2.27$	4 / 1	$64.23\pm 2.04$	$41.90\pm 2.72$	5 / 1
GBK-GNN	$37.06\pm 1.24$	$35.51\pm 1.65$	7 / 12	$51.36\pm 1.79$	$39.61\pm 2.60$	6 / 7
JacobiConv	$46.17\pm 4.34$	$29.71\pm 1.66$	5 / 17	$68.33\pm 1.38$	$39.00\pm 4.20$	4 / 10

3.2康奈尔大学、德克萨斯州、威斯康星州

康奈尔、德克萨斯和威斯康星由Pei等人(2020)介绍。这是 WebKB¹¹1http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb从各大学计算机科学系收集的网页数据集。在这些数据集中，节点是网页，边是它们之间的超链接。节点特征是网页的词袋表示。目标是网页类别：“学生”、“项目”、“课程”、“工作人员”或“教职员工”。我们首先注意到这些数据集非常小（183-251 个节点和 295-499 个边），这可能会导致不稳定且统计上不显着的结果。事实上，从以前的工作中报告的各种模型的结果可以看出，这些数据集的标准偏差非常高。此外，这些数据集的类别非常不平衡，以至于 texas 数据集的类别仅由一个节点组成，这使得使用此类进行训练和评估毫无意义。我们在附录 B 的表 6 中报告了这些数据集不同类别的节点数量。我们注意到，之前使用这些数据集的所有工作都报告了它们的准确性，但是，该指标并不是为衡量严重类别不平衡下的性能而设计的，并且可能会在这种情况下提供误导性的结果。

4 新的异嗜数据集

受上一节中描述的观察结果的启发，我们收集了几个新的数据集，用于评估异质性下的 GNN。我们的目标是获得一组满足以下条件的数据集：

•

数据集应该是异质的。我们使用调整后的同质性度量来评估这一点；请参阅下面的正式定义。
•

图结构应该对任务有帮助。为了验证这一点，我们将图无关的 ResNet 与 GNN 方法的性能进行了比较。我们预计 GNN 的性能会有显着提升。
•

数据集应该是多样化的，即来自不同的领域并具有不同的结构属性。因此，对于每个数据集，我们报告了下面描述的几个特征。
•

图表的大小应该足够大，以提供统计上显着的结果，但又足够小，以允许评估文献中提出的大多数异性特定模型，这些模型通常是不可扩展的。因此，我们只收集具有 10K-50K 节点的图。

对于每个提出的数据集，我们报告其基本特征，例如节点、边、特征和类的数量，以及我们现在定义的各种图形统计数据。

首先，我们测量同质性。如上所述，我们关注调整后的同质性，但我们也报告了边缘同质性，以便与报告该测量值的先前研究进行比较。然而，我们强调，对于我们的基准测试中存在的具有不平衡类的数据集，边缘同质性不会产生有意义的结果。形式上，边同质性是

h_{edge}=\frac{|(u,v)\in E:y_{u}=y_{v}\}|}{|E|}\,,

其中 $y_{u}$ 是节点 $u$ 的标签， $E$ 是边集。调整后的同质性基于边缘同质性，可以如下计算：

h_{adj}=\frac{h_{edge}-\sum_{k=1}^{C}D_{k}^{2}/(2|E|)^{2}}{1-\sum_{k=1}^{C}D_{% k}^{2}/(2|E|)^{2}},

其中 $D_{k}:=\sum_{v\,:\,y_{v}=k}d(v)$ 和 $d(v)$ 表示节点 $v$ 的度。 Platonov 等人 (2022) 表明，调整后的同质性满足许多理想的属性，这使得它适合比较具有不同类别数量和类别大小平衡的数据集。

我们还报告了 Platonov 等人 (2022) 中引入的标签信息性 (LI)，并且证明它与 GNN 性能的一致性比同质性更好。标签信息量量化了邻居标签提供了有关节点标签的信息量。为了正式定义这个度量，我们让 $(\xi,\eta)\in E$ 为所有边缘中均匀随机采样的边缘，并定义

\mathrm{LI}:=I(y_{\xi},y_{\eta})/H(y_{\xi})\,.

这里 $y_{\xi}$ 和 $y_{\eta}$ 是 $\xi$ 和 $\eta$ 的（随机）标签， $H(y_{\xi})$ 是 $y_{\xi}$ 的熵， $I(y_{\xi},y_{\eta})$ 是 $\xi$ 和 $\eta$ 的互信息。

我们还报告了一些标准图形特征，例如直径和聚类系数。文献中，对于聚类系数有两种流行的定义（Boccaletti等人，2014）。全局聚类系数是三角形数量与调整边对数量之间的比率。为了获得平均局部聚类系数，我们首先计算每个节点的聚类，然后对所有节点上获得的值进行平均。

表3：新异性数据集的统计

	roman-empire	amazon-ratings	minesweeper	tolokers	questions
nodes	22662	24492	10000	11758	48921
edges	32927	93050	39402	519000	153540
avg degree	2.91	7.60	7.88	88.28	6.28
global clustering	0.29	0.32	0.43	0.23	0.02
avg local clustering	0.39	0.58	0.44	0.53	0.03
diameter	6824	46	99	11	16
node features	300	300	7	10	301
classes	18	5	2	2	2
edge homophily	0.05	0.38	0.68	0.59	0.84
adjusted homophily	-0.05	0.14	0.01	0.09	0.02
label informativeness	0.11	0.04	0.00	0.01	0.00

我们提出了五个新数据集来评估异质性下的 GNN 性能。它们都是无向连接的简单图，没有自环。表3提供了建议数据集的统计数据。人们可以看到这些数据集具有不同的属性。 Tolokers 是最密集的图，平均节点度高于 88，而其余图都是稀疏的，roman-empire 是最稀疏的图。与其他图相比，Questions 的聚类系数值非常低，这表明它的封闭节点三元组比例很小。 Roman-empire 是我们基准测试中唯一一个标签信息量值显着大于零的图表。下面我们将更详细地描述每个新数据集。

罗马帝国

该数据集基于英语维基百科中的罗马帝国文章，之所以选择该文章是因为它是维基百科上最长的文章之一。该文本取自 Lhoest 等人 (2021) 的英文维基百科 2022.03.01 转储。图中的每个节点对应于文本中的一个（非唯一）单词。因此，图中的节点数等于文章的长度。如果至少满足以下两个条件之一，则两个单词通过边连接：或者这些单词在文本中相互跟随，或者这些单词在句子的依存树中连接（一个单词依赖于另一个单词）。因此，该图是具有与单词之间的句法依赖性相对应的附加快捷边的链图。节点的类是它的句法角色（我们选择 17 个最常见的角色作为唯一类，并将所有其他角色分组到第 18 个类）。使用spaCy （Honnibal等人，2020）获得句法角色。对于节点特征，我们使用 fastText 词嵌入 (Grave 等人, 2018)。虽然这项任务可能可以通过 NLP 领域的模型得到更好的解决，但我们对其进行了调整，以在低同质性、稀疏连接性和潜在的远程依赖关系的情况下评估 GNN。

该图有 22.7K 个节点和 32.9K 个边。通过构造，该图的结构是链状的；因此，它具有最小的平均度数 (2.9) 和最大的直径 (6824)。该图是异质的， $h_{adj}=-0.05$ 。有趣的是，与 Platonov 等人 (2022) 分析的所有其他异嗜性数据集相比，该数据集具有更大的标签信息价值。这意味着存在特定于该数据集的重要标签连接模式。

亚马逊评级

该数据集基于亚马逊商品共购网络元数据数据集²²2https://snap.stanford.edu/data/amazon-meta.html 来自 SNAP 数据集（Leskovec & Krevl，2014）。节点是产品（书籍、音乐 CD、DVD、VHS 录像带），边连接经常一起购买的产品。任务是预测评论者对产品的平均评分。我们将可能的评级值分为五类。对于节点特征，我们对产品描述中的单词使用 fastText 嵌入的平均值 (Grave 等人, 2018)。为了减小图的大小，我们只考虑图的 5 核的最大连通分量。

扫雷舰

该数据集的灵感来自扫雷游戏，它是我们基准测试中唯一的合成数据集。该图是一个规则的 100x100 网格，其中每个节点（单元）都连接到八个相邻节点（网格边缘的节点除外，其邻居较少）。随机选择20%的节点作为矿场。任务是预测哪些节点是地雷。节点特征是相邻矿井的one-hot编码数量。然而，对于随机选择的 50% 的节点，其特征是未知的，这由单独的二进制特征表示。

由于其规律性，该图的结构与其他数据集显着不同。平均度数为 7.88，因为几乎所有节点都恰好有 8 个邻居。由于地雷是随机放置的，调整后的同质性和标签信息量都接近于零。

托洛克斯

该数据集基于 Toloka 众包平台（Likhobaba 等人，2023）的数据。这些节点代表至少参与过 13 个选定项目之一的 toloker（工人）。如果两个参与者从事相同的任务，则一条边将他们连接起来。目标是预测哪些 tolokers 在某个项目中被禁止。节点特征基于工作人员的个人资料信息和任务性能统计数据。

该图有 11.8K 个节点，平均度为 88.28。因此，该图明显比所有其他图更密集。该数据集中大约 22% 的攻击者已被禁止。

问题

该数据集基于问答网站 Yandex Q 的数据。节点就是用户，如果一个用户在一年的时间间隔内（从 2021 年 9 月到 2022 年 8 月）回答了另一个用户的问题，则一条边连接两个节点。为了限制数据集的大小，我们只考虑对“医学”主题感兴趣的用户。任务是预测在该期间结束时哪些用户在网站上保持活跃（未被删除或阻止）。对于节点特征，我们对用户描述中的单词使用 fastText 嵌入的平均值 (Grave 等人, 2018)。由于某些用户（15%）没有描述，我们使用额外的二进制特征来指示此类用户。

获得的数据集有48.9K个节点，平均度为6.28。我们注意到分类任务高度不平衡：97% 的用户处于活跃类别。这会导致边缘同质性较高，但调整后的同质性表明该图是异质的： $h_{adj}=0.02$ 。该数据集在所提出的数据集中具有最小的聚类系数，这意味着它具有一小部分闭合节点三元组。

5 对现有算法进行基准测试

5.1设置

基线

我们选择几个有代表性的神经架构作为我们的基线。首先，我们使用ResNet类模型（He等人，2016）作为与图无关的基线。该模型将所有节点视为独立样本，并且无法访问图拓扑。因此，如果图拓扑为任务提供有用的信息，我们预计其他模型的性能将优于 ResNet。此外，我们使用两种简单的节点特征增强策略为 ResNet 提供一些有关图结构的信息。一种策略是将初始节点特征矩阵乘以归一化图邻接矩阵的幂，这可以沿图边缘平滑节点特征。这种方法是在 Wu 等人 (2019) 中提出的（他们提出的模型 SGC 是基于预处理特征的线性分类器，而我们使用类似 ResNet 的模型而不是线性分类器）。我们将这个模型命名为ResNet+SGC。另一种策略是使用邻接矩阵的行来增强节点特征，从而直接提供有关图连通性的信息。这种方法的灵感来自 LINK （Zheleva & Getoor，2009）——一种使用邻接矩阵行作为特征的线性模型——并且与最近提出的 LINKX 模型（Lim 等人， 2021），它也结合了节点特征和邻接矩阵行，但使用了自定义模型。我们将此版本的模型命名为 ResNet+adj。

此外，我们使用了 2 个经典的 GNN 架构：GCN (Kipf & Welling, 2017) 和 GraphSAGE (Hamilton 等人, 2017) 。对于 GraphSAGE，我们使用带有均值聚合函数的版本，并且不使用原始论文中使用的节点采样技术。

作为更先进的 GNN 架构，我们采用 GAT (Veličković 等人, 2018)，它使用基于注意力的聚合。然而，GAT 使用非常简单的注意力机制，因此只能计算有限的注意力 - 例如，注意力分数的排名不依赖于查询节点（Brody 等人，2022）。为了克服这个限制，我们还使用了一种具有更强大注意力机制的模型 - Graph Transformer (GT) (Shi 等人, 2020)，它是对流行的 Transformer 架构（Vaswani 等人，2017）到图表。请注意，在此版本的 GT 中，每个节点只能关注其邻居。

Zhu 等人 (2020) 表明，在 GNN 聚合步骤中分离自我嵌入和邻居嵌入（如 GraphSAGE 中所做的那样，其中节点的嵌入与其邻居嵌入的平均值连接，而不是与它们相加）在异性学习时是有益的。因此，我们将这个简单的架构修改添加到 GAT 和 GT 模型中，这些模型最初并不分离自我嵌入和邻居嵌入。我们将这些模型修改命名为 GAT-sep 和 GT-sep。

对于我们所有的基线 GNN，我们在每个图邻域聚合层之后添加一个两层 MLP，并通过跳跃连接 (He 等人，2016) 和层归一化 (Ba 等) 进一步增强模型人，2016），我们发现这对于我们基线的强劲表现非常重要。

异质性特定模型

我们使用八种专为异质性下的节点分类而设计的模型：H ${}_{\mathbf{2}}$ GCN (Zhu 等人, 2020)、CPGNN (朱等人, 2021), GPR-GNN (Chien 等人, 2021), FSGNN (Maurya 等人, 2022), GloGNN (Li 等人, 2022)0>, FAGCN1> (Bo 等人, 2021)2>, GBK-GNN3> (杜等人, 2022)4>, 和 JacobiConv5> (王 & 张，2022）6>。据我们所知，这是文献中对异性特异性模型最广泛的比较。

我们在附录 A 中提供了有关训练设置和超参数选择的详细信息。

5.2结果

表 4：模型在建议数据集上的性能。报告roman-empire和amazon- ratings的准确度，报告minesweeper、tolokers的ROC AUC，和问题。

	roman-empire	amazon-ratings	minesweeper	tolokers	questions
ResNet	$65.88\pm 0.38$	$45.90\pm 0.52$	$50.89\pm 1.39$	$72.95\pm 1.06$	$70.34\pm 0.76$
ResNet+SGC	$73.90\pm 0.51$	$50.66\pm 0.48$	$70.88\pm 0.90$	$80.70\pm 0.97$	$75.81\pm 0.96$
ResNet+adj	$52.25\pm 0.40$	$51.83\pm 0.57$	$50.42\pm 0.83$	$78.78\pm 1.11$	$75.77\pm 1.24$
GCN	$73.69\pm 0.74$	$48.70\pm 0.63$	$89.75\pm 0.52$	$83.64\pm 0.67$	$76.09\pm 1.27$
SAGE	$85.74\pm 0.67$	$53.63\pm 0.39$	$93.51\pm 0.57$	$82.43\pm 0.44$	$76.44\pm 0.62$
GAT	$80.87\pm 0.30$	$49.09\pm 0.63$	$92.01\pm 0.68$	$83.70\pm 0.47$	$77.43\pm 1.20$
GAT-sep	$88.75\pm 0.41$	$52.70\pm 0.62$	$93.91\pm 0.35$	$83.78\pm 0.43$	$76.79\pm 0.71$
GT	$86.51\pm 0.73$	$51.17\pm 0.66$	$91.85\pm 0.76$	$83.23\pm 0.64$	$77.95\pm 0.68$
GT-sep	$87.32\pm 0.39$	$52.18\pm 0.80$	$92.29\pm 0.47$	$82.52\pm 0.92$	$78.05\pm 0.93$
H ${}_{2}$ GCN	$60.11\pm 0.52$	$36.47\pm 0.23$	$89.71\pm 0.31$	$73.35\pm 1.01$	$63.59\pm 1.46$
CPGNN	$63.96\pm 0.62$	$39.79\pm 0.77$	$52.03\pm 5.46$	$73.36\pm 1.01$	$65.96\pm 1.95$
GPR-GNN	$64.85\pm 0.27$	$44.88\pm 0.34$	$86.24\pm 0.61$	$72.94\pm 0.97$	$55.48\pm 0.91$
FSGNN	$79.92\pm 0.56$	$52.74\pm 0.83$	$90.08\pm 0.70$	$82.76\pm 0.61$	$78.86\pm 0.92$
GloGNN	$59.63\pm 0.69$	$36.89\pm 0.14$	$51.08\pm 1.23$	$73.39\pm 1.17$	$65.74\pm 1.19$
FAGCN	$65.22\pm 0.56$	$44.12\pm 0.30$	$88.17\pm 0.73$	$77.75\pm 1.05$	$77.24\pm 1.26$
GBK-GNN	$74.57\pm 0.47$	$45.98\pm 0.71$	$90.85\pm 0.58$	$81.01\pm 0.67$	$74.47\pm 0.86$
JacobiConv	$71.14\pm 0.42$	$43.55\pm 0.48$	$89.66\pm 0.40$	$68.66\pm 0.65$	$73.88\pm 1.16$

表 4 显示了不同模型在我们的数据集上的性能。我们可以看到，最好的结果几乎总是通过基线而不是特定于异性的模型来实现。在我们的 5 个数据集上表现排名前 3 的 15 个中，有 13 个属于标准 GNN。有时，某些异性特异性模型的表现甚至比与图无关的 ResNet 基线还要差。这些结果表明，近年来异质性学习方面取得的进展很大程度上是幻觉，标准 GNN 通常优于专门模型。唯一能够始终如一地实现强大性能并且有时达到前 3 名最佳结果的专用模型是 FSGNN，这是一个在文献中经常被忽视的简单模型。

至于标准 GNN，我们注意到最好的结果几乎总是通过分离自我嵌入和邻居嵌入的模型（GraphSAGE、GAT-sep、GT-sep）来实现。 GAT-sep 和 GT-sep 通常优于其没有嵌入分离的版本，这表明 Zhu 等人 (2020) 中提出的这一技巧确实有助于异质性下的学习。

6结论

在本文中，我们发现了通常用于评估异质性下 GNN 性能的数据集的重大问题。其中最严重的问题是squirrel和chameleon数据集中存在大量重复节点，从而导致训练测试数据泄漏。我们表明，删除这些重复项会极大地改变不同模型的相对性能。

受这个问题的启发，我们提出了几个新的不同性质和不同结构特性的异嗜性数据集，可以形成更好的基准。我们在这些数据集上评估了各种标准 GNN 和异质性特定模型，结果表明标准 GNN 通常优于专用模型。我们希望所提出的基准以及使用它获得的见解将有助于异质性学习的进一步研究。

致谢

我们感谢 Daniil Likhobaba、Nikita Pavlichenko 和 Dmitry Ustalov 提供 tolokers 数据集。我们还感谢 Alexandr Andreev 和 Irina Lialikova 收集 questions 数据集的 Yandex Q 数据。

该出版物的部分支持是由俄罗斯联邦政府分析中心（ACRF）根据提供补贴的协议（协议标识符 000000D730321P5Q0002）和与 HSE 大学的协议编号 70-2021-00139。

参考

Abu-El-Haija et al. (2019) Sami Abu-El-Haija, Bryan Perozzi, Amol Kapoor, Nazanin Alipourfard, Kristina Lerman, Hrayr Harutyunyan, Greg Ver Steeg, and Aram Galstyan. Mixhop: Higher-order graph convolutional architectures via sparsified neighborhood mixing. In International Conference on Machine Learning, pp. 21–29. PMLR, 2019.
Ba et al. (2016) Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
Bo et al. (2021) Deyu Bo, Xiao Wang, Chuan Shi, and Huawei Shen. Beyond low-frequency information in graph convolutional networks. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pp. 3950–3957, 2021.
Boccaletti et al. (2014) Stefano Boccaletti, Ginestra Bianconi, Regino Criado, Charo I Del Genio, Jesús Gómez-Gardenes, Miguel Romance, Irene Sendina-Nadal, Zhen Wang, and Massimiliano Zanin. The structure and dynamics of multilayer networks. Physics reports, 544(1):1–122, 2014.
Bodnar et al. (2022) Cristian Bodnar, Francesco Di Giovanni, Benjamin Paul Chamberlain, Pietro Lio, and Michael M Bronstein. Neural sheaf diffusion: A topological perspective on heterophily and oversmoothing in gnns. In ICLR 2022 Workshop on Geometrical and Topological Representation Learning, 2022.
Brody et al. (2022) Shaked Brody, Uri Alon, and Eran Yahav. How attentive are graph attention networks? In International Conference on Learning Representations, 2022.
Chien et al. (2021) Eli Chien, Jianhao Peng, Pan Li, and Olgica Milenkovic. Adaptive universal generalized PageRank graph neural network. International Conference on Learning Representations, 2021.
Du et al. (2022) Lun Du, Xiaozhou Shi, Qiang Fu, Xiaojun Ma, Hengyu Liu, Shi Han, and Dongmei Zhang. Gbk-gnn: Gated bi-kernel graph neural networks for modeling both homophily and heterophily. In Proceedings of the ACM Web Conference 2022, pp. 1550–1558, 2022.
Giles et al. (1998) C Lee Giles, Kurt D Bollacker, and Steve Lawrence. Citeseer: An automatic citation indexing system. In Proceedings of the third ACM Conference on Digital Libraries, pp. 89–98, 1998.
Gilmer et al. (2017) Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry. In International Conference on Machine Learning, pp. 1263–1272. PMLR, 2017.
Grave et al. (2018) Edouard Grave, Piotr Bojanowski, Prakhar Gupta, Armand Joulin, and Tomas Mikolov. Learning word vectors for 157 languages. In Proceedings of the International Conference on Language Resources and Evaluation, 2018.
Hamilton et al. (2017) William L Hamilton, Rex Ying, and Jure Leskovec. Inductive representation learning on large graphs. In Proceedings of the 31st International Conference on Neural Information Processing Systems, pp. 1025–1035, 2017.
He et al. (2022) Dongxiao He, Chundong Liang, Huixin Liu, Mingxiang Wen, Pengfei Jiao, and Zhiyong Feng. Block modeling-guided graph convolutional neural networks. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pp. 4022–4029, 2022.
He et al. (2016) Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770–778, 2016.
Hendrycks & Gimpel (2016) Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (GELUs). arXiv preprint arXiv:1606.08415, 2016.
Honnibal et al. (2020) Matthew Honnibal, Ines Montani, Sofie Van Landeghem, and Adriane Boyd. spaCy: Industrial-strength natural language processing in python. 2020.
Hu et al. (2020) Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, and Jure Leskovec. Open graph benchmark: Datasets for machine learning on graphs. Advances in Neural Information Processing Systems, 33:22118–22133, 2020.
Kingma & Ba (2015) Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. International Conference on Learning Representations, 2015.
Kipf & Welling (2017) Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. In International Conference on Learning Representations, 2017.
Leskovec & Krevl (2014) Jure Leskovec and Andrej Krevl. SNAP Datasets: Stanford large network dataset collection. http://snap.stanford.edu/data, 2014.
Lhoest et al. (2021) Quentin Lhoest, Albert Villanova del Moral, Yacine Jernite, Abhishek Thakur, Patrick von Platen, Suraj Patil, Julien Chaumond, Mariama Drame, Julien Plu, Lewis Tunstall, et al. Datasets: A community library for natural language processing. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 175–184, 2021.
Li et al. (2022) Xiang Li, Renyu Zhu, Yao Cheng, Caihua Shan, Siqiang Luo, Dongsheng Li, and Weining Qian. Finding global homophily in graph neural networks when meeting heterophily. In International Conference on Machine Learning, pp. 13242–13256. PMLR, 2022.
Likhobaba et al. (2023) Daniil Likhobaba, Nikita Pavlichenko, and Dmitry Ustalov. Toloker Graph: Interaction of Crowd Annotators. 2023. doi: 10.5281/zenodo.7620795. URL https://github.com/Toloka/TolokerGraph.
Lim et al. (2021) Derek Lim, Felix Hohne, Xiuyu Li, Sijia Linda Huang, Vaishnavi Gupta, Omkar Bhalerao, and Ser Nam Lim. Large scale learning on non-homophilous graphs: New benchmarks and strong simple methods. Advances in Neural Information Processing Systems, 34, 2021.
Luan et al. (2022) Sitao Luan, Chenqing Hua, Qincheng Lu, Jiaqi Zhu, Mingde Zhao, Shuyuan Zhang, Xiao-Wen Chang, and Doina Precup. Revisiting heterophily for graph neural networks. In Advances in Neural Information Processing Systems, 2022.
Ma et al. (2022) Yao Ma, Xiaorui Liu, Neil Shah, and Jiliang Tang. Is homophily a necessity for graph neural networks? In International Conference on Learning Representations, 2022.
Maurya et al. (2022) Sunil Kumar Maurya, Xin Liu, and Tsuyoshi Murata. Simplifying approach to node classification in graph neural networks. Journal of Computational Science, pp. 101695, 2022.
McCallum et al. (2000) Andrew Kachites McCallum, Kamal Nigam, Jason Rennie, and Kristie Seymore. Automating the construction of internet portals with machine learning. Information Retrieval, 3(2):127–163, 2000.
Namata et al. (2012) Galileo Namata, Ben London, Lise Getoor, and Bert Huang. Query-driven active surveying for collective classification. In 10th International Workshop on Mining and Learning with Graphs, volume 8, pp. 1, 2012.
Paszke et al. (2019) Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. Advances in Neural Information Processing Systems, 32, 2019.
Pei et al. (2020) Hongbin Pei, Bingzhe Wei, Kevin Chen-Chuan Chang, Yu Lei, and Bo Yang. Geom-GCN: Geometric graph convolutional networks. In International Conference on Learning Representations, 2020.
Platonov et al. (2022) Oleg Platonov, Denis Kuznedelev, Artem Babenko, and Liudmila Prokhorenkova. Characterizing graph datasets for node classification: Homophily–heterophily dichotomy and beyond. arXiv preprint arXiv:2209.06177, 2022.
Rozemberczki et al. (2021) Benedek Rozemberczki, Carl Allen, and Rik Sarkar. Multi-scale attributed node embedding. Journal of Complex Networks, 9(2), 2021.
Sen et al. (2008) Prithviraj Sen, Galileo Namata, Mustafa Bilgic, Lise Getoor, Brian Galligher, and Tina Eliassi-Rad. Collective classification in network data. AI magazine, 29(3):93–93, 2008.
Shchur et al. (2018) Oleksandr Shchur, Maximilian Mumme, Aleksandar Bojchevski, and Stephan Günnemann. Pitfalls of graph neural network evaluation. Relational Representation Learning Workshop, 2018.
Shi et al. (2020) Yunsheng Shi, Zhengjie Huang, Shikun Feng, Hui Zhong, Wenjin Wang, and Yu Sun. Masked label prediction: Unified message passing model for semi-supervised classification. arXiv preprint arXiv:2009.03509, 2020.
Suresh et al. (2021) Susheel Suresh, Vinith Budde, Jennifer Neville, Pan Li, and Jianzhu Ma. Breaking the limit of graph neural networks by improving the assortativity of graphs with local mixing patterns. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 2021.
Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pp. 5998–6008, 2017.
Veličković et al. (2018) Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, and Yoshua Bengio. Graph Attention Networks. International Conference on Learning Representations, 2018.
Wang et al. (2019) Minjie Wang, Da Zheng, Zihao Ye, Quan Gan, Mufei Li, Xiang Song, Jinjing Zhou, Chao Ma, Lingfan Yu, Yu Gai, et al. Deep graph library: A graph-centric, highly-performant package for graph neural networks. arXiv preprint arXiv:1909.01315, 2019.
Wang et al. (2022) Tao Wang, Di Jin, Rui Wang, Dongxiao He, and Yuxiao Huang. Powerful graph convolutional networks with adaptive propagation mechanism for homophily and heterophily. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pp. 4210–4218, 2022.
Wang & Zhang (2022) Xiyuan Wang and Muhan Zhang. How powerful are spectral graph neural networks. In International Conference on Machine Learning, pp. 23341–23362. PMLR, 2022.
Wu et al. (2019) Felix Wu, Amauri Souza, Tianyi Zhang, Christopher Fifty, Tao Yu, and Kilian Weinberger. Simplifying graph convolutional networks. In International Conference on Machine Learning, pp. 6861–6871. PMLR, 2019.
Xu et al. (2019) Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. How powerful are graph neural networks? In International Conference on Learning Representations, 2019.
Yan et al. (2022) Yujun Yan, Milad Hashemi, Kevin Swersky, Yaoqing Yang, and Danai Koutra. Two sides of the same coin: Heterophily and oversmoothing in graph convolutional neural networks. In 2022 IEEE International Conference on Data Mining (ICDM), pp. 1287–1292. IEEE, 2022.
Yang et al. (2016) Zhilin Yang, William Cohen, and Ruslan Salakhudinov. Revisiting semi-supervised learning with graph embeddings. In International Conference on Machine Learning, pp. 40–48. PMLR, 2016.
Zheleva & Getoor (2009) Elena Zheleva and Lise Getoor. To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles. In Proceedings of the 18th International Conference on World Wide Web, pp. 531–540, 2009.
Zhu et al. (2020) Jiong Zhu, Yujun Yan, Lingxiao Zhao, Mark Heimann, Leman Akoglu, and Danai Koutra. Beyond homophily in graph neural networks: Current limitations and effective designs. Advances in Neural Information Processing Systems, 33:7793–7804, 2020.
Zhu et al. (2021) Jiong Zhu, Ryan A Rossi, Anup Rao, Tung Mai, Nedim Lipka, Nesreen K Ahmed, and Danai Koutra. Graph neural networks with heterophily. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pp. 11168–11176, 2021.

附录A训练细节和超参数选择

在本节中，我们将在 3.1 节和 5 节中描述实验训练设置的详细信息。对于 squirrel 和 chameleon，我们使用 10 个现有的标准训练/验证/测试分组。对于这些数据集的过滤版本，我们使用相同的分割并删除重复项。对于我们提出的每个新数据集，我们固定 10 个随机 50%/25%/25% 训练/验证/测试分割。我们在每个分组上对每个模型进行一次训练，报告平均性能和标准差。对于多类分类数据集(roman-empire、amazon- ratings)，我们报告准确性，对于二元分类数据集(minesweeper、tolokers）、问题)我们报告 ROC AUC。

squirrel 和 chameleon 数据集是定向的。大多数实现异质性特定模型的代码库不会将这些图转换为无向图；因此，我们也按照指示对待它们。相比之下，我们提出的基准测试中的所有图表都是无向的。

对于我们所有的基线 GNN，我们在每个图邻域聚合层之后添加一个两层 MLP，并通过跳跃连接 (He 等人，2016) 和层归一化 (Ba 等) 进一步增强模型人，2016），这是现代深度学习中的标准神经架构元素。我们发现这些技术对于我们基线的强大性能非常重要。此外，我们发现它们使我们的基线模型对于超参数值的选择非常稳健，因此我们为它们调整的唯一超参数是图邻域聚合层的数量。我们根据验证集性能从集合 $\{1,2,3,4,5\}$ 中选择它。对于所有其他超参数，我们在所有基线模型和数据集中使用相同的值。即，我们使用以下超参数值：隐藏维度为512，dropout概率为0.2。对于 GAT 和 Graph Transformer 模型，注意力头的数量设置为 8。我们在所有基线模型中使用 GELU 激活函数（Hendrycks & Gimpel，2016）。我们使用 Adam 优化器（Kingma & Ba，2015），学习率为 $3\cdot 10^{-5}$ 。我们对每个模型进行 1000 个步骤的训练，并根据验证集的性能选择最佳步骤。我们的基线是使用 PyTorch (Paszke 等人, 2019) 和 DGL (Wang 等人, 2019) 实现的。

对于异性特定模型，我们使用这些模型作者提供的官方代码。与基线不同，异性特定模型对超参数的特定选择非常敏感。即，学习率和权重衰减的选择可能会显着影响模型性能。对于不同的模型，最佳超参数值的范围可能会有很大差异。因此，对于每个模型，我们都搜索了特定的超参数网格。正在考虑的许多模型都有其特定的超参数。在所有情况下，我们都将它们固定为为 squirrel 数据集设置的值，但 GloGNN 模型 (Li 等人，2022) 除外，事实证明，该模型对其特定的超参数。模型的训练步数与原始论文中的步数相同，并且我们在验证集上使用早期停止，并耐心地执行 100 个步，以防止过度拟合。对于每个模型，我们扫描了 4-5 个学习率和权重衰减值，并选择了验证集性能最佳的一个。

附录B其他数据集统计数据

在表 5 中，我们显示了 squirrel 和 chameleon 数据集中跨类的重复项分布。我们可以看到，所有类中都有大量重复项，但它们的分布并不均匀。

表 5：维基百科数据集中各个类别的重复项分布

	class 1	class 2	class 3	class 4	class 5
	squirrel
number of nodes	1042	1040	1039	1040	1040
number of duplicates	286	524	642	719	807
number of non-duplicates	756	516	397	321	233
	chameleon
number of nodes	456	460	453	521	387
number of duplicates	214	326	244	357	246
number of non-duplicates	242	134	209	164	141

在表 6 中，我们报告了 texas、cornell 和 wisconsin 数据集中跨类的节点分布。

表 6： texas、cornell 和 wisconsin 不同类别的节点数

	class 1	class 2	class 3	class 4	class 5
texas	33	1	18	101	30
cornell	38	16	30	82	17
wisconsin	10	70	118	32	21

附录C与Lim 等人 (2021) 中提出的基准比较

最近，Lim 等人 (2021) 提出了大规模异质图数据集的基准。本节描述该基准与我们建议的数据集有何不同。第一个区别是图表的大小。 Lim 等人 (2021) 专门收集大型数据集来评估异质性下可扩展图方法的性能。然而，这使得它们无法与许多为异质图设计的 GNN 进行比较，因为此类 GNN 通常是计算和内存密集型的，因此无法扩展到 Lim 等人 (2021) 提出的图的大小。相比之下，对于我们的基准测试，我们有目的地收集少于 50K 节点的图，使我们能够比较文献中提出的异质学习下的许多模型。

另一个区别在于数据集的来源领域。图表是表示不同领域数据的自然方式；因此，全面的图形基准测试应该涵盖广泛的领域。 Lim 等人 (2021) 使用社交网络(penn94、pokec、genius、twitch-gamers )、引文网络(arxiv-year、snap-patents)和网络图(wiki)。我们的图表来自其他不同的领域，因此自然地补充了 Lim 等人 (2021) 的基准。也就是说，我们的数据集是一个单词依赖图(roman-empire)、一个产品共同购买网络(amazon- ratings)、一个模拟扫雷游戏的合成图(minesweeper)、众包平台工作者网络(tolokers)和问答网站互动网络(questions)。

附录 DSquirrel 和 Chameleon 数据集的两个版本

squirrel 和 chameleon 数据集存在两个版本。其中一份可在 Rozemberczki 等人 (2021)、³³3https://graphmining.ai/datasets/ptg/wiki/，而另一个可在 SNAP 数据集上找到。⁴⁴4http://snap.stanford.edu/data/wikipedia-article-networks.html 这些数据集的边缘集有所不同。 Pei 等人 (2020) 采用了 SNAP 数据集的版本进行实验，因此该版本成为文献中的标准版本。在我们的工作中，我们也使用这个版本，并且我们对重复节点边缘的观察仅适用于这个版本。然而，两个版本的数据集的回归目标是相同的（直到对数变换）。因此，两个版本的数据集中都存在重复的目标。

批判性地审视异亲环境下的 GNN 评估：我们真的取得进展了吗？

摘要

1简介