问题

如何解决图神经网络(GNN)训练中过度平滑的问题?

回答
图神经网络(GNN)在处理图结构数据时展现出强大的能力,但一个普遍存在且棘手的问题是“过度平滑”(Oversmoothing)。过度平滑指的是在多层GNN中,节点的表示(embeddings)会变得越来越相似,最终趋于相同。这导致节点区分度丧失,使得GNN难以学习到有用的节点级特征,从而严重影响模型的性能。

本文将详细探讨过度平滑的成因、表现以及多种解决策略。

一、 过度平滑的成因与表现

1. 过度平滑的成因

过度平滑的本质在于GNN的消息传递机制。在每一层GNN中,节点都会聚合其邻居的信息。随着层数的增加,一个节点的信息会逐渐传播到更远的邻居,并叠加多次。想象一下,一个节点在第一层聚合其直接邻居的信息,在第二层聚合第一层聚合后的邻居信息,以此类推。信息会不断地在图上扩散和混合。

可以从几个角度来理解其成因:

信息融合的“平均化”效应: GNN的消息聚合通常是加权平均(或求和后归一化),这种操作本质上是一种平滑过程。就像在图像处理中,使用卷积核进行模糊操作一样,GNN的消息传递也在逐步“模糊”节点之间的差异。
马尔可夫链的性质: 将GNN的消息传递视为一个马尔可夫链的转移过程,每个节点的信息都会根据图的连接性以一定的概率传递给邻居。当层数足够多时,节点的表示会趋向于该马尔可夫链的平稳分布,而这个平稳分布往往是所有节点表示的平均值。
图结构的影响:
高连通性图: 在连接非常紧密的图中,信息传播速度快且范围广,更容易导致过度平滑。
同质性社区: 如果图中存在大量具有相似特征的节点聚集在某个社区,那么这些社区内的节点更容易发生过度平滑。
聚合函数的限制: 许多经典的聚合函数(如平均、求和)本身就具有平滑属性。

2. 过度平滑的表现

过度平滑最直观的表现是:

节点表示相似度急剧升高: 通过计算不同节点表示之间的余弦相似度或欧氏距离,可以观察到随着层数的增加,节点表示的相似度会越来越高,最终接近1(余弦相似度)或0(欧氏距离)。
模型性能下降: 在节点分类、链接预测等任务中,当模型达到一定层数后,性能会开始下降,甚至低于浅层模型。这是因为节点失去了区分度,无法学习到有用的局部或全局特征。
可视化结果趋同: 使用tSNE或PCA等降维技术可视化节点表示,过度平滑的图会显示所有节点聚集在一个区域,无法区分。

二、 解决过度平滑的策略

解决过度平滑的策略可以大致分为以下几类:

1. 限制模型深度(浅层GNN)

最直接但可能是最“粗暴”的方法是限制GNN的层数。许多研究表明,大多数GNN模型在2到4层时性能最佳。如果训练更深的模型,性能可能会急剧下降。

优点: 实现简单,直接避免了多层消息传递带来的过度平滑。
缺点: 限制了模型捕获长距离依赖关系的能力。如果任务需要理解图的全局结构或长距离信息,浅层模型可能不足够。

2. 引入残差连接和跳跃连接

类似于残差网络(ResNet)在深度学习中的成功,在GNN中引入残差连接和跳跃连接可以有效地缓解过度平滑。

残差连接 (Residual Connections):
原理: 让每一层的输出直接加到下一层的输出上,即 $H^{(l+1)} = H^{(l)} + ext{GNN}(H^{(l)}, A)$。这使得每一层可以学习到对前一层表示的“修正”或“增量”,而不是完全替换。即使聚合后的表示有所平滑,原始信息仍然保留了一部分,从而减轻了信息的丢失。
实现: 在每一层的计算完成后,将该层的输入(或经过一个线性变换)与该层的输出相加。
跳跃连接 (Skip Connections):
原理: 类似于残差连接,但可以更灵活地从任意前面的层“跳跃”到当前的层,并将信息融合。例如,可以将第一层和第二层的表示都用于计算第三层的表示,通过加权求和或拼接等方式。
更广泛的意义: 有时也指将节点的原始特征(初始节点表示 $H^{(0)}$)与多层GNN的输出进行融合,即 $H_{ ext{final}} = f(H^{(0)}, H^{(1)}, ..., H^{(L)})$。这确保了原始的节点信息不会完全丢失。
代表性模型:
GCNII (Graph Convolutional Network with Initial and Identity Mapping): 结合了初始特征的恒等映射和第一层的恒等映射,通过引入两个可学习的参数 α 和 β 来控制信息保留的比例。其公式可以写成:
$H^{(l+1)} = (1alpha) H^{(l)} + alpha sum_{j in mathcal{N}(i) cup {i}} frac{1}{sqrt{deg(i)deg(j)}} H^{(l)}_j$
这里的第一项 $(1alpha) H^{(l)}$ 就是一种残差连接,它保留了来自前一层的原始信息。
GraphSAGE的聚合模块: GraphSAGE 的聚合过程本身也可以被看作是一种信息融合,其变种如 MEAN aggregtor 也可以看作是加权平均,但其设计初衷是为了处理大规模图。

优点: 允许模型使用更深的网络,同时保留了来自早期层的有用信息,缓解了信息丢失。
缺点: 参数量可能增加,需要仔细调整残差/跳跃连接的策略。

3. 改变消息聚合或传播机制

核心思想是设计不那么“平滑”的消息聚合或传播方式。

非线性激活函数和归一化:
原理: 在每一层 GNN 计算后引入非线性激活函数(如 ReLU, ELU)可以增加表示的非线性,理论上可以缓解信息过于线性地融合。批归一化 (Batch Normalization) 或层归一化 (Layer Normalization) 也可以帮助稳定训练过程,有时也能间接缓解过度平滑。
注意: 激活函数本身并不能完全解决过度平滑,因为信息聚合过程仍然是线性的。
注意力机制 (Attention Mechanisms):
原理: 图注意力网络 (GAT) 使用注意力机制来学习邻居节点对中心节点的重要性权重。与固定权重的图卷积不同,GAT 可以为每个邻居分配不同的权重,从而更灵活地聚合信息。如果一个邻居的信息对当前节点很重要,就分配更高的权重;反之则降低权重。
优势: 允许模型“选择性地”聚合信息,避免将所有邻居的信息平均化,从而保留更多的局部结构和节点特异性。
局限性: 虽然 GAT 比 GCN 在缓解过度平滑方面有所改善,但当层数非常多时,仍然可能发生过度平滑,因为注意力权重也会随着层数传递和更新。
保留节点自身信息:
原理: 修改消息传递机制,让节点不仅聚合邻居信息,还保留一部分自己的信息。
实现:
APPNP (Approximate Personalized Propagation Neural Network):
$H^{(l+1)} = alpha S H^{(l)} + (1alpha) sum_{j in mathcal{N}(i)} frac{1}{deg(i)} H^{(l)}_j$
这里的 $alpha S H^{(l)}$ 是一个近邻传播项,它将节点自身的表示以一定权重 $alpha$ 保留在每一层,这是一种主动保留信息的方式。
GDC (Graph Diffusion Convolution):
通过一个热扩散过程来聚合信息,该过程可以根据参数控制信息扩散的范围和速度。
使用可学习的邻域聚合:
原理: 允许模型学习如何聚合邻居信息,而不是使用固定的平均或求和。例如,可以学习一个小型网络来聚合邻居特征。
代表性模型: Graph Isomorphism Network (GIN) 在其聚合函数中引入了一个多层感知机 (MLP),使得其理论上比 GCN 更强大,并且在一定程度上能缓解过度平滑。GIN 的聚合公式为:
$H^{(l+1)} = ext{MLP}^{(l)} left( (1+epsilon^{(l)}) H^{(l)}_i + sum_{j in mathcal{N}(i)} H^{(l)}_j ight)$

优点: 直接针对消息传递过程进行优化,更加根本地解决问题。
缺点: 设计更复杂的聚合机制可能需要更多的计算资源或更精细的调参。

4. 结构化或正则化方法

通过显式地鼓励节点表示的差异性或控制信息传播的范围。

正则化项:
原理: 在损失函数中添加正则化项,惩罚节点表示的相似性。例如,可以惩罚邻居节点表示的 L2 距离或余弦相似度。
具体做法:
添加一个损失项 $sum_{(u, v) in E} |H_u^{(L)} H_v^{(L)}|^2$ 来惩罚相连节点表示的相似性,或者 $sum_{u eq v} ext{sim}(H_u^{(L)}, H_v^{(L)})$ 来惩罚所有节点表示的相似性。
Label Smoothing: 对于节点分类任务,对标签进行平滑处理,使得模型不会对预测的标签过于自信,从而间接鼓励区分度。
知识蒸馏:
原理: 使用一个浅层但性能良好的教师模型(如一个23层的GCN)来指导深层学生模型的训练。学生模型的目标不仅是预测标签,还要模仿教师模型的输出(节点表示或预测概率)。由于教师模型不会发生过度平滑,它能够提供更具区分度的信号。
实现: 学生模型的损失函数包含标准的任务损失以及一个模仿教师模型的损失(如均方误差)。
随机化/ Dropout:
原理: 在训练过程中引入随机性,例如在消息传递过程中随机丢弃一些邻居节点或边。这类似于 Dropout 在全连接网络中的作用,可以防止模型过度依赖某些连接,增加鲁棒性。
实现:
Graph Dropout: 随机丢弃节点。
Edge Dropout: 随机丢弃边。
Node Feature Dropout: 随机丢弃节点特征。
稀疏化思想:
原理: 鼓励节点在聚合信息时只关注少数最重要的邻居。
代表性模型:
Graph Attention Network (GAT) 的一种变体可以引入稀疏注意力机制。
DropEdge: 在训练过程中随机删除一部分边。

优点: 可以直接地引导模型朝着具有区分度的方向学习,或者增加模型的鲁棒性。
缺点: 正则化项的引入可能需要仔细调整权重,知识蒸馏需要一个训练好的教师模型,随机化方法需要调参。

5. 架构设计上的创新

一些新的GNN架构设计从根本上避免了多层信息聚合。

非迭代式聚合:
原理: 某些 GNN 模型将所有层的信息进行拼接或融合,而不是迭代地更新节点表示。例如,可以设计一个网络,一次性完成多层的信息捕获和整合。
代表性模型:
GCNII: 如前所述,GCNII 通过引入恒等映射和初始映射,允许信息在多层传播,但其残差结构使其能应对更深的网络。
Graph Transformer: 使用 Transformer 架构来处理图数据,其自注意力机制可以捕获长距离依赖,并且其多头注意力机制可以从不同角度捕捉信息。Transformer 的多层叠加本身就类似多层GNN,但其自注意力机制的设计使得它在一定程度上能缓解过度平滑,因为它不是简单的平均。
独立于图结构的嵌入:
原理: 某些模型尝试学习一种不依赖于图结构的嵌入,然后将其与图结构信息结合。
图采样技术:
原理: 对于大规模图,通常使用邻域采样技术(如 GraphSAGE 中的采样)来控制每层聚合的邻居数量。这可以在一定程度上限制信息传播的范围,从而缓解过度平滑。但采样本身也可能引入偏差。

优点: 提供了新的思路来构建能够处理更深层网络的模型。
缺点: 架构创新通常需要大量的实验和验证。

三、 如何选择和应用解决策略

在实际应用中,解决过度平滑需要根据具体任务、图的特性和计算资源来选择合适的策略:

1. 首先尝试限制深度: 如果你的任务对长距离依赖不敏感,或者实验发现24层GNN已经表现良好,那么最简单的就是限制模型深度。
2. 引入残差连接/跳跃连接: 如果需要更深的网络来捕获复杂模式,残差连接是首选。GCNII 等模型是很好的起点。
3. 考虑注意力机制: 如果图的连接性很复杂,或者节点之间的关系差异很大,GAT 或其他基于注意力的模型可能效果更好。
4. 尝试更灵活的聚合: 如果以上方法效果不佳,可以考虑使用 GIN 或 APPNP 等具有更优越聚合机制的模型。
5. 结合多种策略: 通常,最佳效果来自于结合多种策略。例如,一个深层GNN模型可以同时使用残差连接、注意力机制和一些正则化技术。
6. 仔细调参: 无论是选择哪种策略,模型性能都高度依赖于超参数的调优。学习率、隐藏层维度、层数、残差连接的比例、注意力机制的参数等都需要仔细调整。
7. 监控验证集性能: 在训练过程中,密切关注验证集上的性能,一旦发现性能下降,就表明可能出现了过度平滑,需要及时停止训练或调整模型。

总结

过度平滑是GNN训练中的一个核心挑战,其根本原因是多层消息传递的累积效应。解决这一问题的策略多种多样,从简单的限制模型深度到复杂的架构创新和正则化方法。理解过度平滑的成因和各种解决方案的原理,能够帮助我们选择最适合具体场景的方法,从而构建出更强大、更鲁棒的图神经网络模型。在实践中,往往需要结合多种策略并进行细致的超参数调优来获得最佳性能。

网友意见

user avatar

泻药。

更正一下题目中的几个小误区:

原题:如何解决图神经网络(GNN)训练中过度平滑的问题?即在图神经网络的训练过程中,随着网络层数的增加和迭代次数的增加,每个节点的隐层表征会趋向于收敛到同一个值(即空间上的同一个位置)。

不是所有图神经网络都有 over-smooth 的问题,例如,基于 RandomWalk + RNN、基于 Attention 的模型大多不会有这个问题,是可以放心叠深度的~只有部分图卷积神经网络会有该问题。

不是每个节点的表征都趋向于收敛到同一个值,更准确的说,是同一连通分量内的节点的表征会趋向于收敛到同一个值。这对表征图中不通簇的特征、表征图的特征都有好处。但是,有很多任务的图是连通图,只有一个连通分量,或较少的连通分量,这就导致了节点的表征会趋向于收敛到一个值或几个值的问题。

注:在图论中,无向图的连通分量是一个子图,其中任何两个顶点通过路径相互连接。

可视化试验

在讲解理论之前,我们首先进行一个可视化试验,以直观地获得对 over-smooth 的认识。

我们知道,GCN 的单层图卷积公式为:

其中, 为激活函数, 为节点特征, 为训练参数, , 为邻接矩阵, , 为 graph 中的节点集合。训练参数 由任务相关的损失函数反向传播进行优化,可以理解为任务相关的模式提取能力,我们将其统一在图卷积后进行,多层卷积公式可以近似为:

其中, 为所有卷积层实现的变换操作。这里,我们对 取不同的值,通过观察 模拟 层卷积的聚合效果。

模拟程序如下。

首先,定义三个连通子图:随机图、完全图和彼得森图:

       import networkx as nx import matplotlib.pyplot as plt  %matplotlib inline  subgraph_1 = nx.sedgewick_maze_graph() subgraph_2 = nx.complete_graph(5) subgraph_3 = nx.petersen_graph()  graph = nx.disjoint_union(subgraph_1, subgraph_2) graph = nx.disjoint_union(graph, subgraph_3) nx.draw_circular(graph) plt.show()     

接着,计算矩阵 :

       import scipy import numpy as np import scipy.sparse as sparse   nodelist = graph.nodes() graph.add_edges_from(graph.selfloop_edges()) A_hat = nx.to_scipy_sparse_matrix(graph, nodelist=nodelist, weight='weight', format='csr') n, m = A_hat.shape  diags = A_hat.sum(axis=1).flatten()  with scipy.errstate(divide='ignore'):     diags_sqrt = 1.0 / np.sqrt(diags) diags_sqrt[scipy.isinf(diags_sqrt)] = 0  D_hat = scipy.sparse.spdiags(diags_sqrt, [0], m, n, format='csr')  aggregate_matrix = D_hat.dot(A_hat).dot(D_hat)     

最后,在得到汇聚矩阵 的 次幂后,我们使用 heatmap 可视化卷积结果 。其中,我们令 为一个随机矩阵,模拟节点的不同特征:

       import seaborn as sns; X = np.random.randn(23, 10) sns.heatmap(aggregate_matrix.todense())  # 1 time for _ in range(1):     aggregate_matrix = aggregate_matrix.dot(aggregate_matrix) sns.heatmap(aggregate_matrix.todense().dot(X)) # 3 times for _ in range(2):     aggregate_matrix = aggregate_matrix.dot(aggregate_matrix) sns.heatmap(aggregate_matrix.todense().dot(X)) # 6 times for _ in range(3):     aggregate_matrix = aggregate_matrix.dot(aggregate_matrix) sns.heatmap(aggregate_matrix.todense().dot(X))     

如下图所示,我们可视化了 23 个节点(行),的 9 维度特征(列),每个维度的特征值大小用亮度表示,越亮则表示越大:

可以发现,无论特征矩阵的初始状态如何(随机产生),多次卷积后,同一联通分量内所有节点的特征都趋于一致了。特别的,全连接连通分量内的节点特征,恰巧与连通分量内所有节点特征的平均成正比。

为什么 GCN 中会存在 over-smooth 的问题

有的工作 [1]想到利用特征分解给出 over-smooth 定理(同一连通分量内的节点的表征会趋向于收敛到同一特征向量)的证明:

对于没有激活函数的卷积操作 ,我们首先利用特征分解得到:

根据频率将特征矩阵展开(求和符号),得到:

假设 Graph 中有 个连通分量,则对应的频率为:

当 时, ,

从而,从 1 到 之间的 ... ,从 到 的 ... 。

即,

由于与 相乘,可以知道,在计算结果中,该连通分量内的节点特征将均相同,且由 决定

定理得证。

该工作还进一步论证了带有 ReLU 和 bias 下的收敛情况。

十分推荐阅读以下 over-smooth 的收敛性论证论文:

  1. Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning [1]
  2. Tackling Over-Smoothing for General Graph Convolutional Networks [2]
  3. A Note on Over-Smoothing for Graph Neural Networks [3]
  4. Revisiting Oversmoothing in Deep GCNs [4]

值得一提的是,在知道 over-smooth 的存在后,如何度量 over-smooth 的程度呢?最近提出的 MADGap [5]十分有趣,如果你的 motivation 是解决 over-smooth 的话,可以尝试使用其进行度量和说明。

如何解决 over-smooth 的问题

在了解为什么 GCN 中会存在 over-smooth 问题后,剩下的工作就是对症下药了:

图卷积会使同一连通分量内的节点的表征趋向于收敛到同一个值。

  1. 针对“图卷积”:在当前任务上,是否能够使用 RNN + RandomWalk(数据为图结构,边已然存在)或是否能够使用 Attention(数据为流形结构,边不存在,但含有隐式的相关关系)?
  2. 针对“同一连通分量内的节点”:在当前任务上,是否可以对图进行 cut 等预处理?如果可以,将图分为越多的连通分量,over-smooth 就会越不明显。极端情况下,节点都不相互连通,则完全不存在 over-smooth 现象(但也无法获取周围节点的信息)。

如果上述方法均不适用,仍有以下 deeper 和 wider 的措施可以保证 GCN 在过参数化时对模型的训练和拟合不产生负面影响。个人感觉,这类方法的实质是不同深度的 GCN 模型的 ensamble:

巨人肩膀上的模型深度 —— residual 等

Kipf 在提出 GCN 时,就发现了添加更多的卷积层似乎无法提高图模型的效果,并通过试验将其归因于 over-smooth:多层 GCN 可能导致节点趋同化,没有区别性。但是,早期的研究认为这是由 GCN 过分强调了相邻节点的关联而忽视了节点自身的特点导致的。 所以 Kipf 给出的解决方案是添加残差连接[6],将节点自身特点从上一层直接传输到下一层:

在这个思路下,陆续有工作借鉴 DenseNet,将 residual 连接替换为 dense 连接,提出了自己的 module [7][8]

其中, 表示拼接节点的特征向量。

最近,也有些工作认为直接将使用残差连接矫枉过正,残差模块完全忽略了相邻节点的权重,因而选择在 的基础上,对节点自身进行加强[9]

在此基础上,作者进一步考虑了相邻节点的数量,提出了新的正则化方法:

另辟蹊径的模型宽度 —— multi-hops

随着图卷积渗透到各个领域,一些研究开始放弃深度上的拓展,选择效仿 Inception 的思路拓宽网络的宽度,通过不同尺度感受野的组合对提高模型对节点的表征能力。N-GCN[10]通过在不同尺度下进行卷积,再融合所有尺度的卷积结果得到节点的特征表示:

其中, , 表示拼接节点的特征向量。原文中尝试了 和 等不同的归一化方法对当前节点 阶临域的进行信息汇聚,取得了还不错的效果。

也有一些工作认为 GCN 的各层的卷积结果是一个有序的序列:对于一个 层的 GCN,第 层捕获了 -hop 邻居节点的信息,其中 ,相邻层 和 之间有依赖关系。因而,这类方法选择使用 RNN 对各层之间的长期依赖建模[11]

即为:

与 over-smooth 相关的其他问题

随着图卷积的广泛应用,越来越的同学开始使用图卷积解决各个领域的问题,这使得 Graph 早已不再是最初规则的 Graph,它可能是自行构建的完全图、可能是高维点少的场景图等等。但凡遇到问题,我们第一个想到的就是 over-smooth。然而,这真的是 over-smooth 的问题吗,由于私信的同学太多,这里我简单介绍一下相关的问题,帮助提升性能。不感兴趣的同学可以直接跳过。

under-reaching 网络不能太浅(具体表现:加深网络性能提升)

由于每层 GCN(或 GraphSAGE 等)只能聚合一阶邻居节点(节点的直接相邻节点)的特征。较少的 GCN 层数会导致网络根本无法从远距离节点获得信息,从而,在卷积过程中卷积核的感受野过小,无法识别较为宏观的图结构信息。例如,较大的社区、或者区域性的 3d-point。这种现象通常在点云相关任务中出现,化简卷积操作,直接加深网络(添加图卷积层)即可。

over-squashing 网络不能太挤(具体表现:加深网络性能不变)

此前,一部分学者认为,加深网络而性能没有提升属于 over-smooth 现象。然而,另一些工作认为,over-smooth 应在网络过深时导致性能下降(因为节点特征收敛到同一个值,节点间无法区分,应该有害于任务的完成),因此事情另有蹊跷。

随着研究的不断深入,近年来 over-squashing 的观念又(因为此前在 RNN 上流行过)流行起来。他们认为,将众多的节点信息压缩在固定维度的当前节点特征中,会导致信息的损失。而距离较远的节点到当前节点的链路最长,最容易丢失信息,这些丢失的长程依赖,阻止了网络更全面地利用图上信息[12]。这种现象在边较为稀疏的 Graph 上比较常见(例如社交网络),可以考虑添加 attention 等机制。

over-fitting 网络不能太宽(具体表现:加宽网络性能下降)

一些同学在解决 over-squashing 问题时的直观思路是,扩大节点特征向量的维度。这样做在一定范围内是可以的。但是,随着节点特征向量维度的增长,网络中全连接层也势必会增大。而较宽的网络虽然能够在训练集上拟合更多特征,却容易在验证集上产生性能的下滑(即过拟合现象)。这时,我们可能需要结合预训练、归一化、正则化等策略解决问题[13]

随着图卷积的日益成熟,深层的图卷积已经在各个领域开花结果啦~ 相信在不久的将来,pruning 和 NAS 还会碰撞出新的火花,童鞋们加油呀!另外,有的同学私信想看我的论文中是怎样处理 over-smooth 的~可是由于写作技巧太差我的论文还没发粗去(最开始导师都看不懂我写的是啥,感谢一路走来没有放弃我的导师和师兄,现在已经勉强能看了),等以后有机会再分享叭~

参考

  1. ^abDeeper Insights into Graph Convolutional Networks for Semi-Supervised Learning https://arxiv.org/abs/1801.07606
  2. ^Tackling Over-Smoothing for General Graph Convolutional Networks https://arxiv.org/abs/2008.09864
  3. ^A Note on Over-Smoothing for Graph Neural Networks https://arxiv.org/abs/2006.13318
  4. ^Revisiting Over-smoothing in Deep GCNs https://arxiv.org/abs/2003.13663
  5. ^Measuring and Relieving the Over-smoothing Problem for Graph Neural Networks from the Topological View  https://arxiv.org/abs/1909.03211
  6. ^Semi-supervised classification with graph convolutional networks https://arxiv.org/abs/1609.02907
  7. ^Representation learning on graphs with jumping knowledge networks https://arxiv.org/abs/1806.03536
  8. ^Can GCNs Go as Deep as CNNs https://arxiv.org/abs/1904.03751
  9. ^Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks https://arxiv.org/abs/1905.07953
  10. ^N-GCN: Multi-scale graph convolution for semi-supervised node classification https://arxiv.org/abs/1802.08888
  11. ^Residual or Gate? Towards Deeper Graph Neural Networks for Inductive Graph Representation Learning https://arxiv.org/abs/1904.08035
  12. ^On the Bottleneck of Graph Neural Networks and its Practical Implications https://arxiv.org/abs/2006.05205
  13. ^Effective Training Strategies for Deep Graph Neural Networks https://arxiv.org/abs/2006.07107

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有