如何评价ST-GCN动作识别算法？第1页

tczhangzhi 网友的相关建议:

质胜文则野，文胜质则史，文质彬彬，然后君子。

泻药。

GCN 升温的这两年里，动作识别领域出了不少好文章。这也不奇怪，毕竟动作识别以前就有 Graph 的相关应用，套用一下 GCN 总是会有提升的。不过，一年过去了，超过 Spatial Temporal Graph Convolution Networks for Skeleton Based Action Recognition 的工作仍然寥寥可数。我等屁民还是挺佩服的~

还在这个领域耕耘的同学们也不用灰心丧气，ST-GCN 作为一篇开山作（或者说占坑文），很多地方都从简了。要想提升不太困难~ 用大粗话来说，作者的主要工作就两点：

使用 OpenPose 处理了视频，提出了一个数据集
结合 GCN 和 TCN 提出了模型，在数据集上效果还不错

但是，这篇文章在工程和学术上都做到了文质彬彬：

从质上讲，文中针对性的改进着实有效，结果比较令人满意
从文上讲，故事讲的很棒，从新的视角整合了卷积、图卷积和时间卷积
从代码讲，结构清晰、实现优雅，可以当做模板

很多同学比较关心 st-gcn 到底做了什么，这里用个简单的思路说说我的理解。

OpenPose 预处理

OpenPose 是一个标注人体的关节（颈部，肩膀，肘部等），连接成骨骼，进而估计人体姿态的算法。作为视频的预处理工具，我们只需要关注 OpenPose 的输出就可以了。

总的来说，视频的骨骼标注结果维数比较高。在一个视频中，可能有很多帧（Frame）。每个帧中，可能存在很多人（Man）。每个人又有很多关节（Joint）。每一个关节又有不同特征（位置、置信度）。

对于一个 batch 的视频，我们可以用一个 5 维矩阵表示。

代表视频的数量，通常一个 batch 有 256 个视频（其实随便设置，最好是 2 的指数）。
代表关节的特征，通常一个关节包含等 3 个特征（如果是三维骨骼就是 4 个）。
代表关键帧的数量，一般一个视频有 150 帧。
代表关节的数量，通常一个人标注 18 个关节。
代表一帧中的人数，一般选择平均置信度最高的 2 个人。
所以，OpenPose 的输出，也就是 ST-GCN 的输入，形状为。

想要搞 End2End 的同学还是要稍微关注一下 OpenPose 的实现的。最近还有基于 heatmap 的工作，效果也不错~

ST-GCN 网络结构

论文中给出的模型描述很丰满，要是只看骨架，网络结构如下：

主要分为三部分：

首先，对输入矩阵进行归一化，具体实现如下：

       N, C, T, V, M = x.size() # 进行维度交换后记得调用 contiguous 再调用 view 保持显存连续 x = x.permute(0, 4, 3, 1, 2).contiguous() x = x.view(N * M, V * C, T) x = self.data_bn(x) x = x.view(N, M, V, C, T) x = x.permute(0, 1, 3, 4, 2).contiguous() x = x.view(N * M, C, T, V)

归一化是在时间和空间维度下进行的（）。也就是将一个关节在不同帧下的位置特征（x 和 y 和 acc）进行归一化。

这个操作是利远大于弊的：

关节在不同帧下的关节位置变化很大，如果不进行归一化不利于算法收敛
在不同 batch 不同帧下的关节位置基本上服从随机分布，不会造成不同 batch 归一化结果相差太大，而导致准确率波动。

接着，通过 ST-GCN 单元，交替的使用 GCN 和 TCN，对时间和空间维度进行变换：

       # N*M(256*2)/C(3)/T(150)/V(18) Input：[512, 3, 150, 18] ST-GCN-1：[512, 64, 150, 18] ST-GCN-2：[512, 64, 150, 18] ST-GCN-3：[512, 64, 150, 18] ST-GCN-4：[512, 64, 150, 18] ST-GCN-5：[512, 128, 75, 18] ST-GCN-6：[512, 128, 75, 18] ST-GCN-7：[512, 128, 75, 18] ST-GCN-8：[512, 256, 38, 18] ST-GCN-9：[512, 256, 38, 18]

空间维度是关节的特征（开始为 3），时间的维度是关键帧数（开始为 150）。在经过所有 ST-GCN 单元的时空卷积后，关节的特征维度增加到 256，关键帧维度降低到 38。

个人感觉这样设计是因为，人的动作阶段并不多，但是每个阶段内的动作比较复杂。比如，一个挥高尔夫球杆的动作可能只需要分解为 5 步，但是每一步的手部、腰部和脚部动作要求却比较多。

最后，使用平均池化、全连接层（或者叫 FCN）对特征进行分类，具体实现如下：

       # self.fcn = nn.Conv2d(256, num_class, kernel_size=1)  # global pooling x = F.avg_pool2d(x, x.size()[2:]) x = x.view(N, M, -1, 1, 1).mean(dim=1) # prediction x = self.fcn(x) x = x.view(x.size(0), -1)

Graph 上的平均池化可以理解为对 Graph 进行 read out，即汇总节点特征表示整个 graph 特征的过程。这里的 read out 就是汇总关节特征表示动作特征的过程了。通常我们会使用基于统计的方法，例如对节点求等等。mean 鲁棒性比较好，所以这里使用了 mean。

插句题外话，这里的卷积和全连接层等效，最近在用 matconvnet 的时候，发现它甚至不提供全连接层，只使用的卷积。

GCN

从结果上看，最简单的图卷积似乎已经能取得很好的效果了，具体实现如下：

       def normalize_digraph(A):     Dl = np.sum(A, 0)     num_node = A.shape[0]     Dn = np.zeros((num_node, num_node))     for i in range(num_node):         if Dl[i] > 0:             Dn[i, i] = Dl[i]**(-1)     AD = np.dot(A, Dn)     return AD

作者在实际项目中使用的图卷积公式就是：

公式可以进行如下化简：

其实就是以边为权值对节点特征求加权平均。其中，可以理解为卷积核。如果不了解图卷积可以看这里。

Multi-Kernal

考虑到动作识别的特点，作者并未使用单一的卷积核，而是使用『图划分』，将分解成了。（作者其实提出了几种不同的图划分策略，但是只有这个比较好用）

表示的所有边如上图右侧所示：

两个节点之间有一条双向边
节点自身有一个自环

作者结合运动分析研究，将其划分为三个子图，分别表达向心运动、离心运动和静止的动作特征。

对于一个根节点，与它相连的边可以分为 3 部分。

第 1 部分连接了空间位置上比本节点更远离整个骨架重心的邻居节点（黄色节点），包含了离心运动的特征。
第 2 部分连接了更为靠近重心的邻居节点（蓝色节点），包含了向心运动的特征。
第 3 部分连接了根节点本身（绿色节点），包含了静止的特征。

使用这样的分解方法，1 个图分解成了 3 个子图。卷积核也从 1 个变为了 3 个，即变为。3 个卷积核的卷积结果分别表达了不同尺度的动作特征。要得到卷积的结果，只需要使用每个卷积核分别进行卷积，在进行加权平均（和图像卷积相同）。

具体实现如下：

       A = [] for hop in valid_hop:     a_root = np.zeros((self.num_node, self.num_node))     a_close = np.zeros((self.num_node, self.num_node))     a_further = np.zeros((self.num_node, self.num_node))     for i in range(self.num_node):         for j in range(self.num_node):             if self.hop_dis[j, i] == hop:                 if self.hop_dis[j, self.center] == self.hop_dis[                         i, self.center]:                     a_root[j, i] = normalize_adjacency[j, i]                 elif self.hop_dis[j, self.                                   center] > self.hop_dis[i, self.                                                          center]:                     a_close[j, i] = normalize_adjacency[j, i]                 else:                     a_further[j, i] = normalize_adjacency[j, i]     if hop == 0:         A.append(a_root)     else:         A.append(a_root + a_close)         A.append(a_further) A = np.stack(A) self.A = A

Multi-Kernal GCN

现在，我们可以写出带有个卷积核的图卷积表达式了：

表达式可以用爱因斯坦求和约定表示。其中，

表示所有视频中的人数（batch * man）
表示卷积核数（使用上面的分解方法 k=3）
表示关节特征数（64 ... 128）
表示关键帧数（150 ... 38）
和表示关节数（使用 OpenPose 的话有 18 个节点）

对求和代表了节点的加权平均，对求和代表了不同卷积核 feature map 的加权平均，具体实现如下：

       # self.conv = nn.Conv2d( #             in_channels, #             out_channels * kernel_size, #             kernel_size=(t_kernel_size, 1), #             padding=(t_padding, 0), #             stride=(t_stride, 1), #             dilation=(t_dilation, 1), #             bias=bias)  x = self.conv(x) n, kc, t, v = x.size() x = x.view(n, self.kernel_size, kc//self.kernel_size, t, v) x = torch.einsum('nkctv,kvw->nctw', (x, A)) return x.contiguous(), A

如果要类比的话，其实和 GoogleNet 的思路有些相似：

都在一个卷积单元中试图利用不同感受野的卷积核，提取不同分量的特征。

TCN

GCN 帮助我们学习了到空间中相邻关节的局部特征。在此基础上，我们需要学习时间中关节变化的局部特征。如何为 Graph 叠加时序特征，是图网络面临的问题之一。这方面的研究主要有两个思路：时间卷积（TCN）和序列模型（LSTM）。

ST-GCN 使用的是 TCN，由于形状固定，我们可以使用传统的卷积层完成时间卷积操作。为了便于理解，可以类比图像的卷积操作。st-gcn 的 feature map 最后三个维度的形状为，与图像 feature map 的形状相对应。

图像的通道数对应关节的特征数。
图像的宽对应关键帧数。
图像的高对应关节数。

在图像卷积中，卷积核的大小为『w』『1』，则每次完成 w 行像素，1 列像素的卷积。『stride』为 s，则每次移动 s 像素，完成 1 行后进行下 1 行像素的卷积。

在时间卷积中，卷积核的大小为『temporal_kernel_size』『1』，则每次完成 1 个节点，temporal_kernel_size 个关键帧的卷积。『stride』为 1，则每次移动 1 帧，完成 1 个节点后进行下 1 个节点的卷积。

具体实现如下：

       padding = ((kernel_size[0] - 1) // 2, 0)  self.tcn = nn.Sequential(     nn.BatchNorm2d(out_channels),     nn.ReLU(inplace=True),     nn.Conv2d(         out_channels,         out_channels,         (temporal_kernel_size, 1),         (1, 1),         padding,     ),     nn.BatchNorm2d(out_channels),     nn.Dropout(dropout, inplace=True), )

再列举几个序列模型的相关工作，感兴趣的同学可以尝试一下：

AGC-Seq2Seq 使用的是 Seq2Seq + Attention。
ST-MGCN 使用的是 CGRNN。
DCRNN 使用的是 GRU。

Attention

作者在进行图卷积之前，还设计了一个简易的注意力模型（ATT）。如果不了解图注意力模型可以看这里。

       # 注意力参数 # 每个 st-gcn 单元都有自己的权重参数用于训练 self.edge_importance = nn.ParameterList([     nn.Parameter(torch.ones(self.A.size()))     for i in self.st_gcn_networks ]) # st-gcn 卷积 for gcn, importance in zip(self.st_gcn_networks, self.edge_importance):     print(x.shape)     # 关注重要的边信息     x, _ = gcn(x, self.A * importance)

其实很好理解，在运动过程中，不同的躯干重要性是不同的。例如腿的动作可能比脖子重要，通过腿部我们甚至能判断出跑步、走路和跳跃，但是脖子的动作中可能并不包含多少有效信息。

因此，ST-GCN 对不同躯干进行了加权（每个 st-gcn 单元都有自己的权重参数用于训练）。

结束

上面的内容主要是在讲『文质彬彬』中的『质』，其实我感觉『文』才是比较难的部分。在写论文的过程中，找到一个好的视角，流畅地表达出模型的可解释性是非常可贵的。

研一这一年，导师都在教我如何讲好一个故事，与君共勉吧~

如何评价ST-GCN动作识别算法？的其他答案点击这里

如何评价ST-GCN动作识别算法？第1页

OpenPose 预处理

ST-GCN 网络结构

GCN

Multi-Kernal

Multi-Kernal GCN

TCN

结束

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价ST-GCN动作识别算法？ 第1页

OpenPose 预处理

ST-GCN 网络结构

GCN

Multi-Kernal

Multi-Kernal GCN

TCN

结束

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价ST-GCN动作识别算法？第1页