要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？第1页

yao-dong-27 网友的相关建议:

研究可解释性首先要解决的问题是：

你想解释给谁听？

谁需要你来解释？

谁能听懂你的解释？

如果这三个问题中的谁不是同一批人，那么我觉得研究可解释性是徒劳的。

最坏的结果就是你想给解释的人不需要解释，需要听解释的人又听不懂，听得懂的人你解释也没用。

举个例子，在哈利波特的世界里，魔法是有可解释性的，因为这个世界把我提到的问题里的三个谁统一了，这个谁就是哈利波特罗恩等正在成长的小巫师们，他们需要魔法的解释，他们也能听懂，老巫师们也想解释给他们听，这就是霍格沃兹魔法学校存在的意义。但是，如果有巫师试图把魔法解释给麻瓜听，那会是一场悲剧。

superbrother-58 网友的相关建议:

深度学习得以飞速发展得益于其在多个领域取得突破传统方法的效果，因此其可解释性很大程度就是去解释“效果”好。从这个角度出发，可解释性问题包括但不限于以下两大类：

为什么深度学习的效果比传统方法好？

深度学习技术的特点就是通过多层网络、大量参数实现特征的自动提取，要弄清楚效果好的原因，就是去找到网络结构、模型参数与任务中关键特征的关系

为什么A结构的模型比B结构的模型效果好？

通过实验，总能发现不同结构的模型在结果上有高有低，（这里指结果有显著性差异）。那么能够在不涉及任务背景、数据分布的一般情况下，给出模型效果好坏的理论分析方法（也成为模型的泛化能力、capacity等），当然还包括训练tricks的理论分析

1.深度学习模型理解

在CV、NLP的问题背景下，尝试去剖析深度学习模型对于真实物理情形的刻画，已经有不少的经典工作：

CNN的feature map可视化

不同卷积层feature map的对比、各channel的贡献及训练中梯度的情况等等，而且已有成熟的工具箱实现这些工作。

pytorch utkuozbulak/pytorch-cnn-visualizations

tensorflow tensorflow/lucid

Attention的align信息

利用Attention的align信息，去理解模型对于语言关联的刻画。

RNN中长距离时序关联刻画

利用LSTM中的cell state信息去理解其对于序列中长距离依赖性的建模能力（如果不理解原理，可以看我的另一个回答LSTM如何来避免梯度弥散和梯度爆炸？）

利用降维技术（t-SNE等）理解高维特征的分布

将不同类别样本fc层的对应的高维特征进行降维，然后在二维、三维空间中进行可视化，可以理解不同类别之间的区分度。

通过对训练后的参数进行定量计算及可视化分析解释道路网络中交通流的时空关联规律

这是我自己的一部分研究内容，感兴趣的朋友可以阅读如下论文中的4.3节，整节的内容通过多种方式对GCN及attention等深度学习技术在交通场景下提取到的时空关联性进行了分析。

Zhang, Z., Li, M., Lin, X., Wang, Y., & He, F. (2019). Multistep speed prediction on traffic networks: A deep learning approach considering spatio-temporal dependencies.Transportation Research Part C: Emerging Technologies,105, 297-322.

类似的工作还有很多，这里不一一列举了。

但是，需要指出的是：上述的研究基本是对于模型的深入理解，可以认为是理论上的“小修小补”，这样的工作无法使深度学习成为一门科学。要知道概率论在建立三条公理之后，才迎来突破性发展，成为了一门学科。

2.深度学习理论

计算学习理论利用“计算”提供了机器学习的理论基础，其目的是分析模型学习能力的本质，提供理论依据，指导模型设计。

计算学习理论的核心是度量模型的泛化能力(generalization ability)，主要成果可以归结为两方面：

PAC learning给出经验误差与泛化误差之间的关系
Rademacher complexity衡量模型的复杂度（capacity）（VC维也就是这个方向的成果）

然而，深度学习的实验结果与这两个理论在传统机器学习问题上的结果都不吻合，由此诞生了两大深度学习理论研究方向。

2.1 Rethinking Generalization——解决PAC learning与深度模型的不符合

PAC learning关于经验误差与泛化误差，给出了这样的结论：

也就是说泛化误差（测试误差）的波动范围与模型的复杂性成为正比，与数据样本成反比。即对于同一个给定数据量的任务，模型越复杂，泛化误差的波动范围越大，准确性就可能越低！

然而以下图中深度学习模型在CV任务上的效果对比为例，直观表明：模型越复杂，预测误差越小！

这显然与已有结论背道而驰，为了解释这个现象，学者们开始尝试重新定义深度学习模型的泛化能力（Rethinking Generalization）。

代表性的研究有：

S Sun, et al. On the Depth of Deep Neural Networks: A Theoretical View. AAAI 2016
C Zhang, et al. Understanding deep learning requires rethinking generalization. ICLR 2017. (Best Paper)
PL Bartlett, et al. Spectrally-normalized margin bounds for neural networks.NIPS 2017
S Arora, et al. Stronger generalization bounds for deep nets via a compression approach. ICML 2018
M Hardt, et al. Train faster, generalize better: Stability of stochastic gradient descent. ICML 2016
Mou, Wenlong, et al. “Generalization bounds of SGLD for non-convex learning: Two theoretical viewpoints.” COLT 2018

2.2 Overparameterization——解决Rademacher complexity与深度模型的不符合

如果利用Rademacher complexity衡量深度模型的复杂度，给出了这样的结论：

结果表示复杂度与网络层数 成指数相关，即层数越深，参数数量越多，复杂度越大。换而言之，对于同一个模型，增加的层数或者参数量超出一定范围时，模型会overfit，预测误差会随之变大。

然而深度学习模型又给不了不相符的实验结果，在如下MNIST、CIFAR两个数据集上，发现增加模型的参数，训练误差可以不断减小，直至0。但是测试误差并没有随之增加，甚至会略微减小！

这又重新引起了学术界对于模型复杂度，特别是overparameterization的新一轮思考，代表性的论文有：

Neyshabur, et al. “In search of the real inductive bias: On the role of implicit regularization in deep learning.” arXiv 2014.
Neyshabur, Behnam, et al. “Towards understanding the role of over-parametrization in generalization of neural networks.” ICLR 2019
R Livni et al.“On the Computational Efficiency of Training Neural Networks”, NIPS 2014
Du, Simon S., et al. “Gradient descent provably optimizes over-parameterized neural networks.” ICLR 2019
Arora, et al. “Fine-grained analysis of optimization and generalization for overparameterized two-layer neural networks.” ICML 2019

也许目前深度学习模型的理论瓶颈就犹如物理学史上的“两朵乌云”，更广阔的天地亟待探索！

很多读者朋友反馈：理论部分的基础要求较高，很难直接入门。这里推荐一些学习资料。

关于机器学习的数学理论

人工智能的数理基础专题论坛

基于“第一原理”的卷积神经网络

打开神经网络的黑箱

可解释性定义与可解释模型的学习

另外推荐一下周志华教授团队所编著的《机器学习理论导引》，对于进一步深入学习相关内容会有不少帮助！

zhang-xu-99-99 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

rumor-lee 网友的相关建议:

这个问题问得很好啊，我的建议是看今年年会的摘要集：

中国化学会第32届学术年会 - 论文检索系统 - 中国化学会

可以看到有很多分会，不过计算化学分布得比较散，夹杂在各个分会中。各分会的主题可以从这里找到，可能相关的包括：

有一些主题是理论计算夹杂着实验的，还需要仔细辨别。回到摘要集，以第一分会为例：

中国化学会第32届学术年会摘要集-第一分会：物理化学前沿 - 论文检索系统 - 中国化学会

可以看到题目和单位全都标出来了，而且还可以下载。

显然，能找到相关方向的摘要的单位，就是开设了相关方向的院校，甚至还能精确到具体的某个课题组。

要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？的其他答案点击这里

要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？第1页

1.深度学习模型理解

2.深度学习理论

相关话题

前一个讨论

下一个讨论

相关的话题

要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？ 第1页

1.深度学习模型理解

2.深度学习理论

相关话题

前一个讨论

下一个讨论

相关的话题

要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？第1页