研究可解释性首先要解决的问题是:
你想解释给谁听?
谁需要你来解释?
谁能听懂你的解释?
如果这三个问题中的 谁 不是同一批人,那么我觉得研究可解释性是徒劳的。
最坏的结果就是你想给解释的人不需要解释,需要听解释的人又听不懂,听得懂的人你解释也没用。
举个例子,在哈利波特的世界里,魔法是有可解释性的,因为这个世界把我提到的问题里的三个谁统一了,这个谁就是 哈利波特 罗恩等正在成长的小巫师们,他们需要魔法的解释,他们也能听懂,老巫师们也想解释给他们听,这就是霍格沃兹魔法学校存在的意义。但是,如果有巫师试图把魔法解释给麻瓜听,那会是一场悲剧。
深度学习得以飞速发展得益于其在多个领域取得突破传统方法的效果,因此其可解释性很大程度就是去解释“效果”好。从这个角度出发,可解释性问题包括但不限于以下两大类:
深度学习技术的特点就是通过多层网络、大量参数实现特征的自动提取,要弄清楚效果好的原因,就是去找到网络结构、模型参数与任务中关键特征的关系
通过实验,总能发现不同结构的模型在结果上有高有低,(这里指结果有显著性差异)。那么能够在不涉及任务背景、数据分布的一般情况下,给出模型效果好坏的理论分析方法(也成为模型的泛化能力、capacity等),当然还包括训练tricks的理论分析
在CV、NLP的问题背景下,尝试去剖析深度学习模型对于真实物理情形的刻画,已经有不少的经典工作:
不同卷积层feature map的对比、各channel的贡献及训练中梯度的情况等等,而且已有成熟的工具箱实现这些工作。
pytorch utkuozbulak/pytorch-cnn-visualizations
tensorflow tensorflow/lucid
利用Attention的align信息,去理解模型对于语言关联的刻画。
利用LSTM中的cell state信息去理解其对于序列中长距离依赖性的建模能力(如果不理解原理,可以看我的另一个回答LSTM如何来避免梯度弥散和梯度爆炸?)
将不同类别样本fc层的对应的高维特征进行降维,然后在二维、三维空间中进行可视化,可以理解不同类别之间的区分度。
这是我自己的一部分研究内容,感兴趣的朋友可以阅读如下论文中的4.3节,整节的内容通过多种方式对GCN及attention等深度学习技术在交通场景下提取到的时空关联性进行了分析。
Zhang, Z., Li, M., Lin, X., Wang, Y., & He, F. (2019). Multistep speed prediction on traffic networks: A deep learning approach considering spatio-temporal dependencies.Transportation Research Part C: Emerging Technologies,105, 297-322.
类似的工作还有很多,这里不一一列举了。
但是,需要指出的是:上述的研究基本是对于模型的深入理解,可以认为是理论上的“小修小补”,这样的工作无法使深度学习成为一门科学。要知道概率论在建立三条公理之后,才迎来突破性发展,成为了一门学科。
计算学习理论利用“计算”提供了机器学习的理论基础,其目的是分析模型学习能力的本质,提供理论依据,指导模型设计。
计算学习理论的核心是度量模型的泛化能力(generalization ability),主要成果可以归结为两方面:
然而,深度学习的实验结果与这两个理论在传统机器学习问题上的结果都不吻合,由此诞生了两大深度学习理论研究方向。
2.1 Rethinking Generalization——解决PAC learning与深度模型的不符合
PAC learning关于经验误差与泛化误差,给出了这样的结论:
也就是说泛化误差(测试误差)的波动范围与模型的复杂性成为正比,与数据样本成反比。即对于同一个给定数据量的任务,模型越复杂,泛化误差的波动范围越大,准确性就可能越低!
然而以下图中深度学习模型在CV任务上的效果对比为例,直观表明:模型越复杂,预测误差越小!
这显然与已有结论背道而驰,为了解释这个现象,学者们开始尝试重新定义深度学习模型的泛化能力(Rethinking Generalization)。
代表性的研究有:
2.2 Overparameterization——解决Rademacher complexity与深度模型的不符合
如果利用Rademacher complexity衡量深度模型的复杂度,给出了这样的结论:
结果表示复杂度与网络层数 成指数相关,即层数越深,参数数量越多,复杂度越大。换而言之,对于同一个模型,增加的层数或者参数量超出一定范围时,模型会overfit,预测误差会随之变大。
然而深度学习模型又给不了不相符的实验结果,在如下MNIST、CIFAR两个数据集上,发现增加模型的参数,训练误差可以不断减小,直至0。但是测试误差并没有随之增加,甚至会略微减小!
这又重新引起了学术界对于模型复杂度,特别是overparameterization的新一轮思考,代表性的论文有:
也许目前深度学习模型的理论瓶颈就犹如物理学史上的“两朵乌云”,更广阔的天地亟待探索!
很多读者朋友反馈:理论部分的基础要求较高,很难直接入门。这里推荐一些学习资料。
另外推荐一下周志华教授团队所编著的《机器学习理论导引》,对于进一步深入学习相关内容会有不少帮助!
女王:求求题主放过我,我可不敢有什么政绩。。。
这个问题问得很好啊,我的建议是看今年年会的摘要集:
中国化学会第32届学术年会 - 论文检索系统 - 中国化学会
可以看到有很多分会,不过计算化学分布得比较散,夹杂在各个分会中。各分会的主题可以从这里找到,可能相关的包括:
有一些主题是理论计算夹杂着实验的,还需要仔细辨别。回到摘要集,以第一分会为例:
中国化学会第32届学术年会摘要集-第一分会:物理化学前沿 - 论文检索系统 - 中国化学会
可以看到题目和单位全都标出来了,而且还可以下载。
显然,能找到相关方向的摘要的单位,就是开设了相关方向的院校,甚至还能精确到具体的某个课题组。