当前深度学习技术主要是data driven的,即对一个特定任务来说,只要增加训练数据的规模,深度学习模型的表现就可以得到提高。但是发展到今天,这种思路面临很多挑战。主要面临下面几个问题:
- 很多领域(如医疗,教育),很难获取大量的监督数据或者数据的标注成本过高。
- 训练数据规模再大,也有难以覆盖的情况。例如聊天机器人,你不可能穷尽所有可能的答案。而且很多答案,也是随时间变化的(例如明星年龄,配偶)。因此仅仅依靠大规模的训练语料,并不能解决这些问题。
- 通用深度学习模型,直接应用到具体问题,表现(效果,性能,占用资源等)可能不尽如人意。这就要求根据特定的问题和数据,来定制和优化深度学习网络结构。这个是当前研究最多最热的地方。
- 训练的问题。包括网络层数增加带来的梯度衰减,如何更有效的进行大规模并行训练等等。
为了解决上面的问题,当前的研究前沿主要包括以下几个方向:
-
引入外部知识(如知识图谱,WordNet)
Knowledge-Based Semantic Embedding for Machine Translation
A Neural Knowledge Language Model
-
深度学习与传统方法的结合。
- 人工规则与神经网络的结合
Harnessing Deep Neural Networks with Logic Rules - 贝叶斯与神经网络的结合
Human-level concept learning through probabilistic program induction(论文讲的是用贝叶斯让机器模仿人写字的,但是对深度学习有非常大的启发价值) - 迁移学习与神经网络的结合
- 强化学习与神经网络的结合
Mastering the game of Go with deep neural networks and tree search - 图模型与神经网络的结合
Bidirectional LSTM-CRF Models for Sequence Tagging
A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues
-
无监督的深度生成模型。
Generative Adversarial Networks
- 新的网络结构
Highway Networks
Neural Turing Machines
End-To-End Memory Networks
Deep Residual Learning for Image Recognition
Mollifying Networks - 新的训练方法
Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift
从具体研究方向上来说,我觉得深度学习在图像和语音上已经非常成熟,因为图像信号和语音信号,都是比较原始的信号,从原始信号中抽取特征对人比较困难,但对深度学习模型比较容易,因此深度学习技术率先在这两个领域取得巨大成功。而NLP领域,因为文字是一种high level的信息,而且从文字到语义,存在一个比较大的语义鸿沟,因此深度学习技术在NLP上存在很大的挑战,但是挑战也意味着机会,因此除了传统NLP领域的研究人大量开始发力深度学习,许多其他领域的人(如机器学习,统计),也开始向NLP进军(Bengio组的人开始搞机器翻译,语言模型,对话系统等等)。
上面是我一些不太成熟的看法,欢迎大家指正交流。