我在CMU开始学做机器翻译的时候,正是基于规则的机器翻译即将退出历史舞台的时刻。当时我选了两门语言学的课程(都是Lori Levin的课),并且生生用LISP手写了一个基于生成语法的机器翻译系统。然而在课堂上我发现,语言学往往在面对真实世界的语言时只能采用不断定义新的概念来解释原来体系无法解决的现象。在很短的折腾之后,我基本确信完全基于规则的系统是不可能成功的。
我研究生时代的导师是Stephan Vogel,他是Franz Och (注:德语中Ch 发 h音,因此问题中翻译成“奥驰”是不对的,应该是“奥赫”)的师兄,也是问题中所说的几位德国人的师兄。所有这些人都是大神Hermann Ney的学生。因此可以说,这是一个很大的学派。在2008年初,Stephan带我到谷歌参加NSF CluE项目的会议(MGIZA++, PGIZA++ 和 Chaski 都是该项目资助),和Franz聊了大概一小时。为了秀自己的牛逼,我尝试跟Franz吹吹我对中文语法解析的理解——结果自然是拍在了马腿上,Franz对此完全没兴趣,只说“Just get more data”。可见谷歌翻译从一开始就遵循着这种数据为王的思路(我对此有个说法,叫大力出奇迹的德国学派)。
一般当统计方法陷入瓶颈的时候,语言学就会迅速加入进来。在2009年之后我们会看到大量的“基于语法”,“基于语义”的技术在各大会议刷榜,我的研究方向也迅速从词对齐变成了语法,再变到语义,最后悲催的选择了《基于语义角色标注的机器翻译》作为博士课题。工作后我也发现了另一个学派依然存在。在不为人知的角落里,仍然有人从规则出发,加入统计来死磕德国队。在我供职的第一个组里还有语言学家不断进行分析,而我也时常需要直接修改LISP代码,分析各种奇葩的语法现象。离开老东家两年了,不知道在神经网络机器翻译大潮下是否还是如此。
在神经网络机器翻译出现之后,显然极其对谷歌的胃口——当你面对超过一百种语言的时候,任何尝试加入语言学知识的尝试都是极其昂贵的。一种完全语言无关的算法在维护上的方便是无法比拟的。在可以预测的将来,我认为这种大力出奇迹的方法仍然会是类似谷歌这种大规模通用机器翻译系统的最佳选择,而语言学规则可能会在定制系统中找到其应用。