这个问题好像是在用另一种方式问,语言/方言/土话/口音等等的差异是什么。只是从语言演化的角度问了。
首先,在语言、方言或者任何表示言语系统的名称的定义上,我们没有达成共识。你觉得突厥语系的语言是一个个不同的语言吗?但它们的年龄大概只有不到两千年[1],而达吉斯坦(俄罗斯)的Dargwa诸方言,时常被称为“方言”,它们的分化时间可能要超过两千年(Forker 2020)[2]。
所以我们可以暂时不那么把这件事放在心上,这些名称可以说有点被随便用了,我们很可能需要新的、更加科学的术语来称呼它们。
所以,在语言演化的过程中,是否存在一个点,在这个点之前还是语言A,在这个点之后就成了语言B了呢?当我们放下了对“语言”定义的执着以后,我们就会发现,这个问题其实已经不成立了。这就如同在问人类进化的过程中,是否有一天,有一个古猿妈妈生下来的宝宝不再是古猿,而是人类一样。我们知道物种是在不断演化的,从古猿变成人的过程不能个体地看待。这样的问题并不是一个科学家会感兴趣的问题。
再举一个例子,尽管我们法律上规定,十八岁被定义为“成年人”,但是十七岁最后一天的你,和十八岁第一天的你,并没有本质上的区别,亦没有比较的意义。但我们可以把十五岁的你和十八岁的你比较,十八岁的你很可能在体力、心智上都比十五岁要进步不少,可以定义为成长中的两个有比较意义的阶段,但是究竟是在哪一天,哪一秒,你从十五岁的状态转变成十八岁的状态呢?你自己可能都回忆不起来。
如果你把语言的演化看成是在一个个时间的节点(point)中进行的,你就是在假设在这些点上,语言是静止的,那么就很可能会堕入“飞矢不动”的悖论中:语言的演化就像飞行的箭,而飞行的位移是可以拆分成一个一个点,并跟每个时间点对应的。但正如Lind (2003)[3]所说的,我们不能认为飞行的箭在每一个时间点会占据一个空间,不管我们给出的时间段有多小,甚至小到没有。在任意时刻,语言都不能被认为是被限定在一个框框里,有被决定的形态。这一段涉及到哲学的内容,我不是特别懂,所以就说到这里,不再继续讨论了。对于芝诺悖论,有很多人都有很深的理解,可以留言教我。
不论是从语言的定义上,还是从语言的演化上,这个问题都显得无关紧要了。
虽然我们无法定义语言、方言等一系列麻烦的名称,但我们仍然可以计算语言的距离,我们可以知道两种(不管能不能互通)的“话”,究竟有多不同。只是我们似乎从来没有定义不同到什么程度算是两种方言,又疏远到什么程度算是两种语言。
我在这里只介绍最原始的方法。一般来说,我们计算语言距离用到的是Levenshtein Distance (LD)。简单地说,就是把两个亲属语言中的同源词找出来,然后比较这些词的音段,求究竟经过了多少变动,才能从词A变成词B(当然,我们也可以把完全没有亲属关系的语言弄过来进行比较)。
这样我们可以列出一个矩阵,并根据以下公式填写矩阵的内容:
比如下图中(图片来源点击此处),my和me的不同来自于y和e的替换。我们按公式,在(1,1)处填写0,因为从M到M没有任何置换或者增减。但是我们在(2,2)处填写1,因为从y到e发生了一次替换。其它的空也按这样的方式填写。最终矩阵右下角的数值就是LD的数值。也就是从my到me的最简过程需要用到的变化次数。
当然,对于大数据来说,LD用笔算是不太现实的,用电脑可以很快地做出来,所以不理解以上的计算方式完全不影响,你只要在网上复制一个代码,稍加修改,让其适应你的数据,就可以了。
LD的计算还有一些其它的品种,比如LDN (Levenshtein distanced normalized),即把LD除以较长的单词的长度;还有LDND (Levenshtein distanced normalized divided),考虑到了两个单词的相似可能仅仅是偶然,等等。
我们可以根据得出的数据,估计两种语言之间的距离。但我们的结果也仅仅是知道一下:“噢!这俩语言挺相似的!”、“额?这两个语言距离太远了吧?”等等。
因为对语言距离的估算太依赖于词汇,而其它信息尤其是语法上的特征很少有人尝试,而且很难把几个互不相干的范畴综合性地估算,所以我个人不是特别感兴趣。或许它有一天能给语言的定义带来一定的帮助,所以希望相关专家能够努力完善他们的方法。
也希望对相关领域更加了解的人在留言区赐教。