百科问答小站 logo
百科问答小站 font logo



一种语言演变为另一种语言时,其节点在哪里?是什么决定了这个节点? 第1页

  

user avatar   zdimze 网友的相关建议: 
      

这个问题好像是在用另一种方式问,语言/方言/土话/口音等等的差异是什么。只是从语言演化的角度问了。

首先,在语言、方言或者任何表示言语系统的名称的定义上,我们没有达成共识。你觉得突厥语系的语言是一个个不同的语言吗?但它们的年龄大概只有不到两千年[1],而达吉斯坦(俄罗斯)的Dargwa诸方言,时常被称为“方言”,它们的分化时间可能要超过两千年(Forker 2020)[2]


所以我们可以暂时不那么把这件事放在心上,这些名称可以说有点被随便用了,我们很可能需要新的、更加科学的术语来称呼它们。

所以,在语言演化的过程中,是否存在一个点,在这个点之前还是语言A,在这个点之后就成了语言B了呢?当我们放下了对“语言”定义的执着以后,我们就会发现,这个问题其实已经不成立了。这就如同在问人类进化的过程中,是否有一天,有一个古猿妈妈生下来的宝宝不再是古猿,而是人类一样。我们知道物种是在不断演化的,从古猿变成人的过程不能个体地看待。这样的问题并不是一个科学家会感兴趣的问题。

再举一个例子,尽管我们法律上规定,十八岁被定义为“成年人”,但是十七岁最后一天的你,和十八岁第一天的你,并没有本质上的区别,亦没有比较的意义。但我们可以把十五岁的你和十八岁的你比较,十八岁的你很可能在体力、心智上都比十五岁要进步不少,可以定义为成长中的两个有比较意义的阶段,但是究竟是在哪一天,哪一秒,你从十五岁的状态转变成十八岁的状态呢?你自己可能都回忆不起来。

如果你把语言的演化看成是在一个个时间的节点(point)中进行的,你就是在假设在这些点上,语言是静止的,那么就很可能会堕入“飞矢不动”的悖论中:语言的演化就像飞行的箭,而飞行的位移是可以拆分成一个一个点,并跟每个时间点对应的。但正如Lind (2003)[3]所说的,我们不能认为飞行的箭在每一个时间点会占据一个空间,不管我们给出的时间段有多小,甚至小到没有。在任意时刻,语言都不能被认为是被限定在一个框框里,有被决定的形态。这一段涉及到哲学的内容,我不是特别懂,所以就说到这里,不再继续讨论了。对于芝诺悖论,有很多人都有很深的理解,可以留言教我。

不论是从语言的定义上,还是从语言的演化上,这个问题都显得无关紧要了。


虽然我们无法定义语言、方言等一系列麻烦的名称,但我们仍然可以计算语言的距离,我们可以知道两种(不管能不能互通)的“话”,究竟有多不同。只是我们似乎从来没有定义不同到什么程度算是两种方言,又疏远到什么程度算是两种语言。

我在这里只介绍最原始的方法。一般来说,我们计算语言距离用到的是Levenshtein Distance (LD)。简单地说,就是把两个亲属语言中的同源词找出来,然后比较这些词的音段,求究竟经过了多少变动,才能从词A变成词B(当然,我们也可以把完全没有亲属关系的语言弄过来进行比较)。

这样我们可以列出一个矩阵,并根据以下公式填写矩阵的内容:

比如下图中(图片来源点击此处),my和me的不同来自于y和e的替换。我们按公式,在(1,1)处填写0,因为从M到M没有任何置换或者增减。但是我们在(2,2)处填写1,因为从y到e发生了一次替换。其它的空也按这样的方式填写。最终矩阵右下角的数值就是LD的数值。也就是从my到me的最简过程需要用到的变化次数。

当然,对于大数据来说,LD用笔算是不太现实的,用电脑可以很快地做出来,所以不理解以上的计算方式完全不影响,你只要在网上复制一个代码,稍加修改,让其适应你的数据,就可以了。

LD的计算还有一些其它的品种,比如LDN (Levenshtein distanced normalized),即把LD除以较长的单词的长度;还有LDND (Levenshtein distanced normalized divided),考虑到了两个单词的相似可能仅仅是偶然,等等。

我们可以根据得出的数据,估计两种语言之间的距离。但我们的结果也仅仅是知道一下:“噢!这俩语言挺相似的!”、“额?这两个语言距离太远了吧?”等等。

因为对语言距离的估算太依赖于词汇,而其它信息尤其是语法上的特征很少有人尝试,而且很难把几个互不相干的范畴综合性地估算,所以我个人不是特别感兴趣。或许它有一天能给语言的定义带来一定的帮助,所以希望相关专家能够努力完善他们的方法。

也希望对相关领域更加了解的人在留言区赐教。

参考

  1. ^ Kushniarevich A, Utevska O, Chuhryaeva M, Agdzhoyan A, Dibirova K, Uktveryte I, et al. (2015) Genetic Heritage of the Balto-Slavic Speaking Populations: A Synthesis of Autosomal, Mitochondrial and Y-Chromosomal Data. PLoS ONE 10(9): e0135820. https://doi.org/10.1371/journal.pone.0135820
  2. ^ Forker, D. (2020). A grammar of Sanzhi Dargwa (Volume 2). Language Science Press.
  3. ^ Lynds, P. (2003). Zeno's paradoxes: a timely solution.



  

相关话题

  学习什么语言,可以用来工作生存。? 
  东马(沙巴 / 砂拉越)的土著民族使用何种语言? 
  请问 kaiserreich 这个词语是英语还是德语? 
  现代汉语造词能力是否在下降? 
  喀喇汗王朝官方语言是什么语? 
  用汉语思维真的不如用英语思维逻辑清晰吗? 
  哪些情况下,中英夹杂的表达不会让人讨厌? 
  汉藏语系、南岛语系、南亚语系、壮侗语系、苗瑶语系之间有什么亲缘关系? 
  人类在没有发明语言时是很闷声沉默的动物吗? 
  纠正「高速动车组」及「高铁」的含义有意义吗? 

前一个讨论
大家对计算机专业是鼓励还是劝退?为什么?
下一个讨论
「忙年」是何时开始渐渐消失的?





© 2024-04-30 - tinynew.org. All Rights Reserved.
© 2024-04-30 - tinynew.org. 保留所有权利