大概有三种计量方法,还有相应的拓展方法,具体看你的研究方向了。
第一种是节点数法,简单的按照语系、语族、语支的顺序分别给三个虚拟变量。问题是这个方法比较糙,研究一个国家内不同方言距离可能数据变化不够,好处是数据可得性强,因此许多经济学论文用这个方法。如果是研究全球不同民族、国家间的文化隔阂,可以用这个方法。
第二种是同源词法,就是选200个左右不同物品、词汇,比如轮子、父母、铁,看不同语言间同源词汇的比重,比重越高说明方言间的距离越近。这个方法是有数据库的,问题是该数据库只包含印欧语系,所以只有研究欧洲经济史之类的才可以用该数据库。
第三种是音韵法,就是筛选出3000多个字,按不同方言相同字间的音韵差异计算相关系数,然后综合系数构建方言间的距离。这个数据库是郑锦全做的,显然这个方法只能做中国文化方面的研究。
以上三种算法都是语言间的绝对距离,你可以基于以上方法构建其他语言距离计量体系。以音韵法构建语言间的相对距离为例:上海作为中国早期最发达地区,可以看做“最发达语言”,然后计算其他语言与上海方言的相对距离。中山大学的林建浩去年发表过两篇相关论文,就是基于这种算法用方言做文化的代理变量研究文化隔阂对经济发展的影响。