百科问答小站 logo
百科问答小站 font logo



汉语拼音里,哪些字母用的最多? 第1页

  

user avatar   song-zhu-shi-74 网友的相关建议: 
      

按直觉估计,最多的应该不会离开i和n这两个,i有海量的ji、yi、xi、shi等单元音,同时兼做介音和韵尾,n直接构成所有鼻音韵尾,这两者的出现频率肯定远比其他字母高。其他四个元音字母加上g和h的出现频率应该在第二层次。

下面开始实验。频率可能有两个方面,一是基于词典的频率,二是基于实际应用的频率,这里我们更关注于实用性频率,在本题的语境中应该更接近于使用拼音输入法打字时的字母频率。

我们首先找到一份现代汉语常用字的字频统计表——常用3500汉字频率表_图文_百度文库。这个表总共处理了2亿字规模的语料库。汉字字频有一条基本的规则:前1000字包括全部语料的90%,前2500字占了99%,而基本3500汉字已经达到99.9%,这里选取最常用的前2500字已经足够准确。

然后将这2500汉字注音,我找了一个网上的批量注音程序,这样的程序一般只能注出一个音,比如位于字频首位的“的”有de、dí、dì三个音,但程序会默认为de音。不过“的”做虚词的“de”音在实用中频率应该远远超过另外两者。同时考虑到本实验不处理声调,而且汉字中有多个常用音的多音字的占比并不大,这里暂时忽略多音字影响。

将注音导入Excel,和字频对应。在Excel中把拼音拆分成单个字母并利用数据透视表便可得到本次实验的最终结果。这里要注意一点:汉语拼音方案中有独立的字母ü,但在汉字输入时实际是用键盘的字母V键代替,所以我们基本可以认为V=ü。

首先是字频的结果,拼音中使用频率最高的前五位是i(13.77%),n(11.49%),a(9.86%),e(7.95%),u(7.79%),这五者实际都来自韵母。

按键盘的键位排列,各字母的热点分布图如下:

如果按手机九宫格输入法的分布,各键位的热点分布如下:

既然统计的是字母,我们自然想到,能否和英语这样的纯字母语言做个对比?网络上对英语的字母频率统计很多,这里找到了一份完善的统计资料,统计了120本英文书籍,语料规模1.3亿词——Letter Distribution

根据这里现成的结果,我们得到一个汉英两语言的字母频率比较(此处拼音ü视为与英语v相同):

可以看到,由于汉语的韵母结构复杂,汉语的i、u两个元音字母使用频率远远高于英语;反之,由于英语中有复杂的复辅音从,英语的一些高频辅音字母,如l、p、r、s、t的使用频率也远高于汉语。我们知道汉英两者最高频的虚词“的”和“the”都带有字母e,所以e的出现频率在两者中都非常高,但由于英语中还有大量词末不发音的字母e存在,英语的字母e的出现频率更高出一级。

如果不考虑ü的特殊性质,汉语中使用频率最低的字母是p(0.33%)、k(0.63%)、f(0.85%),这三个声母的构字不算特别少,但在汉语高频字中出现不够,p声母频率最高的“平”仅排215位。不过和英语中著名的四大垃圾字母z(0.06%)、q(0.10%)、j(0.12%)、x(0.17%)比起来,拼音方案对字母的使用还是相当完整的。

英语的键盘热点图如下:

对于现在使用的QWERTY键盘的键位布局,有一个传统说法是“故意把比较常用的键位隔开以防止相邻键相互挤压”,但从这个键位热点图里能看出这个说法并不成立,至少ERT这三个超高频键位完全相连,而且整体看起来这个热点图也并不散,很多高频键明显聚集在一起。

下一步我们看一下出现在汉字字首或英语词首的字母频率:

如果把首字母抽出来,汉英语言中超高频虚词的作用便会被大大放大。汉语中最高频的“的”占了4.1%,使得首字母d直接跳到了榜首。不过排在其后的z、y、s、j、l、x和词典词频的头几名基本吻合。英语最高频的“the”则占到了夸张的7.5%,而a、and、of、in等高频虚词的存在也硬是把a、o、i三个元音字母推到了前五,总频率极高的e在首字母中的频率则大大减少。英语词典中,首字母频率的前四位一般是s、c、p、b,但在上表中这四者的总频率都大大后移,这说明英语的实词和虚词在语音上的差异远比汉语大,最典型的是上面的字母w,在词典中的首字母频率只排第16,但在实用中却高居第6。




  

相关话题

  简单解释一下sparse autoencoder, sparse coding和restricted boltzmann machine的关系? 
  如何看待西安电子科技大学偷偷给贫困生打钱,大数据精准帮助贫困生是否值得推广? 
  因子分析法求权重,两个指标可以用这个方法吗?这个方法的优势是什么? 
  体育比赛中,有哪些「列数据就是吹」的例子? 
  如何获取历史降雨数据? 
  国家统计局数据显示 10 月份餐饮收入同比增长 0.8%,增速年内首次转正,目前餐饮业现状如何? 
  从事经济、金融工作的人都是通过什么渠道获得数据资源,运用什么软件来分析行业状态和经济走势的? 
  如何简明易懂地说明数据包络线分析法(DEA)? 
  有哪些程序员用起来舒适的键盘推荐? 
  机器学习门下,有哪些在工业界应用较多,前景较好的小方向? 

前一个讨论
如果中国按照人文地理进行行政区划,会出现哪些有趣的景象?
下一个讨论
为什么不能用蒸馏的方法制备工业酒精?





© 2024-05-16 - tinynew.org. All Rights Reserved.
© 2024-05-16 - tinynew.org. 保留所有权利