百科问答小站 logo
百科问答小站 font logo



god bless us 为什么百度翻译是辛巴? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

先吐个槽,回答里没一个懂机器翻译的,更没一个有相关工业界经验的。无非是 diss 百度辣鸡嘛,有什么意思呢?然后开始正文,讲讲为什么会出现这种现象。


从算法上讲,@颜如玉 的答案没什么问题。现在还在商用的机器翻译系统基本上就两种:

  • 统计机器翻译。主要应用在小语种上,针对平行语料数据量较少的情形。特点是翻译结果忠实度更高,流畅性不足。
  • 神经网络机器翻译。随着平行语料数据量的增加,翻译质量会不断提高,因此主要用在各大主流语言上,特点是翻译结果流畅性很好,但忠实度不足,不耐噪音,例如输入的原文有一点小错误(引号不成对、有一个错别字等等)就可能会导致半句话从翻译结果里消失。

中英文都是大语种,再加上百度翻译的新闻稿,基本可以确定百度中英翻译使用的是神经网络机器翻译。除非你运气不太好,被百度 A/B 测试分到统计机器翻译的桶里去了;或者是神经网络机器翻译由于某种巧合出错了,系统返回了统计机器翻译的结果作为兜底。


但这个问题显然不是算法问题,而是工程问题。算法是需要平行语料训练的,数据从哪儿来?主要来源有:

       1、花钱买 2、自己标 3、公开数据集 4、爬虫爬     

1 要花钱,2 费时费力,3 各大厂商都可以用做不出来花,还剩啥?4。

爬虫怎么爬?一是直接找双语平行语料,例如有些机构的文章会用中英文双语写成(大多是篇章级别对齐的),爬下来以后再进行分段、分句、对齐,就得到了句级别的平行语料。二是找可比语料,例如我知道某个术语的中英文分别是什么,就去找它们的维基百科页面。虽然两个页面不一定互为翻译(往往英文页面的内容比中文页面丰富得多),但是常常能找到有一些句子是互为翻译的。把两个页面爬下来以后,再用现有的机器翻译系统或其他方法进行打分,置信度高的句对就认为是平行句对,可以加到训练语料中。

搜索“辛巴 god bless us”,可以找到一个豆瓣页面,里面有一行内容:

2011-08-05 10:10:19 辛巴 (god bless us)

所以……大概率是百度的爬虫把这位用户的用户名“辛巴”和个性签名"god bless us"当成平行句对加到自家的翻译系统里了。

同时,由于 God bless us 的翻译结果是正常的,我们还可以确定百度翻译的分词器是大小写敏感的(case-sensitive),而非先 lower case 再 recase。




  

相关话题

  为什么《红色警戒》的简称叫「红警」,《星际争霸》的简称却叫「星际」? 
  怎样实现强人工智能? 
  如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA? 
  以目前的科技水平,做销售,在AI的哪个应用领域发展更好些? 
  世界首条仿生鲸鲨现身上海海昌海洋公园,能上浮下潜自主游动,还能搭载不同传感器,你觉得搭载些什么好呢? 
  大学生因给书籍差评被网友举报至学校,反映了哪些问题?目前国内图书翻译「机翻痕迹太重」这一现象普遍吗? 
  副歌为什么叫副歌?副歌部分叫做主歌不是更合适么? 
  如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA? 
  什么是人工智能?人工智能、机器学习、深度学习三者之间有什么关系吗? 
  自学深度学习是怎样一种体验? 

前一个讨论
日本的县领导为什么不叫县长而叫知事?
下一个讨论
如何看待开源中国Gitee在不通知用户的情况下突然禁止图床外链访问,导致用户权益受损的行为?





© 2025-04-02 - tinynew.org. All Rights Reserved.
© 2025-04-02 - tinynew.org. 保留所有权利