第一从编造的内容上,辱华了。
第二从对网民智商预估上,仍然是辱华了。
建议有关部门找到源头,依法办理。
科普一下,我是前几天看到这个事件的。
大致就是如果你用谷歌翻译,设定为英文翻译中文,然后再英文框里输入中文,会出现奇怪的翻译结果。
比如输入中国,会输出煞笔,输入新冠、艾滋病人、武汉、中国人…也会有负面的词汇产生。
这个情况呢,就很奇怪,这种费力不讨好的“辱华”,在逻辑上是很有问题的。
我当时就觉得,可能是哪个小傻瓜PS了几张图,然后自己在造热点。
然后我打开谷歌翻译自己试了一下,这个问题已经不存在了。
不过后面谷歌有声明,确定真的有这个问题。
这个很可能是有人自己上传翻译建议,然后调教出来的,毕竟它数据本身有限,很可能比较好搞。
这个事情呢,说是谷歌搞事情其实并不是很说的过去,哪怕谷歌真的有问题,它也不太会用这种方式辱华。
因为那些词汇根本不是正常外国人辱华会用的词。
我们其实也知道,如果它把中国翻译成F字头的,说不定是有外国人搞事情,但如果它翻译成经典国骂,那到底是什么玩意儿在搞事就要想想了。
当老美用繁体字骂你的时候,我觉得大多数人会猜测白皮后面估计是个ww。
反正就我的感觉是,它大概率是无良媒体搞出来的破事情,谁第一个爆出来,谁就有重大嫌疑。
就跟带着死蟑螂去餐厅拍照的网红一样。
大众是爱国的,但这但并不是给煞笔当枪使的,那些用这种事刷热度的,很蠢且坏。
这种情况不像是谷歌用辱华换利益,更像是群众里的坏人找了个漏洞,用反辱华薅羊毛。
有点像慕容博骗江湖人士说乔峰他爹娘是辽国奸细。
左右不过往萧远山行囊里放几个“宋国人是软蛋”的标语,还特么用的是宋体五号字,你用个契丹文我说不定就信了。
你觉得问题出在萧远山身上,是他没有及时发现问题,还是出慕容博身上呢。
当然,话说回来,慕容博也是混在汉人里的前朝异族,也不是好人,被这种人带节奏后患无穷。
想起了一个旧闻。
近日,有记者在石家庄男科医院博大医院化验时,用绿茶替代了尿液,随后医生称尿液检测出了炎症、霉菌和杂菌,记者被诊断出重度肾虚、前列腺炎、附睾炎,并被要求花费高额费用进行相关治疗。事件一经披露,引起广泛关注。
昨日,卫生部新闻办相关负责人回应,用绿茶替代尿液送检的做法,是不科学的。
茶水代尿送检5年前已有先例
卫生部新闻办相关负责人表示,在2007年,有媒体用茶水在医院送“尿检”,结果显示有炎症。对此,卫生部当时做出了回应。“这次和2007年那次事件几乎一模一样。该说的话,2007年都说过了,那次的回应也表明了我们现在的态度。”
据了解,2007年有记者乔装成患者,将事先准备好的茶水送到杭州10家医院检测,结果有6家医院检测出茶水有炎症,从而引发了社会广泛关注的“茶水发炎”事件。
仪器无法鉴定样本是否为尿液
时任卫生部新闻发言人毛群安当时对外表示,医疗机构的检验仪器,是针对有特别指向的检验品。比如尿检仪器,它没有鉴定样本是否为尿液的程序。让医院的尿检程序去检验茶水,无异于人为打乱了有具体运行环境设定的电脑程序。
毛群安当时说,大家相信该新闻策划的出发点也是希望改善医疗服务质量,但由于不了解医疗服务,结果事与愿违;卫生部组织专家研究认为,该报道有悖于媒体记者职业道德的规范要求,是误导公众,不利于维护正常的医疗秩序,构建和谐的医患关系。
近日“绿茶代尿”事件披露后,还有媒体记者做了试验——将康师傅绿茶、啤酒、荷叶茶全部当做尿液送检,结果检查结果全部异常。
中华医学会检验学分会委员王录新介绍,尿液检测仪不具备鉴定样本是否确实为尿液的程序,如果放进仪器的是茶水,只要其中含有和与尿液相同或类似物质,仪器同样会自动辨别生成结果。
谷歌第一次退出中国,被央视点名报道前。
面向黄暴的关键词搜索对比月平均,翻了千倍。
网友们愤怒异常,只因谷歌翻译“辱华”。在Google翻译里,输入特定的中文词汇,再“翻译成”中文,会出现一些奇特情况。
千万网友卷起袖子抡起拳,四十米长的大刀眼看就要收不住。
就在这时,一些眼尖的观众发现问题:诶?怎么谷歌翻译不仅辱华,还辱美呢?
这是啥情况?
大家这才反应过来:谷歌翻译可能被“数据投毒”了。
通俗解释一下:AI数据投毒
1
Google翻译,以及目前大多数比较有名的翻译平台,翻译句子都不是一个词一个词地翻译,而是用了“神经网络”、“机器学习”之类的人工智能(简称AI)技术。
要真是一个词一个词的翻译,“树新风”真的可能会被翻译成“tree new bee”。
维基百科显示,大概从2016年开始,谷歌就开始用一个名叫“神经机器翻译系统”的东西。
AI学习翻译,就像小孩子英文一样,要用一堆“小卡片”反复教——Apple,来小朋友们跟老师一起念,挨——破,苹果,i like to eat apples,我爱吃苹果……教得多了,AI自然而然就学会了翻译。
像什么人脸识别、图像识别,原理也是一样,你想要AI识别小狗,那就找一堆小狗的图片,把里头的小狗标记出来:“这是狗”,标记好的这些图片就是“训练样本数据集”,把它喂给AI,就能让AI大概知道什么是狗。
数据投毒,就是在训练他的样本数据集里,丢进去一些错的,扰乱它的判断能力。
比如,你本来要训练一个AI模型识别狗,但是我在样本数据里掺进去一些我自己的照片,也标记为“狗”,这就会让AI“陷入混乱”——啊?这也是狗吗?好吧,既然训练数据里说这是狗,那肯定就是狗。
于是,下一次AI看见我时,就可能会把我识别成狗。
金庸小说《侠客行》的主角石破天,从小就被养母喊“狗杂种”,长大之后别人问他叫什么,他就一脸天真地说“我叫狗杂种”——他哪里知道狗杂种是骂人的话?AI也一样,你喂给它什么训练样本,它就往哪个方向学,比人还要单纯。
2
那,要怎么做,才可以用“数据投毒”把谷歌翻译给教坏?
要回答这个问题,得先知道谷歌翻译的样本训练集是从哪里来的,就像你要给一个村子投毒,你得先找到村里人喝水的那口井(这是只是举个例子,投放危险物质罪是触犯刑法的,坐牢10年起)。
谷歌翻译的样本数据来源很广,比如可能有各式各样的互联网网站,以及各种各样的双语书籍等等,每天有无数个网络爬虫抓取双语文章,经过亿点点处理之后,喂给AI翻译模型吃。
所以如果你要给谷歌翻译的数据投毒,可以精心构造大量的双语网站,或者出很多双语书籍,在里头大量掺杂你想要的翻译,比如你叫张三,就在网站和书里弄很多“张三=The most handsome man in the world”(世界上最帅的男人),然后想办法让谷歌的数据源爬虫给抓取过去,还能绕过数据审核和校验,给AI学习,就能完成投毒。
只要你投毒的数据量占比足够多,就能成功:
好吧,上面这种图是我PS的,这种情况基本不可能投毒成功,因为这句话是一个很常见的句子,同样一句话,你在教,全世界的其他人也在教,你的投毒数据量占比就很小,根本影响不到AI训练结果,就像你打个鸡蛋放在大海里,并不能让全世界人民都喝上鸡蛋汤。
另一个数据投毒方法,是利用软件本身的“反馈”功能。谷歌翻译的主页有一个提供建议按钮:
点进去,可以帮忙审核和纠正翻译结果——谷歌就是用这种方法来发动全世界网友的智慧,帮它“训练AI”。
可是“群众中出了个叛徒”,有心之人可以利用这个反馈机制,提交大量的恶意数据,把谷歌翻译强行教坏。
越是小众的词语,“数据投毒”成功的几率就越高,这也是为什么这一次谷歌翻译“辱华”事件里的词,都选择的“英译中”,但是输入的却是中文,因为平时这么用的人很少,投毒命中率相对高一点点。
在人工智能领域,“数据投毒”早就被研究者们注意到了,但是以往更多地是出现在其他应用领域。
比如“垃圾邮件拦截”:
黑灰产为了防止自己的垃圾邮件被系统拦截,就申请很多账号,不停地把自己的垃圾邮件标记“这不是垃圾邮件”,从而误导垃圾邮件AI拦截系统。
再比如“网络爬虫”领域:阿里巴巴集团的安全资深总监路全就曾经公开讲过一个事,黑灰产用了大量低级的爬虫,被阿里安全的人工智能风控系统拦截,后来他察觉不对,为什么明知道会被拦截,对方还要搞这么多低级的爬虫?
他恍然大悟:这些爬虫并不是为了突破风控系统,而是当炮灰,扰乱风控系统,让风控系统不断学习低级爬虫的特征,误以为爬虫都是这种低级的,从而“轻敌”,漏掉那些更高级、精巧的爬虫。
在查资料的时候,我发现了一篇论文,讲的就是专门针对语言翻译系统的数据投毒研究,论文来自墨尔本大学和Facebook AI 实验室的几位研究者。
论文中提到:只需要占比0.006%的恶意样本就可以有50%的概率完成数据投毒攻击。
也就是说,哪怕一个AI翻译系统用了千万级别的训练数据,只需要在里头构造几百个恶意样本就有可能让它犯错。
有兴趣的技术同学可以自己找来读一读,如果懒得找,可以在公众号“通俗解释一下”回复“数据投毒论文”,给你链接。
3
事情发生的当天,谷歌就给出回应。
这事儿是谷歌蓄意的吗?不太可能。
毕竟谁会往自己家开的餐馆投毒?
那谷歌要背锅吗?要背,毕竟,这是在他地盘上出的问题,起码审核不力是肯定的。
数据投毒有办法防吗?其实办法不少。
比如,同一个账号、同一台电脑、同一个IP地址,提交的数据不能超过一定的占比,这样数据投毒者就需要申请很多账号,提高了作案成本。
再比如,如果训练结果出现比较大的变动,就进一步评估分析,比如你要教AI认识小狗,忽然在狗的图片里出现一个明显不太像狗的(比如一只猫),就把它挑出来进一步检查,检查比对。
针对语言翻译系统的数据投毒研究论文已经发了快一年了,谷歌作为全世界人工智能和网络安全技术最厉害的公司,居然还出现这种幺蛾子,伤害网友感情,占用公共注意力资源,骂一骂,也是可以的。
谷歌,你……你……我要骂人了啊……你……你……真是个……小笨猪,哼!
4
所幸谷歌这次修得比较及时,找到办法防住数据投毒。
要不然,既然别人能提交错误的翻译结果,把谷歌翻译教坏,我们也能提交新的翻译结果,把它教好。
万一到时几千万国内网友搞一个“对冲”,提交新的翻译结果,比如“新冠病毒=American flu”之类的,那就真是拦都拦不住了。
———
回答完毕,谢谢你的阅读。有空可以去我的公众号“通俗解释一下”看看,有什么想“通俗解释一下”的,可以随时告诉我。
实名反对所有上述认为在设定语言为英文时输入中文超出了系统设计的回答。(这么说的人99%都不懂基本的自然语言处理和机器翻译技术)
在真实的人类交流中,不同语言之间的混用普遍存在,比如我们经常可以看到一些人在中文语境下大量使用英文(如下图),这种一个句子中混入多种语言的现象在语言学上叫做语码转换(code-switching),这种现象普遍存在人类的交流中。
从翻译系统设计的角度来说,因为考虑到语码转换,哪怕设定语言为英语,模型仍然需要处理大量的非英文字符,比如英语中会经常混入许多西班牙语或者法语的词汇,这也是为什么在设定语言为英文的情况下,谷歌仍然会允许你输入中文或者其他语言的字符。
现有的基于深度学习的翻译系统的训练语料很大一部分来源于互联网,而在网络上,英语和汉语混在一起的情况也是非常多的,所以很有可能在训练语料这里就出了问题 (如果是数据投毒归根到底也是训练语料的问题)。部分回答中所提到的提交建议去修改翻译结果的方式也是有可能的,但是完全没法得出是营销号去刻意制造这一事件的结论,因为类似的错误在谷歌翻译系统中还有很多,你没法说这都是人为(特指营销号)制造出来的(比如墨西哥会被翻译成黄瓜,难道这也是营销号刻意制造出来的???)。
而且最重要的,这种在设定语言下输入另一种语言的情况,翻译系统理论上通过很简单的规则匹配其实就可以规避掉类似的问题,所以这个锅真的没必要给谷歌洗。
AI能有什么坏心思呢?对吧?
不言而喻,一目了然。
本来有一段技术上的分析的,但是多写会被删的,可不敢乱写。知乎立场是站哪边的大家也都懂。
总之,要知道,中国在这块,绝对、必须,独立自主,就行了。
谷歌?你居然在讨论一个早已退出中国市场的网站?谷歌上光明正大攻击的内容还少吗?
不过话说回来,谷歌翻译一直不被枪,也确实离谱。多年前我就发现不对劲了,谷歌翻译某些词都居然能出现释义。
已经查出来了,是一个名叫威尔逊爱德华糍的瑞士程序员恶意攻击谷歌翻译数据库。
这一招,怎么说呢?比直接P图是进步了不少。