激励函数没写好的学生作业罢了。
是真的。
不光AI会这样,人也会这样。比如我就遇到过:不适合编程的人是怎样的?
原因很简单。
衡量指标单一化,但实现途径无穷。
因此,被训练目标自然更倾向于使用消耗更低收益更高的“作弊”手段去迎合衡量指标。
比如 @蓝色起源 的这个视频提到的:【学习观18.5】素质教育为何十年都没改革成?这才是高考制度的“内幕”_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
因为学生的学习目的、或者说学习成果的验收指标就是“分数”;那么学生自然就会以分数提高为第一目标。
那么分数要如何提高呢?
简单。
类似的,我们很多企业有“唯KPI”的弊病;知乎程序员们也经常吐槽“程序写的最烂、bug最多的,反而最被管理层看重”——很简单,这些做管理的外行只能看到“项目总是卡在这个人那里,这个人的工作没完成,整个项目就无法推进一步”,所以他们理所当然的觉得“这个人最重要”。
却不知道,那些优秀工程师保质保量的按时完成了这个草包十倍百倍的工作,反而清闲到看起来总是“不务正业”的程度。
类似的,二战时,美国试图调查飞机战损原因、从而针对性加强防护;统计数据显示,飞机头部中弹最少,机翼中弹最多。
理所当然的,应该加固机翼,对吧?
错了。机翼不重要。
基于枪炮攻击原理,飞机不同部位中弹的几率是一致的。被调查的是飞回来的飞机;这些飞机上,哪些部位中弹最多,说明这些部位中弹后并不影响安全飞回;受了致命伤的飞机回不来,因此几乎看不到头部中弹的飞机。
因此,真正需要加强的,恰恰是统计数据里弹孔密度最低的那些部位。
果然,这样加强后,飞机战损率急剧降低。
类似的,人类的直觉上,总是觉得事情出的最多、忙的焦头烂额、天天往总经理办公室跑的那个人最重要——起码心理上就亲近嘛。
恰恰相反。
真正做事最多最可靠的那个人一定是默默无闻的。因为他什么都搞定了,自然不会卡住进度、也不需要每天跑你办公室请示汇报。
最该撤职的,往往就是最“忙”最“关键”的那个人。因为他的无能,才会闹的事情积压、进度迟滞,甚至变成决定项目成败的“关键先生”——看看他负责的功能点,试试把他的工作安排给那些看起来“吊儿郎当”但做出来的功能点反而几倍于“大忙人”的“清闲人”,看看后者是不是照样清闲。
然后你就知道:这个忙人应该开除,那个“不务正业”的“清闲人”才应该得到嘉奖!
类似的,为什么我们吐槽“唯KPI”呢?
很简单,KPI这个指标是死的,很容易通过“不正当手段”凑数。
最终,KPI最高的往往是个不安心本职工作、坑蒙拐骗的家伙;越是踏实肯干、不去“刷KPI”的,反而越是“成绩惨淡”。
如果没有办法识别那些坑蒙拐骗的家伙,唯KPI制很容易制造出一个“逆淘汰”的工作环境,逼走能人,留下小人。
类似的,我们知道,中国历史历来“一乱一治”;我们的封建王朝受“王朝周期律”制约,这个周期大概是二三百年——时候一到,必然“主暗於上,臣诈於下”,闹的民不聊生;继而刀兵四起,杀的生灵涂炭,千里无鸡鸣……
归根结底,其原因就在于我们和AI一样,天然的存在这种令人啼笑皆非的认知缺陷——于是乎,秦桧一干人是香的,一个个都是人才,说话又好听;岳飞等人是臭的,出类拔萃到每每超脱“皇帝我”的意料之外、让人面对他就缺乏信心,而且说话又直又冲,却总还是那么的有道理,噎的人上不来气却还不得不听从……真是不弄死难消心头之恨!
正所谓“忠言逆耳”。
然而与之同时,“谗言都裹着蜜露”。
存在这种“来自高层的认知偏差”,那么自然一定存在来自底层的迎合;而为了迎合这种迎合,高层必然会无意甚至故意的扭曲自己!
典型如“厚黑学”,这种讲解“取死之道”的书所批判的观点竟然被人奉为圭臬,一心一意的想要“厚黑”,好像那真是宇宙的真理一样。
最终,领导-马屁精之间完成了系统内的自我强化:对马屁精来说,领导必须傻,越傻越好,这样拍马屁才能保证有回报拿;而对领导来说,公司目标不重要,有马屁精捧场、逼下属孝敬、把新来的漂亮妞逼的眼含热泪躺到床上,这才是人间最大乐事!
最傻的是,这种问题会迅速蜿蜒,直到把董事长自己都拖下水——比如赵九妹……哦,赵九弟赵构自己——都成了挖自己墙角挖的最“不亦乐乎”的头号卖国贼。
长此以往,国焉得不亡!
你看,AI犯过的错,我们人类犯的更多、更勤、更令人无语。
正因为现实中这类漏洞层出不穷,因此相关工作必然充满了困难。
因为它要求你思维全面,深刻理解问题、考虑清楚每一个细枝末节——包括规则本身有无漏洞、基于规则的推论是否暴露了漏洞以及“推论的推论”能否暴露漏洞……甚至推论的推论的推论的推论……
总之,N阶推广之后仍然没有漏洞,这个规则才可能导向正确的结果。
典型如KPI:设置KPI的本意是好的,并不代表它执行下去就一定能得到好的结果;你不仅必须考虑执行者由于私心(图安逸图省事怕得罪人甚至自己想从中获利等)而故意不严格执行的问题;还要考虑执行者能力不足、被管理者挖漏洞凑指标等等“挑战”。
应付不了挑战,越多的规则干预,造成的恶果就越显著——不管这些规则的“初心”有多好。
换句话说,这种笑话,在程序员的工作中是常态。
只不过其它很可笑的事情只有本专业有很深造诣者才能看懂,而AI笑话人人能懂。
比如,我在知乎被人多次攻击过的一个论点:好的程序员,可以几千行代码一写出来就0bug。
无数人追着咬。
其中一位是这么说的:“我们是computer scientist[原文就是英文](意思是他们是计算机科学家,写段程序乱七八糟出几百个错误是正常的)……你们是码农,成天做重复工作,把手熟当成能力(意思是写代码不出/少出bug恰恰证明了我的低水平)”。
但实际上,想要几千行代码写出来就0bug,这只有资深软件工程师才能做到。因为他们考虑问题细致全面,可以从一开始就把“代码实际上等同于制定了什么规则”、“这些规则是否有可资利用的漏洞、如果有的话如何堵起来”、“这些规则的推论的推论……的N阶推论是否仍然完全在我的掌控之下”、“这些规则和操作系统、编程语言、各种功能库以及数学、物理等领域的各种规则如何相互作用、这种作用是否会引出其它漏洞”等疑难问题回答正确。
这绝对不是“手熟”就能做到的。对语言、操作系统、计算机工作原理的认识存在任何短板,就绝不可能事先绕过漏洞——必须拿起书是学霸、放下书是顶梁柱的、相关领域浸淫多年、业务能力学识水平多领域全面开花的真正骨干,才有可能在决定动手时已经“胸有成竹”。
恰恰相反,这位“computer scientist”才是个未能入门的码农。他连语法规则这种最最初级的知识都没弄懂,这才会“敲一行代码出现N个编译错误”——换句话说,他连我说的是什么都不可能理解,正如菜市场大妈不认识“computer scientist”一样。
没错。程序员的严谨正如这个笑话嘲弄的一样:
作者:慕课网
链接:https://zhuanlan.zhihu.com/p/31254392
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
某日,老师在课堂上想考考学生们的智商,就问一个男孩: “树上有十只鸟,开枪打死一只,还剩几只?”
男孩反问:“是无声的那种枪吗?”
“不是.”
“枪声有多大?”
“80~100 分贝.”
“那就是说会震的耳朵疼?”
“是.”
“在这个城市里打鸟违法吗?”
‘不违法.”
“您确定那只鸟真的被打死啦?”
“确定.”老师已经不耐烦了,”拜托,你告诉我还剩几只就行了,OK?”
“OK.鸟里有没有聋子?”
“没有.”
“有没有鸟智力有问题,呆傻到听到枪响不知道飞的?”
“没有,智商都在 200 以上!”
“有没有关在笼子里的?”
“没有.”
“边上还有没有其他的树,树上还有没有其他鸟?”
“没有.” “方圆十里呢?” “就这么一棵树!”
“有没有残疾或饿的飞不动的鸟?”
“没有,都身体倍棒.”
“算不算怀孕肚子里的小鸟?”
“都是公的.”
“都不可能怀孕?”
“………,决不可能.”
“打鸟的人眼里有没有花?保证是十只?”
“没有花,就十只.” 老师脑门上的汗已经流下来了,
下课铃响起,但男孩仍继续问:“有没有傻的不怕死的?”
“都怕死.”
“有没有因为情侣被打中,自己留下来的?”
“笨蛋,之前不是说都是公的嘛!”
“**可不可以啊!”
“………….,取向都很正常!”
“会不会一枪打死两只?”
“不会.”
“一枪打死三只呢?”
“不会.”
“四只呢?”
“更不会!”
“五只呢?”
“绝对不会!!!”
“那六只总有可能吧?”
“除非是猪生的才有可能!一枪只能打死一只!”
“…好吧,那么所有的鸟都可以自由活动么?”
“完全可以.”
“它们受到惊吓起飞时会不会惊慌失措而互相撞上?”
“不会,每只鸟都装有卫星导航系统,而且可以自动飞行.”
“恩,如果您的回答没有骗人,”学生满怀信心的回答,“打死的鸟要是挂在树上没掉下来,那么就剩一只,如果掉下来,就一只不剩.”
老师推推眼镜,强忍着要昏倒的感觉,颤抖地说道:“你可以去当程序员了……”
我做过工厂流水线管理、工业控制乃至铁路状态修管理等方面的软件。这些软件在设计时就必须考虑人的因素,就必须从逻辑流程上、把下至工人上至中高层领导可能插手可能舞弊的地方事先锁死、确保所有人遵照制度执行——因此,这类软件的设计,经常需要直接和单位一把手面谈,事先猜出中下层的舞弊途径并设置规则堵死。
这个讨论的确很有上面那个笑话的味道,真是一切方面,不管多钻牛角尖,都必须事先提出并给出解决方案。否则整个企业的效率就不能看了。
同样的,我也做过面向终端用户的各种软件,也必须在设计之初就想清楚他们可能采取的一切最呆最坏的使用方式,事先设置逻辑堵死,确保“哪怕用户充满恶意、故意破坏性使用,软件本身仍然工作正常、且最好留下用于‘自证清白’的各种证据(或者设置足以证明用户故意的操作流程:比如用户误点一个按钮把表删了,那就是软件的问题;但如果用户删表前软件给了提示、尤其提示措辞一会儿要求确认一会儿要求否定、或者必须做一个特别的动作[比如‘你已经了解了相关风险吗’‘确定不要这些数据了吗’‘敲入delete以确认删除’之类提示],那么当用户仍然成功删表时,他再狡辩什么‘误操作’就没人信了)”。
换句话说,软件复杂的内部逻辑要理顺,软件和用户、用户之间的利益关系这类外部逻辑也要理顺,软件才可能好用、易用且不会造成意外破坏——最最起码是不会被人甩锅。
有了这个经验,自然就能明白:那些996、唯KPI的公司,也是因为它们的管理层不合格,这才会制定出这样存在重大缺陷又完全无助于目标(甚至和预期目标背道而驰)的考核制度——制定还好,它可能是没有参考,只好一点一点建立制度并慢慢修正;但跟着学的那就愚不可及了。
类似的,管好一群人、管好一个国家,那是比设计一套正确的软件更加困难的东西。因为参与的规则太多、太不可控了——从人的权力欲安全感再到自我实现的需求,每一样东西都可能造成严重后果。
这种东西,绝对不是“厚黑”“权术”所能应对的——这就是我们的封建王朝统治者每隔2、300年都要把自己的整个家族献祭、顺带着坑死亿万百姓的根本原因。
一言以蔽之:无能。
加一个词的话,就是“贪婪”。
回到问题。
这位同学的AI之所以训练成这样,就是因为制定规则时缺乏“预见性”,没有想过自己设置的规则会如何“引导”AI,这才目瞪口呆的看着AI“修炼”歪了。
没错,这样的AI肯定是真的——有经验的程序员一看他设置的目标、制定的规则,就知道他训练出的AI只能是这个样子。
换句话说:训练出这种AI的原因是因为程序员经验不足,没有把每个方面都考虑到、没有在制定规则时事先堵上如此明显的漏洞。
题目的“AI狼自杀得最高分”这个故事本身的逻辑只是部分成立:
现有的AI是怪异的,其行为确实会频繁地让读者感到好笑。在现有的模型训练过程中,如果程序员设置了“自以为可用而实际上不合理”的模拟条件,当然可能得到程序员预料之外的结果,就像题目描述的那样。你可以说“这样的AI是真的存在”。
但是,题目叙述的这个设计是明显不合理的“如果不能期待在110秒内抓到羊,得分就不能期待超过负一”的状态。在这种情况下,稍有经验的程序员就能预料到这样的结果——当然,我们也不排除“程序员的思考方式在某些方面是天真烂漫的”之可能性,这就是我日常所称的“萌头”。
没有经验的程序员做出的东西,往往有一些bug会被AI随机试错发现并利用,例如狼直接卡个瞬移bug出现在羊身上。
网络上声称与此事相关的AI项目[1]的表现,与题目叙述的是有明显差异的。这可能是因为当事人(并非程序员)对AI原理了解不足、报道出了偏差——尤其是“训练途中发生的小插曲”给当事人留下深刻的印象、日后描述时由于部分记忆的淡化或歪曲而变得夸大,而完成的项目其实没有叙述的那么奇怪。
这件事再次展示了“人在很多时候其实也是怪异的”。
为了减少“你也不知道给的条件有多少被神经网络用了”的情况,近年来人们在搞“可解释神经网络”之类[2],不过题目给出的情景并不需要这个。
1、是真的
2、从侧面反映了人工智能的大火让这个行业加入了多少白痴……
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有