百科问答小站 logo
百科问答小站 font logo



为什么推荐系统要推荐用户喜欢的东西? 第1页

  

user avatar   s.invalid 网友的相关建议: 
      

因为让你自己搜,你多半也会这么做。


你自己不愿意扩张视野,那么别人帮你扩张,你只会恼羞成怒。

以我自己为例——这个例子我在知乎说过很多次了——我曾和一位同事较过劲,他两年内C语言项目0bug,我觉得我也能。但迄今为止,只做到了两三年内只有1个bug;而且我的工作还总是混合使用多种语言,如python、Java、bash脚本以及C/C++,这样是没法和纯C项目比较难度的。


但是,这个事实说出来,后果是什么呢?

后果就是,我第一次被人挂出来批判了。原因是,在人家的认知里,写程序就一定是写一行代码出一堆bug、然后每天加班修bug加到深夜——这,才是“正常”的软件开发。

我和人家不一样,人家自然大怒:我都不行,你凭什么行?吹牛你也看看我!


然后,人家会主动搜索一些“事实”来支撑自己的观点。比如,微软也出过低级bug等等。

你看,牛皮吹爆了吧?微软都这么拉胯,你觉得你是谁?还0bug?0bug是不可能存在的!


这种质疑多了,我就去搜业界各种项目的bug率。

数据显示,业界各知名项目,包括python、chrome等等,bug率都非常非常低,大约每一千行代码会有0.003到0.08个bug——或者说,平均每12500到30万行代码出1个bug。

这什么概念呢?

业界正规程序员一般每周平均产出40~400行代码,视项目难度增减;按400行代码算,2万行代码需要50周才能写出来——而一年是52周,算上节假日也就这样了;那么2万行代码出1个bug,恰恰是我“一年一个bug”的水平。

当然,400是取的最大值。如果按偏中间的200来算的话,那就是两年一个bug。


很显然,人的水平不是整齐划一的。这些项目可以做到平均每人每一两年一个bug,那就说明:

1、20000行一个bug属于这些顶级项目里的较差水平。所以,我那一两年一个bug的水平,在业界顶级团队里还拖了后腿;

2、这种团队里肯定会有每年十几个甚至几十个bug的拖后腿者;但也必然有人可以做到连续多年0bug——两者一平均,就是项目整体上的“平均每12500到30万行代码出1个bug”。


你看,这么一搜,一接触业界顶级水平,反而暴露了我不过是个“中等偏下水平的蹩脚程序员”,对吧?

落后了,怎么办?

奋起直追呗。

咱闭上眼睛,那些高人难道就真的不存在了?


你看,我总是能发现自己的差距,总是能发现这里还差点那里还不行……


但这个数据贴出来,那些追着骂我的人,又是怎么看的呢?

1、这是提交到线上repo的代码。他们肯定还有更多bug,在线下就解决了,所以你看不到。

嗯,所以我写bug我有理。

2、那种公司有几个?业界平均水平每千行都有四五十个bug呢……

比烂总是能获得安慰。

3、他们是码农,每天重复劳动,这才可以追求多少行0bug。我们是computer scientist,比他们高贵!

这个就更有趣了。代码傻逼不光不觉得自己傻逼,还抬高了后腿往人头上踩呢——完全没意识到自己已经裂了裤裆,屌儿郎当在公众面前。


你看,同样的数据,人家总是能发现自己的完美,总是从胜利走向胜利。


人群中,像我这样总是能看到差距、总是想看到“新鲜东西”的、怪异的geek是极少数;而绝大多数人是完美的。

有缺陷的我需要认清缺陷、这才能不断进步;而完美的他们已经没有进步需要了,所以只需要赞扬。

因此,任何有效的、能够赚到钱的推荐系统,必然只会推荐被绝大多数人喜欢的、可以证明他们的完美的东西——不然别说赚到钱了,被人丢动物园喂老虎都有可能。


甚至于,哪怕你推了“可以证明他们的不完美”甚至“证明他们不过是个那啥”的东西……喏,就好像那个bug率数据一样,我看了觉得自己还有差距还需要努力;人家看了……不光没觉得自己几行代码弄出一坨bug太丢人,反而认为自己更完美了!


《花剌子模信使问题》
王小波
  据野史记载,中亚古国花剌子模有一种古怪的风俗,凡是给君王带来好消息的信使,就会得到提升,给君王带来坏消息的人则会被送去喂老虎。于是将帅出征在外,凡麾下将士有功,就派他们给君王送好消息,以使他们得到提升;有罪,则派去送坏消息,顺便给国王的老虎送去食物。花剌子模是否真有这种风俗并不重要,重要的是这个故事所具有的说明意义,对它可以举一反三。敏锐的读者马上就能发现,花剌子模的君王有一种近似天真的品行,以为奖励带来好消息的人,就能鼓励好消息的到来,处死带来坏消息的人,就能根绝坏消息。另外,假设我们生活在花剌子模,是一名敬业的信使,倘若有一天到了老虎笼子里,就可以反省到自己的不幸是因为传输了坏消息。最后,你会想到,我讲出这样一个古怪故事,必定别有用心。对于最后一点必须首先承认。
  从某种意义上说,学者的形象和花剌子模信使有相象之处,但这不是说他有被吃掉的危险。首先,他针对研究对象,得出有关的结论,这时还不像信使;然后,把所得的结论报告给公众,包括当权者;这时他就像个信使。中国的近现代学者里,做“好消息信使”的人很多,尤其是人文学者。比方说,现在大家发现了中华文化是最好的文化,世界的前途倚赖东方文明。不过也有“坏消息信使”,此人叫作马寅初。五十年代初,马寅初提出了新人口论。当时以为,只要把马老臭批一顿,就可以根绝中国的人口问题,后来才发现,问题不是这么简单。
  假如学者能知道自己报告的是好消息还是坏消息,这问题也就简单了。这方面有一个例子是我亲身所历。我和李银河从一九八九年开始一项社会学研究,首次发现了中国存在着广泛的同性恋人群,并且有同性恋文化。当时以为这个发现很有意义,就把它报道出来,结果不但自己倒了霉,还带累得一家社会学专业刊物受到本市有关部门的警告。这还不算,还惊动了该刊的一位顾问,连夜表示要不当顾问。此时我们才体会到这个发现是不受欢迎的,读者可以体会到我们此时是多么的惭愧和内疚。假设禁止我们出书,封闭有关社会学杂志,就可以使中国不再出现同性恋问题,这些措施就有道理。但同性恋倾向是遗传的,封刊物解决不了问题,所以这些措施一点道理都没有。值得庆幸的是,北京动物园的老虎当时不缺肉吃。由此得出花剌子模信使问题的第一个结论是:对于学者来说,研究的结论会不会累及自身,是个带有根本性的问题。这主要取决于在学者周围有没有花剌子模君王类的人。
  假设对花剌子模君王讲道理,就可以说,首先有了不幸的事实,然后才有不幸的消息,信使是信息的中介,尤其的无辜。假如要反对不幸,应该直接反对不幸的事实,此后才能减少不幸的信息。但是这个道理有一定的复杂性,不是君王所能理解。再说,假如能和他讲理,他就不是君王。君王总是对的,臣民总是不对。君王的品性不可更改,臣民就得适应这种现实。假如花剌子模的信使里有些狡猾之徒,递送坏消息时就会隐瞒不报,甚至滥加篡改。鲁迅先生有篇杂文,谈到聪明人和傻子的不同遭遇,讨论的就是此类现象。据我所知,学者没有狡猾到这种程度,他们只是仔细提防着自己,不要得出不受欢迎的结论来。由于日夜提防,就进入了一种模模糊糊的心态,乃是深度压抑所致。与此同时,人人都渴望得到欢迎的结论,因此连做人都不够自然。现在人们所说的人文科学的危机,我以为主要起因于此。还有一个原因在经济方面--挣钱太少。假定可以痛快淋漓的做学问,再挣很多的钱,那就什么危机都没有了。
  我个人认为,获得受欢迎的信息有三种方法:其一,从真实中索取、筛选;其二,对现有的信息加以改造;其三,凭空捏造。第一种最困难,第三种最为便利。在这方面,学者有巨大的不利之处,那就是凭空捏造不如奸佞之徒。假定有君王专心要听好消息,与其养学者,不如养一帮无耻小人。在中国历史上,儒士的死敌就是宦官。假如学者下海去改造、捏造信息,对于学术来说,是一种自杀之道。因此学者往往在求真实和受欢迎之中,苦苦求索一条两全之路,文史学者尤其如此。我上大学时,老师教诲我们说,搞现代史要牢记两个原则,一是治史的原则,二是党性的原则。这就是说,让历史事实按党性的原则来发生。凭良心说,这节课我没听懂。在文史方面,我搞不清的东西很多。不过我也能体会到学者的苦心。
  在中国历史上,每一位学者都力求证明自己的学说有巨大的经济效益、社会效益。孟子当年鼓吹自己的学说,提出了“仁者无敌”之说,有了军事效益,和林彪的“精神原子弹”之说有异曲同工之妙。学术必须有效益,这就构成了另一种花剌子模。学术可以有实在的效益,不过来得极慢,起码没有嘴头上编出来的效益快;何况对于君王来说,“效益”就是一些消息而已。最好的效益就是马上能听见的好消息。因为这个原因,学者们承受着一种压力,要和骗子竞赛语惊四座。看着别人的脸色做学问,你要什么,我做什么。必须说明的是,学者并没有完全变狡猾,这一点我还有把握。
  假如把世界上所有的学者对本学科用途的说明做一比较,就可以发现大致可分为两种,一种说,科学可以解决问题,但就如中药铺里的药材可以给人治病一样,首先要知识完备,然后才能按方抓药,治人的病。照这种观点,我们现在所治之学,只是完备药店的药材,对它能治什么病不做保证。另一种说道,本人所治之学对于现在人类所有遇到的问题马上就有答案,这就如买大力丸的,这种丸药百病通治,吃下去有病治病,无病强身。中国的学者素来有卖大力丸的传统,喜欢做妙语以动天听。这就造成了一种气氛,除了大力丸式的学问,旁的都不是学问。在这种压力之下,我们有时也想做几句惊人之语,但痛感缺少想象力。
  我记得冯友兰先生曾提出要修改自己的《中国哲学史》以便迎合时尚,这是狡猾的例子——罗素曾写了一本《西方哲学史》,从未提出别人做修改,所以冯先生比罗素狡猾——但再滑也滑不过佞人。从学问的角度来看,冯先生已做了最大的牺牲,但也没有被人看在眼里。佞人不做学问,你要什么我编什么,比之学人利索了很多——不是说天壤之别,起码也有五十步与百步之分。二三十年前,一场红海洋把文史哲经通通淹没。要和林彪比滑头,大家都比不过,人文学科的危机实际上在那时就已发生了。
  罗素修西方哲学史,指出很多伟大的学者都有狡猾的一面(比如说,莱布尼兹),我仔细回味了一下,也发现一些事例,比如牛顿提出了三大定理之后,为什么要说上帝是万物的第一推动力?显然也是朝上帝买个好。万一他真的存在,死后见了面也好说话。按这种标准,我国的圣贤滑头的事例更多,处处在拍君王马屁,仔细搜集可写本《中国狡猾史》。中国古代的统治者都带点花剌子模气质。我国的文化传统里有“文死谏”之说,这就是说,中国常常就是花剌子模,这种传统就是号召大家作敬业的信使,拿着屁股和脑壳往君王的板子刀子上撞。很显然,只要不是悲观厌世,谁也不喜欢牺牲自己的脑袋和屁股。所以这种号召也是出于滑头之口,变着法说君王有理,这样号召只会起反作用。对于我国的传统文化、现代文化,只从诚实的一面理解是不够的,还要从狡猾的一面来理解。扯到这里,就该得出第二个结论:花剌子模信使早晚要变得滑头起来,这是因为人对自己的处境有适应能力。以我和李银河为例,现在就再不搞同性恋问题了。
  实际上不但是学者,所有的文化人都是信使,因为他们产出的信息,而且都不承认这些信息是随口编造的,以此和佞人有所区别。大家都说这些信息另有所本,有人说是学术,有人说是艺术,还有人说自己传播的是新闻。总之,面对公众和领导时,大家都是信使,而且都要耍点滑头:拣好听的说或许不至于,起码都在提防着自己不要讲出难听的来——假如混得不好,就该检讨一下自己的嘴是不是不够甜。有关信使,我们就讲这么多。至于君王,我以为可以分为两种,一种是粗暴型,听到不顺耳的消息就拿信使喂老虎;另一种是温柔型,到处做信使们的思想工作,使之自觉自愿地只报来受欢迎的消息。这样他所管理的文化园地里,就全是使人喜闻乐见的东西了。这后一种君王至今是我们怀念的对象,凭良心说,我觉得这种怀念有点肉麻,不过我也承认,忍受思想工作,即使是耐心细致的思想工作,也比喂老虎好过得多。
  在得出第三个结论之前,还有一点要补充的——有句老话叫做“久居鲍鱼之肆不闻其臭”,这就是说,人不知自己是不是身在花剌子模,因此搞不清自己是不是有点滑头,更搞不清自己以为是学术、艺术的那些东西到底是真是假。不过,我知道假如一个人发现自己进了老虎笼子,那么就可以断言,他是个真正的信使。这就是第三个结论。余生也晚,赶不上用这句话去安慰马寅初先生,也赶不上去安慰火刑架上的布鲁诺,不过这句话留着总有它的用处。
  现在我要得出最后一个结论,那就是说,假如没有真的学术和艺术存在的话,在人变得滑头时它会离人世远去,等到过了那一阵子,人们又可以把它召唤回来——此种事件叫做“文艺复兴”。我们现在就有召唤的冲动,但我很想打听一下召唤什么。如果是召唤古希腊,我就赞成,如果是召唤花剌子模,我就反对。我相信马寅初这样的人喜欢古希腊,假如他是个希腊公民,就会在城邦里走动,到处告诉大家:现在人口太多,希望朋友们节制一下。要是滑头分子,就喜欢花剌子模,在那里他营造出了好消息,更容易找到买主。恕我说得难听,现在的知识分子在诚恳方面没有几个能和马老相比。所以他们召唤的东西是什么,我连打听都不敢打听。




  

相关话题

  linux创建的硬链接为什么不占用磁盘空间? 
  对神经网络某一层做了小改进,效果却提升显著,可以发论文吗? 
  TensorFlow 中 padding 的 SAME 和 VALID 两种方式有何异同? 
  为什么人们会崇拜一个编程语言? 
  马化腾称「王者荣耀将举办 AI 电竞赛,希望激发青年人对通用 AI 的研究兴趣」,有哪些看点值得关注? 
  机器人同事越来越多,如何避免自己在科技进步过程中被替代? 
  从算法的角度来看,Elsagate 事件暴露出了「自动推荐」的哪些问题,该如何规避? 
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心? 
  你们说的ABI,Application Binary Interface到底是什么东西? 
  MIT 猎豹机器人算法有多复杂?中国是否能研发出这种机器人? 

前一个讨论
大机(HD660s一类)真的很看推力么?
下一个讨论
我想给台式电脑增加100G的内存,如何挑选内存条,为何网上可购买的是8G和16G的内存条呢?





© 2024-05-21 - tinynew.org. All Rights Reserved.
© 2024-05-21 - tinynew.org. 保留所有权利