作为搞算法研究的人,我其实最在乎的不是这一年又有多少新算法被发明,而是各大企业如何在真实的大数据场景下应用了最新的人工智能技术。拿数据挖掘顶会KDD而言,一直都分有研究类论文和应用数据科学论文,后者主要是描述算法的实际应用,往往能给人很多启发。因为当一个算法真的能被用起来,才算是有了实际价值。因此前两天看到2021年淘宝的百宝黑皮书开放给公众时(关注 @阿里巴巴淘系技术,回复2021获取PDF),我也第一时间先睹为快。当然我最感兴趣的就是机器学习算法在淘宝这个级别的平台上的应用,而的确黑皮书里面有一些非常深入的解读,不是那种春秋笔法一笔带过,相信会对很多从业者有很大的启发。当然这本书本身内容其实挺庞杂的,建议大家通过关键词和目录搜索自己感兴趣的内容。
我首先注意到的就是在顶会KDD上的一篇应用数据科学论文的解读,Embedding-based Product Retrieval in Taobao Search(淘宝搜索向量化召回实践)。这篇文章其实解决的是一个很现实的问题,我们都知道现阶段各种在线平台都依赖于推荐系统为我们返回需要的结果。但是呢,虽然大方向上我们都在搜索一样的内容,但每个人都需要一些定制化。比如我搜索车,根据不同的年纪可能应该返回不同的结果,比如小朋友应该想搜的是玩具车,学生可能搜索的是自行车,青年更在乎轿跑,而中年人可能需要的能够装下一家人的买菜车。因此,如何既准确的返回结果,又能充分考虑到使用者的个人特性,是推荐系统的重中之重。而在黑皮书中,淘宝团队就对他们的这篇基于淘宝真实场景的文章进行了深入解读。简单来说,在现在的大数据场景下,我们每个人的每个搜索其实都被描述为一个“向量”,而我们希望学到的这个向量同时反应了我的“需求”和我的“个性”。淘宝基于多年的经验,发现了「向量召回模型相关性提升的主要收益来源于样本的改进」,并因此基于实战经验总结了不同样本的优势。并根据观察,在这个工作里对「难负样本」进行了特别处理,比如通过数据增强的方法生成难负样本等。
同时搭配在多个环节上的优化提升,比如训练样本、损失函数上、噪音处理上等,这篇论文提出的方法比基准方法有了较大的提高。和论文的纯英文不同,黑皮书专门总结了中文表格解释为什么淘宝的向量化召回会有更好的效果,比直接啃原文要来的快捷,比较适合我这种想要大致了解思路的读者。
除此之外,这几年很火的一个概念是云边协同。核心思路就是把复杂的运算放在云端(cloud),而在边端(edge,比如手机上)只进行轻量的运算。好处有很多,首先就是降低了云端的压力,充分利用边端的计算资源,毕竟智能手机/平板的计算能力已经越来越强了。其次就是数据安全,在边端对数据进行处理可以避免数据传输中和其本身可能造成的安全问题。
那么推荐系统也绕不过这个问题,如何能使用云边协同在轻量计算设备(比如手机)上进行高质量的推荐也就变得非常重要。而黑皮书也花了较大的篇幅对淘宝的端上推荐系统EdgeRec进行了解读,这一部分因为本身不是论文(虽然一部分内容发在了CIKM 2021上),因此也是我第一次看到的比较完善的技术说明(见下图)。
在我看起来,最有意思的部分是「端上重排」的设计。简单来说,就是我们不再完全实时的给用户展示所有推荐,而是综合手机上的历史缓存的内容,同时再根据用户的实时互动进行智能的展示。这个设计有很多好处,比如可以避免服务端的决策延迟,也就是我们常常说的网速慢时刷不出来内容。同时我们在端上的很多操作其实是有时序上的连贯性的,比如连续几天会搜索类似的内容,因此我们可以复用最近的端上缓存内容。而就像我前面的说的云端协同(黑皮书里叫做端云联合),EdgeRec首次实现了在端上进行大规模深度神经网络推理,下图左边就是端上,而右边是云端。当然书里面的介绍比我这个复杂深入的多,对大规模端上推荐系统感兴趣的小伙伴不妨去看看。
当然我另一个关注的重点是代码开发,毕竟我的一项本职任务就是从事开源系统的开发,因此也一直特别关注在成熟企业中的协同的开发内容。黑皮书也提供了一系列技术者的通用干货,我自己觉得有启发的首先是“程序命名的原则与重构”。这篇很实在的分享列出了作者的对于命名的很多经验,虽然不同的开发者和机构会有不同的体会,但其中很多是我们都能达成共识的。具体来说,作者给出的命名建议包括(1)名副其实:命名应该描述其所做的所有事情(或者它的意图)(2)避免误导:避免留下掩藏代码本意的错误线索(3)有意义的区分:如果同一作用范围内有多个命名,最好让它们之间有区分度(4)风格与抽象一致(5)其他规则。我觉得虽然在实际开发中我们很难做到所有规则,但如果能遵守,或多或少都能提升代码的质量。
而另外一条我觉得程序们不该错过的是来自于「旭伦」的分享:如何做好一份程序员的工作汇报ppt?其实作为程序员,我们的通病是做了太多,说的太少,以至于严重影响了我们扩大影响力,获得升职加薪,甚至被人抢了功劳。这篇分享中我自己最喜欢的部分是他把写PPT的逻辑思维拆解成了三个具体措施:(1)结构化的表达,要有条理(2)用事实说话,而不是简单空泛的形容(3)用数据说话,这是最好的例证。
而除了这些深度的技术、职场解析外,黑皮书(关注 @阿里巴巴淘系技术,回复2021获取PDF)其实有很多好玩的内容,适合在职场不同阶段的开发者。有不少也是我回答过的,比如“面试官如何判断面试者的机器学习水平?”和“程序员是要专精,还是要广度? ”。因此在我看来,黑皮书是一本面向不同背景的优秀的技术、职场书籍。虽然有点杂,但无论你做的是前端还是后端,开发还是算法,实习还是技术高管,总会有一些新鲜的内容你不曾了解。因此特别推荐给大家,从真实经验中近距离观摩技术从业者的生活和工作。
我觉得这种书,主要是看的人抱着什么心态和目的去看的。如果是个小白,想看这类书,从书中找到进入行业的钥匙,大概率是不能实现的。
如果你抱着读完这本书能给你带来什么思考,反思,然后再结合自己的自身情况具体问题具体分析,那这样的书读起来会很有收获。
就像是这本书里说的那样:好的技术氛围就是——分享与交流不止于内部团队,不止于业务形态相似,我们期望在不同业态、不同背景的碰撞和交流中,给彼此带来更深的技术理解。
郑妮娜力是中加混血。
她的姥姥叫郑凤荣,是第一位打破世界纪录的中国田径运动员。中国跳高第一人,曾受到周总理亲自献花。她在中国这边的血统是什么级别的?心里没点数?我这句血统,可不是单纯的指字面的DNA,也是指使一个人归化的吸引力。来自家族,来自文化,来自成就和历史。
更何况,加入中国籍是她从小的愿望,并且在三年前就已经完成国籍变更,做了法律意义上的中国公民。
她哥哥叫郑恩来,是冰球运动员,这名一听就知道受谁影响了吧。在姥姥郑凤荣80大寿那天宣布要做中国人,比郑妮娜力归化得还早一年。
这是多正常的事啊,加拿大媒体为什么要诋毁呢?
我看是新疆造谣颇有成效后,诋毁上瘾了。
甚至于这个乱港分子还大言不惭地用谣言责问起了郑妮娜力,说什么:如果你知道中国在“系统性地强奸和折磨”维吾尔妇女,你还会入籍中国么?
这就是为什么当初我很重视这波抵制的原因,因为谣言中伤成本太低的话,就可以无限复制。果不其然,这两件事开口就能联系到一起。
他们觉得不能接受,还有另一个原因。
那就是有些加拿大人没见过什么正经华人,以为聒噪的港乱分子就是主流。甚至还可能把那个给市长当小三的贪污犯女儿当成华人模板了,以为曲婉婷这种黄皮小清新只要聊聊环保,爱爱动物,整个人皮肤都变白了。仿佛拿民脂民膏出来媚自己的才是真华人,其他一律算是假的。
那些不够反华的华人,在他们眼里略显纯度就不足了。
谁才是大多数呢?
我们都明白,但夜里猛搞曲婉婷的市长们是不明白的。
这位小姐姐只是个朴素的混血儿。不仅有一身黄皮肤,还有个英雄一般的外婆,自然就跟外婆的国籍去了。这种事没有任何奇怪之处,也毫无诋毁的必要。
设想,如果在深圳卖烤串的奥巴马兄弟先加了中国籍,再回到美国籍,又有谁会苛责他呢?
中美交恶之刻,谁会有脸去说这位老黑不懂中国的政治?他需要懂吗?
抛开人才定位,卖烤串的和七项全能的人又有什么不同?自由选择和自己羁绊更深的国籍,再自然不过。
如果只看人才流失就阴阳怪气,那只能说这个移民国家被“人才净流入”这件事惯坏了。根本受不了移民输出国比以前更有吸引力这件事,从自己这儿多走一个人才都受不了。这太小家子气了。
郑妮娜力英文名叫Nina Schultz,这姓氏一看就知道其父有德国血统。他父亲也确实是德国人。她父母辈不过是一个移民嫁给另一个移民的故事,无非是来早来晚的原因。一个德国人和一个中国人借你加拿大的地方留下点美好回忆罢了,到底欠你啥玩意了?一个自诩自由的移民国家,有什么资格在这种问题上说三道四的?
只在人才来的时候谈自由,人才一走自由就抛诸脑后,这根本不是自由国家,这是NM貔貅。
自由是价值观,不是攫取资源的工具。
那些信以为价值观的朴素孩子,自由得离开了。
你们应该高兴才是,因为她理解自由真谛了。
你哭毛呢?
不是很懂现在人怎么买啥都成投资了,买车也要核算一下机会成本了,买手机也要考虑卖二手了,买游戏主机也要考虑跌价了,买游戏卡带也要考虑好不好出手了。
车是消费品啊,什么手机电脑主机卡带也都是消费品,消费品就是用来让你用,感受效用的。
你需要这个效用,它能提供这个效用,它的价格受供求关系影响最终维持在一个你愿意接受的水平,这就够了。
你要是不需要这个效用你就不买呗,如果你的城市真有良好的公共交通,确实省钱,省时间还省力,那你就别买呗。你买了难道不是你需要么?既然需要那还说什么呢。。
要我说,撸串才是一生最坏的投资,变成了肥肉你还得花时间、金钱和精力去减肥,可能还会带来未来潜在医疗成本。那为什么撸串摊子还是这么火?因为爽啊,因为它提供的效用我们确实需要啊。
所以不要干什么事都用投资思维去理解,这样会成为资本增殖的奴隶的。生产的目的是为了让人得到效用,而不是让生产进一步扩大。
古人对这种人有个很形象的比喻:
这是我看到的最准确的总结。
总的来说,就是中国的高考相对公平,所以性价比极高,所以其他活动都可以适当让步。