首先,地狱有永恒的火狱,可以作为取之不尽用之不竭的能源,造福鬼类;其次,地狱有一大批杰出的人类思想家、科学家、发明家,可以极大地引领鬼类文明的科技进步;最后,地狱有数亿的原共产党员,其中不乏最优秀、最核心的老一辈同志,他们会在地狱里发展党组织,由于下地狱的人中无神论者居多,没有宗教和迷信的阻力,共产主义的真理之火将以星火燎原之势传遍地狱。
朋友们,有了以上三点,这是什么?
这是一个物质极大丰富,人人各尽所能,各取所需的共产主义社会。
上天堂?得救?哈哈哈,你是说让我到天堂去给鸟人们下跪,换取果腹的口粮,一天不跪就会没饭吃那种?
昨天晚上抽空看了一下DM的demonstration还有live的比赛。确实做得很好。
我星际水平很烂,星际2也玩得不多,相信大家已经看到了大量的游戏评论,我就跳过了。
整个系统和AlphaGo第一版很接近,都是先用监督学习学会一个相当不错的策略,然后用自对弈(self-play)加强。当然有两个关键的不同点,其一是自对弈用的是population-based以防止掉进局部解(他们之前在Quake 3上也用到了);其二是在network里面加了一些最近发表的神经网络模型,以加强AI对于游戏全局和历史长程关联性的建模能力(比如说用transformer,比如说让AI可以一下子看到全部可见区域),这两点对于不完全信息游戏来说是至关重要的,因为不完全信息游戏只能通过点滴的历史积累来估计出当前的状态,尤其是对手的状态,多一点历史记录就能学得更好些,这个我们做过一些即时战略游戏(MiniRTS)的研究,很有体会。
星际一个很大的问题是输出的行动空间(action space)巨大无比,我记得他们在一开始做的基线(baseline)算法里面用了language model输出精确到单位的行动(unit-level action),但在DM的blog里面却说每个时间节点上只有10到26种不同的合法行动,然后在他们的demonstration里面”considered Build/Train”下面有33个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略(比如说通过聚类的方法),然后在训练的时候直接调用这些子策略就行了。但具体细节不明,期待完整论文出来。
另外,这次AlphaStar没有用基于模型进行规划的办法,目前看起来是完全用经典的off-policy actor-critic加大量CPU硬来,就有这样的效果。关于AlphaStar输掉的那局。实话说被简单的空投战术重复几次给拖死了,让人大跌眼镜。联想到OpenAI Five对职业选手也输了,主要还是应变能力不强,无法对新战术新模式及时建模。
围棋因为游戏规则和双方信息完全透明,下棋的任何一方都可以用蒙特卡罗树搜索(MCTS)对当前局面进行临时建模和分析,但不完全信息博弈因为得要估计对手情况就没有那么简单。AlphaStar目前似乎是无模型的(model-free,Reddit上的解答确认了这一点)。我不知道是不是在进行充分的训练之后,纯粹无模型(model-free)的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上,就算是用相当好的模型比如说OpenGo,要是每盘都不用搜索而只用策略网络的最大概率值来落子,还是会经常犯错。所以说,若是在不完全信息博弈里面用上了基于模型(model-based)的方法,并且能够稳定地强于无模型(model-free)方法,那在算法上会是一个比较大的突破。所以其实深度强化学习还是有很多很多很多没有解决的问题,你可以说它有很大局限性,也可以说它潜力巨大。
在这之上,更难的一个问题是如何让AI具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的,可能会想到一秒后,也可能会想到一年后,而且对新模式可以很快概括总结并且利用。但真写点算法去模仿人的预测能力,就会出现各种各样的问题,比如说对没探索过的地方过于自信,多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的,目前还是研究热点,没有一个统一的答案。对应到星际上,人在全局战略上的优化效率要远远高于AlphaStar,比如说一句“造两个凤凰去灭了那个来空投的棱镜”,可能就顶AlphaStar自对弈几天几夜。这个效率的差距(可能是指数级的)是否可以用大量计算资源去填补,会是和顶尖高手对局胜败的关键所在。
十年前微博培养了一批自由派,他们掌握了话语权。
现在其他不同意、反对他们的人也开始发言了,并且人数上看比他们多,他们就说这些人都是小粉红。
观点幼稚、简单化的人双方都有。我如果想,也可以问为什么知乎现在这么多『带路党』?非要把这些人挑出来当靶子攻击,无非是想玩田忌赛马的把戏罢了。
我是反对自由派的,但是我从来不去微博上找那些被很多人称为『公知』、『带路党』的人截图去反驳。因为他们的观点很幼稚,不需要我去反驳,自然有很多人去。
我更关注的是温和的,以『改革开放』的名义行自由主义之实的人。这些人比所谓的『公知』、『带路党』高明得多,也隐蔽得多。他们知道如何把自己实际上是自由主义的意识形态用改革开放的话语、改革开放时期领导人的言论包装、偷换概念*。因为』改革开放『是中国的政治正确,是要长期坚持的,所以这样你也很难批评他们,不然你就是』文革『、』极左『、』左棍『。这些人需要更加细致的批评。
PS:小粉红是个标签,『自由派』不是,是有明确的意识形态指向的。我不用』带路党『、』公知『这些词,而用』自由派『,就是因为指代是明确的。
*我具体举几个例子。
1.比如所谓『前三十年』、『后三十年』的问题。
『前三十年』确实发生了巨大的错误,引起了灾难,比如大跃进、比如文革。这些都是已经被党史全面否定了的东西。一些人假装担心重新回到『文革』,于是说前三十年必须全面否定,似乎前三十年只有大跃进、文革,忽略了前三十年还有土地改革、工业化的起步、社会主义改造、两弹一星、全民识字运动、全民医疗卫生水平的巨大提升、全民教育的普及、男女平等的巨大进步等等,其实质是借否定『前三十年』否定中国的基本制度,把后三十年看做对前三十年的全面否定,从而把中国发展的成功说成是否定中国基本制度的成果。
2.再比如所谓『韬光养晦』的问题。原话是『韬光养晦,有所作为。』,他们只提前半句。因为近几年中美关系的恶化,影响到了一些人的既得利益,他们希望中国单方面让步,于是把中国维护自己利益的行为通通说成是不韬光养晦,完全忽视了现在中国和30年前的中国完全不同,时代也不同,中美关系在中国不单方面做出巨大让步的情况下不可能回到从前。他们所谓的『韬光养晦』,就是不能得罪美国而已。一带一路不仅是为了打开外交新局面,也是我国目前自身扩大海外市场的发展需要,他们说援助亚非拉国家是违背了『不要当头』的说法,却无视当时的『当头』指的是陷入与其他国家的意识形态争论而影响双边关系,并不是说要放弃对外援助。