如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示？第1页

tian-yuan-dong 网友的相关建议:

昨天晚上抽空看了一下DM的demonstration还有live的比赛。确实做得很好。

我星际水平很烂，星际2也玩得不多，相信大家已经看到了大量的游戏评论，我就跳过了。

整个系统和AlphaGo第一版很接近，都是先用监督学习学会一个相当不错的策略，然后用自对弈（self-play）加强。当然有两个关键的不同点，其一是自对弈用的是population-based以防止掉进局部解（他们之前在Quake 3上也用到了）；其二是在network里面加了一些最近发表的神经网络模型，以加强AI对于游戏全局和历史长程关联性的建模能力（比如说用transformer，比如说让AI可以一下子看到全部可见区域），这两点对于不完全信息游戏来说是至关重要的，因为不完全信息游戏只能通过点滴的历史积累来估计出当前的状态，尤其是对手的状态，多一点历史记录就能学得更好些，这个我们做过一些即时战略游戏（MiniRTS）的研究，很有体会。

星际一个很大的问题是输出的行动空间（action space）巨大无比，我记得他们在一开始做的基线（baseline）算法里面用了language model输出精确到单位的行动（unit-level action），但在DM的blog里面却说每个时间节点上只有10到26种不同的合法行动，然后在他们的demonstration里面”considered Build/Train”下面有33个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略（比如说通过聚类的方法），然后在训练的时候直接调用这些子策略就行了。但具体细节不明，期待完整论文出来。

另外，这次AlphaStar没有用基于模型进行规划的办法，目前看起来是完全用经典的off-policy actor-critic加大量CPU硬来，就有这样的效果。关于AlphaStar输掉的那局。实话说被简单的空投战术重复几次给拖死了，让人大跌眼镜。联想到OpenAI Five对职业选手也输了，主要还是应变能力不强，无法对新战术新模式及时建模。

围棋因为游戏规则和双方信息完全透明，下棋的任何一方都可以用蒙特卡罗树搜索（MCTS）对当前局面进行临时建模和分析，但不完全信息博弈因为得要估计对手情况就没有那么简单。AlphaStar目前似乎是无模型的（model-free，Reddit上的解答确认了这一点）。我不知道是不是在进行充分的训练之后，纯粹无模型（model-free）的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上，就算是用相当好的模型比如说OpenGo，要是每盘都不用搜索而只用策略网络的最大概率值来落子，还是会经常犯错。所以说，若是在不完全信息博弈里面用上了基于模型（model-based）的方法，并且能够稳定地强于无模型（model-free）方法，那在算法上会是一个比较大的突破。所以其实深度强化学习还是有很多很多很多没有解决的问题，你可以说它有很大局限性，也可以说它潜力巨大。

在这之上，更难的一个问题是如何让AI具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的，可能会想到一秒后，也可能会想到一年后，而且对新模式可以很快概括总结并且利用。但真写点算法去模仿人的预测能力，就会出现各种各样的问题，比如说对没探索过的地方过于自信，多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的，目前还是研究热点，没有一个统一的答案。对应到星际上，人在全局战略上的优化效率要远远高于AlphaStar，比如说一句“造两个凤凰去灭了那个来空投的棱镜”，可能就顶AlphaStar自对弈几天几夜。这个效率的差距（可能是指数级的）是否可以用大量计算资源去填补，会是和顶尖高手对局胜败的关键所在。

edwin_hao_qing_han 网友的相关建议:

全程观看了比赛。

事实上AI算是作弊，有效操作每分钟250下其实是非常惊人的，而且没有任何失误。如果按照职业选手来看的话许多目前最顶尖的职业选手都无法做到好像电脑呈现出的这样的操作。

这一点在对抗mana的时候尤其明显，有一盘AI只是爆追猎就把mana完爆。游戏后期那次从三个方向夹击上来的完美包抄同时把每个受伤的追猎都往后闪现的操作，根本已经超越了人类操作的极限。

如果允许操作碾压的话，事实上AI战胜人类很简单。只需要选取相对稳健的宏观战术，然后做好侦查。前期依靠操作滚雪球积累优势，然后等到兵力适当碾压的时候一波带走就可以了。

这样的思路这也正是星际一时代，人族选手Flash终结这款游戏的原因之一。没有人可以在前期把Flash rush下来从而阻止其完美运营。在累积到优势之后只要依靠稳健的操作通常一波就可以把对手带走。

但是这也成为了最后现场比赛mana胜利的关键，因为AI暴露了很明显的问题。因为它只会在优势的时候进攻，并且能确保操作碾压从而扩大优势一波把你打死。但是这也意味着如果它判断自己没有优势，甚至是劣势的时候就绝对不会进攻，甚至电脑自己也不相信自己会翻盘。

这就是为什么最后那盘当mana进攻AI分基地的时候，AI完全放弃救援，那是因为在当时AI的判断下，自己去救援是不会有任何希望的。因为自己不会犯错，所以AI也不相信mana会犯错，就这样被mana一举攻下。mana的策略其实也很简单，前中期适当牵制，稳步发展，然后积攒出一波优势兵力直捣黄龙。

其实挺欣慰的。作为非韩顶尖神族选手之一的mana，一开始输了的那五盘算是措手不及下心态直接被打崩。然后反思调整之后，面对进化过更强势的AI，却可以在现场轻松获胜。获胜之后mana带着自信的微笑，而现场两位Deepmind的工作人员表情都很难看。

总体而言比起围棋星际其实还是难度要高出太多的，许多国内报道只注重于报道10：1的成绩，甚至隐去最后的胜利不谈，完全是属于在胡说八道。

1月25日的补充：

说实话没想到这个答案会有这么多争论和意见，我一般来说没有回复评论的习惯，因为这只会影响心情也浪费时间。撇开懂游戏的是不是懂AI，懂AI的是不是懂游戏，以及我是不是英语不行没听懂解说的意思等等不说。

我只引用 @grapeot 一些观点来说明一下很多人关心的关于手速的问题。

“关于星际AI，自媒体说的很多了，AI碾压人类，智能再下一城。我来说说大多数公众号都没提到的一些细节。

Q：这个比赛设定公平吗？

A：非常不公平。这个设定对电脑非常有利，打赢了是本分，打不赢才奇怪。

Q：不是限了手速吗？

A：还真没有。限制的是平均手速，但电脑在正面对战的时候还是会爆1600apm，也就是每秒25次操作左右。而且这个速度会持续20秒。感觉对面选手都要砸键盘了。

Q：那也只是暂时现象，平均速度毕竟一样啊。

A：还有个可能更重要的因素是没有限制操作精度。比如多线操作/侦查，需要频繁切地图。电脑可以直接点击小地图左起第23个像素，在0.01秒内非常精确地切过去；但人类只能看个差不多点下小地图，然后卷动视野微调。耗时可能一两秒。所以电脑没有废操作一次成功，人类反而需要好几次操作。从这个角度说人类就算手速比电脑快，但还是吃亏的。

Q：好吧，那这样的精确操作有什么用呢？大不了效率高一些。

A：用处可大了，deepmind之前做了一个微操demo，电脑控制一坨小兵给人类随便打，不还击。就靠把小兵拖来拖去就能让人类攻击大都落空。

Q：你咋就这么唱衰AI！以后alphastar打败人类冠军的时候你等着被打脸吧！

A：如果你回头看我的叙述，从来没有提到智能，没有说AI行或者不行，说的全是操作。我觉得这个比赛设定是不公平的，因为就算AI很弱，或者哪怕我上去打，给我1600apm和像素精度的点击，在这种设定下也可能打败高手。

Q：那你说应该怎么比？

A：至少双方输出上要公平。比如弄个摄像头和机械臂，摄像头给电脑100ms前的影像模拟视觉暂留，只有中间是清楚的周围模糊模拟人眼视觉。用机械臂操纵鼠标，随机加入1mm的颤抖模拟手抖，加入100ms的延时模拟神经信号传递，移动速度限制在5m/s模拟手速。说到这你是不是也发现人类很弱了？

总之我并不评论AI如何，只是感觉电脑拿来打电脑游戏设定上很容易有隐藏的陷阱，搞大新闻容易但实际价值往往不大。”

很显然如果忽略手速和操作精确度的话，cs也是一个讲究团队合作和战术分配的游戏，为什么不训练ai去打cs呢？

计量经济学里面一个很重要的观点是，如果你要说明某一项政策是否有效，那么至少你要拿苹果和苹果比，而不是苹果和香蕉比较。如果你能领会这点的话，也就不会奇怪为什么我会有上面的看法了。

如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示？的其他答案点击这里

如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示？第1页