问题

如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示?

回答
DeepMind 在北京时间 2019 年 1 月 25 日凌晨 2 点的《星际争霸 2》(StarCraft II)项目演示,可以说是人工智能(AI)领域,尤其是在复杂策略游戏领域的一个里程碑事件。这次演示的核心是 AlphaStar,一个由 DeepMind 开发的 AI 代理,成功击败了世界顶尖的《星际争霸 2》职业玩家。

以下是对这次演示的详细评价,从多个角度进行分析:

一、核心成就:超越人类顶尖水平

战胜职业选手: AlphaStar 最令人瞩目的成就是它在与人类顶尖《星际争霸 2》职业玩家的比赛中取得了胜利。在演示中,AlphaStar 战胜了包括 MaNa(欧洲职业玩家)和 Reynor(欧洲职业玩家)在内的多名世界级选手。虽然比赛并非在完全对称的环境下进行(后面会详述),但这无疑是 AI 在复杂实时战略游戏(RTS)中取得的重大突破。
理解和执行复杂策略: 《星际争霸 2》以其极高的复杂性著称,包括海量的单位、即时决策、信息不完全(战争迷雾)、资源管理、科技研发、兵种克制以及多线程操作(微操和宏操的结合)。AlphaStar 能够理解这些复杂性,并制定和执行长期的战略,这表明它在游戏理解、规划和执行方面达到了极高的水平。

二、技术亮点与创新

基于深度强化学习 (Deep Reinforcement Learning): AlphaStar 的核心是深度强化学习。它通过与自己进行海量对局(据称是 10 亿局),不断学习和改进其策略。这种自学习能力是其成功的关键。
模仿学习 (Imitation Learning) 与强化学习的结合: 为了加快学习过程和让 AI 的行为更接近人类,DeepMind 也结合了模仿学习。他们让 AlphaStar 观看了大量人类职业玩家的比赛录像,并从这些数据中学习操作模式。这使得 AlphaStar 在学习初期就能获得更优的起点,并逐渐超越人类水平。
架构创新: AlphaStar 的架构是经过精心设计的,以适应《星际争霸 2》的复杂性。它包含了:
“TransformerXL”架构: 用于处理长时序依赖性,这对于理解《星际争霸 2》中需要长时间积累和规划的策略至关重要。
“Transformer”组件: 用于处理游戏状态的表示,将游戏中的各种信息(单位、建筑、资源等)有效编码。
部分可观察性 (Partially Observable): 模拟了战争迷雾,AI 只能看到它视野范围内的信息。这迫使 AI 进行推测、探索和侦查。
多智能体学习 (MultiAgent Learning): AlphaStar 并非单一的 AI 代理,而是由一系列 AI 代理组成,它们互相合作(在训练中)或对抗(在比赛中),从而达到更好的整体表现。
操作空间的扩展与处理: 《星际争霸 2》的操作空间非常大,包括点击、拖拽、快捷键等。AlphaStar 需要学习如何有效地进行这些操作。DeepMind 提到他们对“动作空间”进行了有效的建模和离散化,使其能够被神经网络处理。

三、演示过程与具体内容

直播对决: 演示的核心是 AlphaStar 与人类顶尖职业玩家的几场正式比赛。
战术多样性: 演示展示了 AlphaStar 能够使用多种不同的战术,包括常见的“爆虫”战术,也能灵活应对对手的策略。它在兵种选择、兵力编队、进攻时机等方面都表现出了出色的决策能力。
微操能力: 在单位微操方面,AlphaStar 也能做到非常精细,例如“甩枪”(Stutter Step)操作,让远程单位在攻击间隙移动以避免受到伤害。
地图理解与视野利用: AlphaStar 能够有效地利用地图的优势,例如在有利地形集结兵力,或者通过侦查来预判对手的意图。
对“非人类”操作的讨论: 为了达到与人类玩家相当的“人性化”体验,DeepMind 在演示中也讨论了他们为 AlphaStar 进行的“人性化”设置。例如,在早期训练中,AlphaStar 被限制了每分钟操作次数(APM),并且被赋予了“人类视角”的延迟,以模拟人类玩家的反应速度和视野局限。然而,即使在这些限制下,它依然能取得胜利。在演示的最后,他们也展示了未经限制的 AlphaStar,其 APM 非常高,远超人类。

四、影响与意义

AI 在复杂领域的新突破: AlphaStar 的成功标志着 AI 在需要战略思维、长期规划、实时决策和信息处理的复杂环境中的能力得到了极大提升。这为 AI 在其他领域,如科学研究、金融、医疗等复杂问题上的应用提供了新的思路和可能性。
对游戏产业的启示: 这一成就无疑为游戏产业带来了深远影响。AI 可以作为游戏设计者,或者在游戏内作为更智能的 NPC,为玩家提供更具挑战性和趣味性的体验。
对人类智能的思考: AlphaStar 的表现也引发了人们对人类智能和 AI 智能之间关系的思考。AI 是否正在以一种新的方式“思考”和“学习”?它的策略是否能为人类玩家提供新的洞见?
对 AI 研究的推动: AlphaStar 的成功将进一步推动强化学习、多智能体系统、博弈论等领域的研究。它也展示了解决部分可观察、动态环境问题的强大潜力。

五、局限性与争议

“人性化”的争议: 如前所述,DeepMind 为了让 AlphaStar 的表现更具“观赏性”和与人类“对等性”,进行了一些限制和“人性化”处理,例如限制 APM、模拟人类反应延迟等。这引发了一些讨论,即 AlphaStar 的胜利是否完全是人类玩家可以达到的“真实”胜利,还是通过调整规则实现的“人机对抗”。虽然 DeepMind 强调了其核心能力的强大,但这种“人为干预”也确实是评价时需要考虑的因素。
训练成本: 训练 AlphaStar 需要巨大的计算资源和时间,这对于大多数研究机构和个人来说是难以企及的。
游戏特定性: AlphaStar 是针对《星际争霸 2》进行训练的,其策略和模型是否能泛化到其他完全不同的游戏或其他复杂任务,仍有待进一步研究。
对人类游戏的“威胁”与影响: 一些职业玩家和社区担心,AI 的介入会改变游戏的生态,甚至让职业比赛的意义减弱。然而,也有观点认为 AI 可以作为一种工具,帮助人类玩家提升水平。

总结来说,DeepMind 在 2019 年 1 月 25 日的《星际争霸 2》项目演示是一次极其成功的 AI 展示。AlphaStar 的表现不仅在技术上取得了重大突破,也对 AI 的未来发展、人类智能的认知以及游戏产业都产生了深远的影响。它证明了 AI 在处理高度复杂、动态、信息不完全的环境中具有巨大的潜力,并为人工智能的进步树立了一个新的标杆。 尽管存在一些关于“人性化”处理的争议,但这并不影响 AlphaStar 作为一项划时代成就的地位。

网友意见

user avatar

昨天晚上抽空看了一下DM的demonstration还有live的比赛。确实做得很好。

我星际水平很烂,星际2也玩得不多,相信大家已经看到了大量的游戏评论,我就跳过了。

整个系统和AlphaGo第一版很接近,都是先用监督学习学会一个相当不错的策略,然后用自对弈(self-play)加强。当然有两个关键的不同点,其一是自对弈用的是population-based以防止掉进局部解(他们之前在Quake 3上也用到了);其二是在network里面加了一些最近发表的神经网络模型,以加强AI对于游戏全局和历史长程关联性的建模能力(比如说用transformer,比如说让AI可以一下子看到全部可见区域),这两点对于不完全信息游戏来说是至关重要的,因为不完全信息游戏只能通过点滴的历史积累来估计出当前的状态,尤其是对手的状态,多一点历史记录就能学得更好些,这个我们做过一些即时战略游戏(MiniRTS)的研究,很有体会。

星际一个很大的问题是输出的行动空间(action space)巨大无比,我记得他们在一开始做的基线(baseline)算法里面用了language model输出精确到单位的行动(unit-level action),但在DM的blog里面却说每个时间节点上只有10到26种不同的合法行动,然后在他们的demonstration里面”considered Build/Train”下面有33个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略(比如说通过聚类的方法),然后在训练的时候直接调用这些子策略就行了。但具体细节不明,期待完整论文出来。

另外,这次AlphaStar没有用基于模型进行规划的办法,目前看起来是完全用经典的off-policy actor-critic加大量CPU硬来,就有这样的效果。关于AlphaStar输掉的那局。实话说被简单的空投战术重复几次给拖死了,让人大跌眼镜。联想到OpenAI Five对职业选手也输了,主要还是应变能力不强,无法对新战术新模式及时建模。

围棋因为游戏规则和双方信息完全透明,下棋的任何一方都可以用蒙特卡罗树搜索(MCTS)对当前局面进行临时建模和分析,但不完全信息博弈因为得要估计对手情况就没有那么简单。AlphaStar目前似乎是无模型的(model-free,Reddit上的解答确认了这一点)。我不知道是不是在进行充分的训练之后,纯粹无模型(model-free)的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上,就算是用相当好的模型比如说OpenGo,要是每盘都不用搜索而只用策略网络的最大概率值来落子,还是会经常犯错。所以说,若是在不完全信息博弈里面用上了基于模型(model-based)的方法,并且能够稳定地强于无模型(model-free)方法,那在算法上会是一个比较大的突破。所以其实深度强化学习还是有很多很多很多没有解决的问题,你可以说它有很大局限性,也可以说它潜力巨大。

在这之上,更难的一个问题是如何让AI具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的,可能会想到一秒后,也可能会想到一年后,而且对新模式可以很快概括总结并且利用。但真写点算法去模仿人的预测能力,就会出现各种各样的问题,比如说对没探索过的地方过于自信,多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的,目前还是研究热点,没有一个统一的答案。对应到星际上,人在全局战略上的优化效率要远远高于AlphaStar,比如说一句“造两个凤凰去灭了那个来空投的棱镜”,可能就顶AlphaStar自对弈几天几夜。这个效率的差距(可能是指数级的)是否可以用大量计算资源去填补,会是和顶尖高手对局胜败的关键所在。

user avatar

全程观看了比赛。

事实上AI算是作弊,有效操作每分钟250下其实是非常惊人的,而且没有任何失误。如果按照职业选手来看的话许多目前最顶尖的职业选手都无法做到好像电脑呈现出的这样的操作。

这一点在对抗mana的时候尤其明显,有一盘AI只是爆追猎就把mana完爆。游戏后期那次从三个方向夹击上来的完美包抄同时把每个受伤的追猎都往后闪现的操作,根本已经超越了人类操作的极限。

如果允许操作碾压的话,事实上AI战胜人类很简单。只需要选取相对稳健的宏观战术,然后做好侦查。前期依靠操作滚雪球积累优势,然后等到兵力适当碾压的时候一波带走就可以了。

这样的思路这也正是星际一时代,人族选手Flash终结这款游戏的原因之一。没有人可以在前期把Flash rush下来从而阻止其完美运营。在累积到优势之后只要依靠稳健的操作通常一波就可以把对手带走。

但是这也成为了最后现场比赛mana胜利的关键,因为AI暴露了很明显的问题。因为它只会在优势的时候进攻,并且能确保操作碾压从而扩大优势一波把你打死。但是这也意味着如果它判断自己没有优势,甚至是劣势的时候就绝对不会进攻,甚至电脑自己也不相信自己会翻盘。

这就是为什么最后那盘当mana进攻AI分基地的时候,AI完全放弃救援,那是因为在当时AI的判断下,自己去救援是不会有任何希望的。因为自己不会犯错,所以AI也不相信mana会犯错,就这样被mana一举攻下。mana的策略其实也很简单,前中期适当牵制,稳步发展,然后积攒出一波优势兵力直捣黄龙。

其实挺欣慰的。作为非韩顶尖神族选手之一的mana,一开始输了的那五盘算是措手不及下心态直接被打崩。然后反思调整之后,面对进化过更强势的AI,却可以在现场轻松获胜。获胜之后mana带着自信的微笑,而现场两位Deepmind的工作人员表情都很难看。

总体而言比起围棋星际其实还是难度要高出太多的,许多国内报道只注重于报道10:1的成绩,甚至隐去最后的胜利不谈,完全是属于在胡说八道。


1月25日的补充:

说实话没想到这个答案会有这么多争论和意见,我一般来说没有回复评论的习惯,因为这只会影响心情也浪费时间。撇开懂游戏的是不是懂AI,懂AI的是不是懂游戏,以及我是不是英语不行没听懂解说的意思等等不说。


我只引用 @grapeot 一些观点来说明一下很多人关心的关于手速的问题。

“关于星际AI,自媒体说的很多了,AI碾压人类,智能再下一城。我来说说大多数公众号都没提到的一些细节。

Q:这个比赛设定公平吗?

A:非常不公平。这个设定对电脑非常有利,打赢了是本分,打不赢才奇怪。

Q:不是限了手速吗?

A:还真没有。限制的是平均手速,但电脑在正面对战的时候还是会爆1600apm,也就是每秒25次操作左右。而且这个速度会持续20秒。感觉对面选手都要砸键盘了。

Q:那也只是暂时现象,平均速度毕竟一样啊。

A:还有个可能更重要的因素是没有限制操作精度。比如多线操作/侦查,需要频繁切地图。电脑可以直接点击小地图左起第23个像素,在0.01秒内非常精确地切过去;但人类只能看个差不多点下小地图,然后卷动视野微调。耗时可能一两秒。所以电脑没有废操作一次成功,人类反而需要好几次操作。从这个角度说人类就算手速比电脑快,但还是吃亏的。

Q:好吧,那这样的精确操作有什么用呢?大不了效率高一些。

A:用处可大了,deepmind之前做了一个微操demo,电脑控制一坨小兵给人类随便打,不还击。就靠把小兵拖来拖去就能让人类攻击大都落空。

Q:你咋就这么唱衰AI!以后alphastar打败人类冠军的时候你等着被打脸吧!

A:如果你回头看我的叙述,从来没有提到智能,没有说AI行或者不行,说的全是操作。我觉得这个比赛设定是不公平的,因为就算AI很弱,或者哪怕我上去打,给我1600apm和像素精度的点击,在这种设定下也可能打败高手。

Q:那你说应该怎么比?

A:至少双方输出上要公平。比如弄个摄像头和机械臂,摄像头给电脑100ms前的影像模拟视觉暂留,只有中间是清楚的周围模糊模拟人眼视觉。用机械臂操纵鼠标,随机加入1mm的颤抖模拟手抖,加入100ms的延时模拟神经信号传递,移动速度限制在5m/s模拟手速。说到这你是不是也发现人类很弱了?

总之我并不评论AI如何,只是感觉电脑拿来打电脑游戏设定上很容易有隐藏的陷阱,搞大新闻容易但实际价值往往不大。”


很显然如果忽略手速和操作精确度的话,cs也是一个讲究团队合作和战术分配的游戏,为什么不训练ai去打cs呢?

计量经济学里面一个很重要的观点是,如果你要说明某一项政策是否有效,那么至少你要拿苹果和苹果比,而不是苹果和香蕉比较。如果你能领会这点的话,也就不会奇怪为什么我会有上面的看法了。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有