请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？第1页

zhou-bo-lei 网友的相关建议:

谢邀。这是个很好的问题，能看出这个差别说明RL还是上路了。这学期我正好在教Reinforcement learning的课程（课程主页Reinforcement Learning）。第一次开课，花费挺多时间备课以及储备RL的前沿进展，ICCV之后也许可以更详细地总结一下。

总的来说，确实DM和OpenAI两家的工作有明显的派别差异，对RL的理解非常不同，忠于Value-based RL和Policy-based RL的差别。这跟其中的两家主脑人物的RL学派直接关联。

David Silver毫无疑问是DM的主脑人物之一。David的博士导师是Richard Sutton，所以是非常受Sutton的RL价值观影响。Sutton推崇的是正统的Value-based RL。Sutton就是那本畅销书 Reinforcement learning: an introduction的作者之一。读过这本书的同学应该可以发现，这本书是按照经典方法论来组织，比如说Markov Decision Process, Dynamic Programming, Monte Carlo Methods, Temporal Difference Learning等，这些都是传统做优化和控制论里的东西。30年前的RL确实就是control theory背景的人在做，还没做机器学习这帮小屁孩什么事儿。这里还有个有意思的点是，这本500多页的RL畅销教材，关于现在大行其道的Policy-based RL (Policy gradient)的相关方法，只有不到20页的内容，可见Sutton对Policy-based RL的态度。所以David最早在DeepMind里面也是推行Value-based RL的思想，搞出了Deep Q-learning, DDPG之类的东西。至于说后来的A3C，已经是不得不屈从于Policy-based RL的高效率。

另外一方面，OpenAI背后的派别是Berkeley帮，主要工作是围绕Pieter Abbeel以及他的两位superstar博士生Sergey Levine和John Schulman。Levine和Schulman可以说在现今的RL圈子里如日中天，两人都做出了非常有影响力的工作。Levine把Guided Policy Search (GPS)用到robotics里面，使得小样本RL也能学习。Schulman理论功底扎实，为人低调，他的TRPO以及后来的PPO，都是RL必用算法（这里有能看懂TRPO论文推导的同学私信我:)，我请你过来visit，我敬你是条汉子）。

Berkeley帮的明显特征是极度推崇Policy-based RL。用过RL的同学应该知道，policy-based RL以及衍生出的model-based RL比value-based RL效率高一个量级，这跟Abbeel和Sergey的机器人背景关系非常大。在机器人的应用中，sample-efficiency非常重要。不像DeepMind随便就可以跑million级别数量的游戏仿真，机械手臂这玩意其实是非常容易坏的，而且价格不菲，在构建RL算法的时候不得不从sample efficiency角度出发，所以Levine提出了GPS以及相关的一堆东西如imitation learning，inverse RL, model-based RL，包括他的门徒Chelsea Finn做的关于meta-learning之类的东西，都是从这一点出发，跟他的robotics背景也相符。

所以这两个派别差异确实还是挺大。另外，这跟两家公司的定位也有关系，比如说DeepMind着眼于Go和Starcraft这样的AI明珠问题，可能确实Value-based RL+search的办法更work。OpenAI强调Open，大众普及RL，着眼于一些机器人应用和相对小规模的RL问题，Policy-based RL以其优秀的效率和稳定性更胜一筹。可惜OpenAI里面的人已经走得差不多了，创立时候定义自己是non-profit organization，理想很丰满现实很残酷，啧啧啧。

一句话，黑喵白喵抓着老鼠就是好喵。以PPO为核心的Policy-based RL方法目前处于绝对领先位置，有着广泛的群众基础。DeepMind着眼的那些AI明珠问题不是我等群众老百姓可以企及的，坐等吃瓜就好。

tian-yuan-dong 网友的相关建议:

其实摇滚精神是人的精神，不用太强调摇滚这两个字。

前两天我看到了臧鸿飞对摇滚的解释，我觉得挺好，他说摇滚是面对着生活的不服，而流行音乐是面对生活服了。我觉得这种解释挺好，我们始终在质问自己还是不是自己。摇滚不摇滚不重要，重要的是你还是不是你自己。

摇滚是小众这个话题已经不用再说了，因为摇滚在西方已经成为主流过了，摇滚是大众音乐，在中国可能是小众音乐，所以说中国文化和经济的现状造成了摇滚乐在现在社会的定位不能说明它是大众还是小众，这个真的不重要，重要的是在于每一个人在面对自己现实的妥协的自我的时候，是否会持续的去发问，这种东西不一定偏要体现在摇滚乐，而流行音乐也有，古典音乐也有，现在一些hip hop音乐、嘻哈音乐里都有大量的质疑的声音。

当然，这些都是大的流行音乐的范畴里的，但都不是以人们所理解的摇滚音乐的形式所存在的，所以没必要偏要强调摇滚两个字。

我自己写过两首歌去比较中国的摇滚乐和西方的摇滚乐，近三十年前我写过一首《像是一把刀子》，我觉得当时的中国摇滚就像一把刀子；在十年前我写过另外一首歌叫做《滚动的蛋》，实际上也是针对Bob Dylan的《Like a rolling stone》做一次呼应，我们站在中国的土地上，对西方的摇滚乐做的呼应，我觉得我们更像一颗滚动的蛋，我觉得这是对中国摇滚乐现状的一种描述。中国摇滚是一颗滚动的蛋，但它没有破碎，雨后的大地路途好像有些松软，滚动的时候受到了保护，但的确是危险的状态。我更愿意说中国摇滚乐是从下而上的，蛋破碎了之后变成了生命。

从三十年前到十年前再到现在，中国摇滚没有走向世界，我觉得走不走真的不重要，类似的比较本身是功利心态的，把摇滚乐当做了一种商品。摇滚乐存在的形式也不是为了要走向世界，或者要流向中国，它们存在是为了身心的娱乐，这种娱乐自然会带来与市场的互动，这种互动造成了传播，所以在中国有大量的人受到了影响，可以了解到西方文化，而且他们可以轻而易举的买到这些唱片，这是一种正常的文化根基带来的良性的反应。所以我们就应该去听这种良性的音乐，我觉得每个时代都要有一种形式去表达自己，摇滚乐就是西方发展到六十年代七十年代，人们需要用新的形式去表达自己的时候适时出现的，那个时候已有的音乐形式不能表达人们的想法了。像现在一样，很多的年轻人选择用他们自己的方式表达自己，我们也没办法。这个就是自然的一种规律，人们在经济发展、文化发展、全球化发展的过程中，人们就会轻而易举的找到自己最想选择的方式表达自己。

我觉得中国的摇滚乐，或者说中国自由表达性音乐受到了很多限制，所以说在某种程度上，流行音乐更是很多人追求的一种结果，它的成功方式是一种结果，包括摇滚乐也希望能够像流行音乐一样成功，但不一定像流行音乐那样去表达。

遗憾的是，这个社会的环境和传统文化环境没有鼓励批判，或者说是坚持自我、怀疑现实这种审美，在别的人完全趟出一条路之后，我们亚洲人沿着他们的脚步往前走的时候可能会受益，因为大家会说这种东西我们已经知道结果了，是可控的。但真正达到了不可控制的时候，所谓的不可控制就是真正自由状，他们一定会出面干涉或强加限制。这个时候才需要人站出来，人的自由创造需要调整，针对这种状态的时候，才能产生出接地气的作品，这个时候我认为才是所谓最自由的状态，他自己也不知道会是什么样，人的自由状态在某种程度上是不可控的状态，当然这种不可控的状态是由内心强大的信仰牵引着的，不会造成危险。这种东西只有自己能知道，很多人是不相信的，所以我们的文化环境、我们的宗教信仰完全不信任人的自由状态，一定会有人干预你，不光是家长，即使是比你年轻的人都会来说小心点小心点别出圈、别超越底线。这些东西都有可能造成自己对自己说，那好吧，回头。

就像臧鸿飞说的那样，我们服了，我们对困难做出了妥协做出让步，我们的理想稍微静音一段时间，完了之后，我们可以获取到的东西要远远大于我们的挑战。

你持续的用你的理想去对抗你对现实的认知，你会发现你对现实的认知没有那么强大，你甚至可以说你自己征服现实就是你的现实观，现实怎么可能不被征服呢？他怎么可能会养成这种习惯呢？如果现实都是不可征服的，人就永远是在倒退。

摇滚不仅仅是一个音乐的概念，而是一种态度和人生观的概念。

billmatrix 网友的相关建议:

一大早起来真是笑死我了。

由于老头环空前的热潮，以及B站特有的UP主靠制作视频吸引流量转直播的模式，导致很多有人气但完全没有魂系列经验的主播在播这款游戏。比如某幻、瓶子。

（就是一开始制作视频是主业，直播是兼职，甚至是乐趣兴趣，到直播为主，制作视频反倒成了兼职。这种现象在游戏区特别明显。）

这就很有节目效果了，我看几个有名气的主播，都是重复被虐，平均活不过5分钟。真正是在哪里跌倒就从哪里跌倒。

很多在我们这些老玩家看来常识性的东西，对于他们来说完全不存在的。

盾反这种就不提了（其实我也不会），连二人转、回合制、推图都不懂。在大型地牢里不想打小怪，一个劲往前跑，结果变成开火车；当着怪物的面喝药=白喝；开宝箱被怪物背刺；以为学了法术就是法爷了，结果被几只鸟打得抱头鼠窜。

然后另一边，那些原本有魂系列经验的主播，就吃了刻板印象的亏。觉得自己有技术有实力，也不练级就顺着主线硬钢。就比如一上来的野外精英太阳骑士，要么你死要么我亡，绕路是不可能绕路的。

太阳骑士都还好，毕竟王老菊都能杀。

但没有等级，没有血量，没有伤害，硬钢噩兆。

真当噩兆快慢刀是假的，自己打几次就能盾反了？而且老头环这次砍了盾反在BOSS战中的作用，要反三次（二次）才能触发处决。

结果被虐3000遍，又不好意思去练级，尬在那了。

老头环是不是玩家的盛宴我还不知道（买了游戏，昨天也预下载了，结果今天起来发现那个盘满了……正在重新下载，下载完了又发现，我的电脑只有8G内存……），但肯定是不少主播的灾难、观众的盛宴。

当然，我也知道有些主播直播受罪是搞节目效果，但我也是真看到有主播被气到下播了。

另外一点，老头环这次其实是以探索为主要玩法。

B站UP主老戴今天专门做了一期视频讲解，想要玩好、玩轻松，就是尽可能的探索地图，拿物品、刷等级。而不是走到哪杀到哪，打不过硬去打。

就比如第一个剧情BOSS前，大地图上有的是小型地牢，野外精英，要把图清完了再去打噩兆，真跟打弟弟一样。（收回我的话，40级30血20耐20敏+3打刀7瓶奶，打了7次才过。前三次就是纯背板，后三次有点贪，经常血瓶白喝，最后一次基本掌握出手时机，就硬耗过去了。）

其实魂系列游戏特别吃角色强度（等级、装备），一些小怪你一刀砍死和一刀残血，完全就是两种难度。打BOSS，你挨一下就要喝药，和挨两下才需要喝药也是两倍的差距。

不过按照这么个玩法，的确没有什么节目效果。

讲真，还真就是看那些新手主播无能狂怒最有节目效果。

至于游戏本体，如今我也的确是玩上了，总体上来说符合我的期待。

作为一个中年人，我其实是在看了老头环试玩视频后才接触魂系列的。

原因有2，一是手残反映慢，玩这种游戏非常苦手；二是，我其实不太喜欢魂系列那种压抑的黑暗风格。

但老头环作为开放世界，虽然依旧以压抑阴郁为主，但也有光明广阔的场景。比如一开始做完新手指引推门而出的那一刻。

至于在难度与操作方面，远程技能的实用化，召唤物的存在，以及跳砍与伪盾反的出现，真的能够解决很多问题。

只是看你愿不愿意当一个“卑鄙的褪色者”。

远程技能包括法术与射击。我玩的武士，初始给的长弓非常给力。尤其记得推一座城堡图的时候，一开始不清楚套路，进入城堡被满地的炸药桶与两个放火球的法师直接秒了。复活后掏出长弓，一剑封喉，解决掉法师无伤过了。

还有初期的一个地牢，一个场景墙上爬着的与左右墙角蹲着的类似地精的怪物，近战5-6刀才能砍死。

第一次去直接围殴致死。

第二次，用弓箭一只只引过来，很轻松就过了。

至于近战武器，我是非常推荐初期见完老婆就能开箱子拿到的君王大剑。

这把武器虽然攻速低，成长性也低，但在初期真的非常实用。

尤其是在跳劈方面。

这一作跳劈虽然强但也看武器，比如武士上来给的打刀就属于跳劈对空，跳起来横着劈一刀，有时候都打不到站着的怪。而大剑则是竖着往地上砸，范围极大。

我举一个例子，就是我开地图第一次遇到红灵。就是等对方打完一套跳劈就完了。

我的战斗策略就是，遇事不决，举盾防御，然后跳劈。

至于BOSS战，依旧有难度，也许跳劈和法术都没啥作用，依靠的依旧是精准的闪躲后普攻（排除盾反）。

但我觉得这算是魂系列的乐趣之一。

如果随便什么BOSS战都能逃课，那也就没意思了。

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？的其他答案点击这里

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？第1页