百科问答小站 logo
百科问答小站 font logo



如何评价 Google 在 2022 年 3 月公开的 Pathways 架构设计? 第1页

  

user avatar   yuan-dong-39 网友的相关建议: 
      

2022-04-11 更新

仔细研究了Pathways, 写了两篇博客:


OneFlow:解读谷歌Pathways架构(一):Single-controller与Multi-controller

第二篇还在公众号上:解读 谷歌 Pathways (二): 向前一步是 OneFlow


欢迎批评指正。

========

先非常简要的回答一下。

Google 的 TensorFlow的分布式是所谓的single-client,有一个master节点做control plane生成执行计划,分发到很多worker节点上执行。

随后随着JAX的提出,Google 开始倡导SPMD (single program multiple data) ,也就是multi-client,没有所谓的master节点,各个worker 的script是对称的,各个worker 各干各的,但是有协同。multi-client在数据并行和模型并行下非常自然,各个worker就是完全对称的,在有流水并行的情况下,各个worker 执行不同的stage,不对称,SPMD并不是很协调,但multi-client还有另外一些比较微妙的优势。

Pathways 里面强调了single-controller,相当于又回到了single client。在single-client下写分布式程序脑力负担还是低一些,特别是解决了auto placement和auto parallelism之后,分布式代码就应该和单卡代码是一样的,只有single client 才会给人那种像写单机代码一样的感觉。Hadoop 和 Spark 就是典型的single client。

这里说一下OneFlow,在2020年开源的时候是single client模式,经过过去1年的重构,改成了multi client模式,也就是现在的模式。

我们也正好讨论到,尽管现在底座是 multi-client,提供一种single client的使用体验也是有好处的,譬如OneFlow支持一种叫eager global的执行模式,相当于define by run模式去一行一行写代码,这些代码会自动在分布式集群上运行,也就是调试模式写分布式代码。实现这个体验的比较简单的办法是用Ray,因为multi-client的python 脚本是对称的,在每个卡上都一样,只需要把python脚本当成Ray的remote function 发出去就可以了。

这篇论文的其它部分还没有仔细看。


user avatar   miao-xu-peng 网友的相关建议: 
      

怎么没人提《圣斗士星矢》啊?

这个系列作品的特色不就是回回都是一部的戏就半天时间么?

黄道十二宫篇:纱织中了天箭座的箭,必须12小时内突破圣域十二宫。

北欧篇:奥丁代言者希露达被海皇戒指蛊惑令冰川融化,纱织代替希露达阻止冰川融化但是只能坚持12小时,必须在时限内摘下希露达的戒指。

海皇篇:纱织代替人类承受波塞冬的洪水,应该也是只能支撑一天之内的时间。

冥王十二宫篇:被哈迪斯复活的圣斗士要在12小时内取下雅典娜的首级,实际目的则是为了雅典娜去冥界并且唤醒女神圣衣,12小时候被复活的圣斗士们就消失了。

冥界篇:记不清打了多长时间,但从纱织被塞到缸里抽血开始到解决应该也是一天之内。

黄金魂:在本篇剧情里有好几天,但对应到冥界篇时间仅仅发生在冥界篇12黄金击破叹息之墙到打死神之间。

火星篇:马尔斯获得阿丽娅的权杖后建立起巴别塔吸引火星,会在12小时内毁灭地球,主角们必须在12小时内突破新十二宫。

土星篇:这篇好像打了很多天……




  

相关话题

  如何看待鄂维南院士等发起的机器学习联合研讨计划(c2sml.cn)? 
  女性比男性从意识上更高级吗? 
  围棋AI为什么没有下出同局? 
  如何评价通信工程很多导师都研究机器学习人工智能而不是传统的天线电磁场等方向? 
  如何评价deepmind最新在nature上发表的论文《在人工网络中用网格样表征进行基于向量的导航》? 
  为什么谷歌要支持 Chromium 这个 Chrome 对应的开源项目? 
  硕士方向,选择迁移学习还是自然语言处理? 
  Auto X的自动驾驶技术用了什么技术? 
  未来的智能家居领域,那一类产品更容易率先取得突破? 
  人工智能在发展到极高的程度之后能否算得上是一种生命? 

前一个讨论
了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构?
下一个讨论
现在tensorflow和mxnet很火,是否还有必要学习scikit-learn等框架?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利