如何看待美国造出超过神威太湖之光的「顶点」的超级计算机？第1页

xie-zheng-51-12 网友的相关建议:

国外媒体与学术界常常带着有色眼镜与固有偏见来看待中国最近取得的科技进展，以为中国的许多大的科技工程的进展不过是国家荣誉的结果，是国家面子的体现，对整个中国学术界带来的收益有限，没有转化为实际的生产力，以为建完这些超级工程之后就当面子用了，就不管了。即使是在美国读书的中国学生，也受这些偏见的影响，不能作出客观公正的判断。@Tiid的答案就是明证。下面是他的答案：

美国小型超算，遍布全美各大学，学生和研究人员可以轻易获得超算资源，甚至免费。相反，国内的超算中心，都是单体过于强大，集中在大城市。除了远距离传输数据会变得很慢以外，也造成超算资源分配严重不均。中美超算普及还有很大的差距，不要忙不乐观。在我们这个美国的小破大学，都有2个4000 核心超算，其他学校的超算更是数不胜数。中国不应该比谁的单体超算更强大，而是应将超算普及化。多一些小型超算。让超算便的更加：亲民

作者：Tiid
链接：https://www.zhihu.com/question/280357538/answer/415564458
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

＠Tiid获得的信息都是来自传媒的信息，对于国内的情况根本就不懂，可叹还有那么多人点赞。下面是我对他答案的回复：

1 美国小型超算遍布全美各大学，中国的高校里面也是这样。

2 国内的学生与研究人员也可以轻易获得超算资源。（但是你连个openmp都不知道，自己写的程序从来没有利用过两个以上的核，你接触不到超算资源，那特么简直再正常不过了。）

3 国内的超算中心，不是只有你在新闻媒体上看到的那几台天河、神威！

4 国内的超算资源分配并不存在严重不均的问题。

5 中美超算普及没有很大的差距。

6 我们并没有盲目乐观。

不信，请看

近三年中国HPC TOP100排行榜见以下三个链接，我们并不只有天河、神威，只是因为这几台经常上新闻而已。如

从以上链接中你们可以知道，国内超算在大的互联网公司、政府部门、中科院等科研机构中有很大的保有量，且每年都在更新。

关于高校的高性能计算资源，也是一抓一大把。不信》请看以下大陆各高校的高性能计算资源（都是我自己在网上随手扒拉的几个，有些是四五年或者更久之前的信息，现在的计算能力要更高了）：

1.北京大学高性能计算校级公共平台，网址：http://hpc.pku.edu.cn/ 。平台计算能力：，联想深腾X8800超级计算机系统一套，由总共有227个节点组成，总计7032个CPU核心、544个KNL核心、20块GPU卡，总体计算能力理论峰值达到411TFLOPS，其中计算节点计算能力达到261TFLOPS，GPU、KNL、胖节点等其它节点总计算能力达到150TFLOPS，存储容量2784.8TB。

2.清华大学，“探索100”百万亿次集群计算机，共有740个计算节点，8800个处理器核，处理器采用Intel Xeon 5670，系统的理论浮点峰值计算性能达到104TFlops, 存储总容量达1000TB。另外,系统还配置17个nVidia Tesla S1070的GPGPU系统，计算能力达68 TFlops。“探索100”是国内最先进的超级计算机之一，其计算能力2011年在全国高校居首位。

3 中国科技大学。中国科学技术大学超级计算中心。中国科学技术大学超级计算中心曙光TC4600百万亿次超级计算系统（519万亿次/秒），兼为安徽省教育科研网高性能计算平台，也为入网用户提供高性能计算服务。此套系统采用100Gbps和56Gbps高速互联，共计1个管理节点、2个用户登录节点、7个存储节点、2个LustreLNet路由节点及506个计算节点构成。计算节点共12248颗CPU核心，512颗Intel Xeon Phi融核（MIC）KNL核心和39936颗NVIDIA CUDA核心，总双精度峰值计算能力为每秒519万亿次（CPU：482.82万亿次/秒，GPU：14.96万亿次/秒，Intel Xeon Phi融核：21.28万亿次/秒）。

4. 复旦大学，网址（http://www.fudannhpcc.cn/）。曙光“星云”高性能计算平台每秒双精度浮点计算峰值达64万亿次(64TFlops)，Linpack实测值达每秒50.94万亿次(50.94TFlops)，其系统峰值和实测Linpack值双双位居当时中国高校投入运营计算机系统第一。并且曙光星云是国产模块化刀片服务器的异构体系(x86处理器+GPU计算卡)，只需通过扩容GPU计算卡，现有平台就可达到300万亿次(300TFlops)系统峰值。

5. 上海交通大学，网址（Center for HPC）。高性能计算服务于2013年正式成立上线，该服务旨在对校内大规模科学与工程计算需求提供技术支撑。上海交通大学高性能计算集群型“π”是一台由CPU+GPU+FAT组成的异构高性能计算系统，理论峰值性能为343TFLOPS（CPU 135TFLOPS+GPU 208TFLOPS）。集群目前拥有435台节点，其中CPU节点332台，GPU节点69台，胖节点20台，存储节点6台，管理登陆节点8台，CPU核数达到7000，内存30TB，聚合存储能力为5PB。使用了100块NVIDIA Kepler K20 GPU，10块K40 GPU，24块K80 GPU，4块Pascal P100 GPU，80块400GB SSD高速硬盘，节点之间使用FDR 56Gbps的Infiniband网络高速互联。

浙江大学的高性能平台没找到，不过我相信也有的。

6.武汉大学，超算中心，网址（http://hpc.whu.edu.cn/）平台计算能力：7632个CPU核心，峰值计算能力300万亿次/秒，

7.大连理工大学超级计算机中心，网址：平台简介-高性能计算中心。具体参数不贴了，都是图片。

8.西安交通大学，网址（高性能计算平台账号-西安交通大学网络信息中心）西安交大云数据中心高性能计算服务平台首期浪潮天梭10000集群主要硬件设备包括：CPU节点110台（Intel Xeon E5-2690v3），GPU节点2台，存储节点8台，管理登陆节点4台，NVIDIA Kepler K80加速卡4块，计算网络为全线速56Gbps FDR Infiniband，存储容量340TB，计算能力（理论运算峰值）122万亿次。

9 中南大学 中南大学高性能网格计算平台硬件为曙光5000，其体系结构为混合式的集群（Cluster）架构，平台由四路、四核刀片计算节点和八路、四核SMP胖节点组成，计算网络采用Infinband高速交换机，双精度浮点运算次数理论峰值达到10 TFlops（十万亿次）、存储能力为20 TB的校园高性能网格计算平台。据10月29日在HPCChina2009会议上公布的2009年中国高性能计算机性能TOP100排行，我校这套高性能计算平台按照厂商的测试数据，Linpack值为8273.68 Gflops，峰值为10214.40 Gflops，其性能在国内高校排名第8，全国排第80名。

还有一堆学校的超算我就不搜索了，太多了。

你们以为就国内这些985、双一流的学校才有这么好的计算资源么？不是！

不信，你看河北大学，（网址：河北大学超算中心）河北大学高性能计算系统包括计算刀片节点110片，胖节点18台，渲染节点2台，GPU节点4台，MIC节点1台，并行存储3台，CPU核数大于4000个。计算能力可达119.7万亿次/秒（Tflops），其整体性能在我国高校中位于前列。存储裸容量 182.88 TB，聚合带宽 2.4GB/s；全系统采用 56Gbps FDR InfiniBand 线速互连。

＠Tiid，你说你的学校是美国一个小破大学，有两个4000核的超算，那河北大学比起你那个学校，没起眼到哪里去吧？在国内连个211都不是，不也照样有4000核的计算资源。上面说北大、清华，那是欺负你们学校，这河北大学总没欺负你吧？

关于国内学生获取超算资源的便利程度，简单讲，只要你课题组有项目经费支持就行。不要以为需要很多的经费，国内超算的使用费用是很低的。几个超算中心建设费用与机器费用国家支持的，用户只用掏电费与维护费用，一般优惠价一个核一毛钱一小时，GPU的话一块卡一块钱一小时，一般的课题组这么点钱还是花得起的。

最后，除了这些大的超算的机器，国内许多高校各个团队还有数不清的服务器、工作站，多的几百个核，甚至有数千个核的，少的几十个核。西安交通大学能动学院的CFD-NHT-EHT中心的计算资源应该有2000个核。我自己博士所在的那么个小课题组（一个教授带两三年年轻老师的）七八年前就有一台自购的192个核的服务器，以及十多台小型工作站，这种小配置在国内的课题组的资源中都是很一般的了。

＠Tiid，如果你只知道天河、神威，那只能说明你跟一般的看新闻的普通老百姓对这个领域的认知水平没有什么差别，就不要回答这个问题来误导人了。

至于给那个答案点赞的知乎学生，有几个写过并行计算的程序？最简单的openmp,我估计都没几个人知道。

siyz 网友的相关建议:

此答案目的是客观评价一下今年超算Top500榜单的变化和超算发展的趋势。以下榜单均来自18年06月。

由于Summit获得了第一，大部分关注点都集中在了Summit上，但是今年榜单的前5名中除了神威外其实有4个都是“新星”，包括天河2号。

榜单的第1、第3、第5都是今年首次上榜，而且使用了几乎一样的架构设计：NVIDIA Tesla(TM) Volta 100 GPU+ EDR Infiniband（而神威的网络是基于Infiniband改的）。而天河2号换下了老旧的Intel Xeon Phi，换成了Matrix-2000协处理器，性能提升了接近一倍。

大部分人不知道的是，Top500其实拥有3个榜单：HPL(High-Performance Linpack)，HPCG和Green500。其中 HPL 是解一个大规模的密集随机矩阵构成的线性方程组，限定使用LU分解算法，限定使用双精度，限定误差上限，不得使用迭代来减小误差。HPL 的结果也称为 Rmax （持续运行最大性能）。与之对应的参考指标是 Rpeak （峰值性能），峰值性能又称为理论性能，其性能等于所有运算单元双精度浮点运算能力的和，简单地说就是正比于堆的机器数量。正是为了避免超算竞争变成“堆机器大赛”，Top500排名使用HPL作为指标而不是 Rpeak。

随着时代的推移，人们对计算机的性能影响因素也在逐渐改变，因此评价指标也在逐渐变化。早期的计算机几乎都使用 Rpeak 作为评价指标，是因为早期最主要的影响因素是计算单元的性能，比如ENIAC的评价指标就是“每秒能够进行5000次加法”。到后来随着晶体管集成技术的提升，运算单元不再成为决定性因素，访存速度和网络通信速度也成了重要的指标。HPL有基本的对于访存速度和网络通信速度测试，在这些测试的影响下，HPL性能只有Rpeak的60%-70%。不过，有些专家觉得HPL仍然不能真正体现计算机的真实性能，因为求解密集随机矩阵构成的线性方程组并不是一个特别实用的问题，在现实的科学计算等任务中，有很多偏微分方程，其求解方式是稀疏矩阵构成的方程组，以及超大规模的稀疏向量操作。由此抽象出的评测方式称为HPCG。HPCG包含以下任务：

稀疏矩阵-向量乘法
向量更新
全局内积
局部对称 Gauss-Seidel 平滑器（包含稀疏三角求解）
任务由一个多网格定界共轭梯度下降算法驱动

HPCG相比于HPL更加重视访存和网络性能，这些都是当代计算机架构的软肋，这导致HPCG性能只有Rpeak的0.5%-2%左右。通过堆机器来提升HPCG相比于HPL更加困难。17年我在Top500发布会现场，发布会指出近些年可能会使用HPCG代替HPL作为排名，或者至少要作为排名参考。

下面是HPCG性能：

其中可以看到今年新上榜的Summit和Sierra一骑绝尘，在HPCG上碾压其他对手，其秘诀显然是用了双路的EDR Infiniband大幅提升了网络效率，且使用了NVIDIA Telsa Volta 100 GPU，其HBM2内存的带宽数十倍于传统的DDR4/DDR3内存。而神威在HPL性能和Summit相近的情况下，HPCG只有1/6的性能，而天河HPCG排名要到20名开外。另一个非常显著的例子是日本的“京”计算机，其HPL性能只有神威10%的情况下跑出了125%的HPCG性能，在HPCG/HPL性能比上让人吃惊，这个原因外界推测是他们使用了6维超立方结构的“豆腐”网络，客观而言神威使用的“胖树”网络就要粗糙一些，某些情形下通信延迟很高（据说达到了秒级，需要处理器等待1,000,000,000个指令周期）。从HPCG排行榜上来看，美国两台新超算几乎就是冲着HPCG去的（虽然不一定是故意的，但是很难不让人想到如此），如果Top500委员会真的在未来要改用HPCG作为排名标准，那么对目前中国的超算排名非常不利（按照神威目前的HPCG性能比，中国要造出E级计算机才能超过当时的Summit）。

除了性能外，超算另外一个重要指标是“性价比”，这决定了商用化价值。性价比中的长期成本主要是电费，也包括散热成本等，最终体现在超算的“每W电能算力”上，评价这个指标的排行榜是 Green500。

Green500上前三被日本的 ZettaScaler-2.2 系列占据，这个系列在设计中都严格控制了功效比，但是性能都不佳。Top500前5名在Green500中的排名为：

Summit，Green 500 #5, 13.889 Gflops/W
神威，Green 500 #24，6.051 Gflops/W
Sierra, Green 500未测试，推测功效比接近Summit
天河2A，Green 500 #54，3.325Glops/W
AI Bridging Cloud Infrastructure (ABCI), Green500#8, 12.054 Gflops/W

在功效上，Summit，Sierra，ABCI基本一致，但是是神威的2倍，天河2A的4倍。电费低是由于他们的由于使用了GV100（老黄很开心的说），由于制程的提高，NVIDIA的GPU计算卡的几个系列，即Kepler-Tesla-Maxwell-Pascal-Volta，在功耗几乎不变的情况下性能提升了几个数量级。中国由于光刻机和内存堆叠等技术受限，自主研发芯片到这样的制程还很困难，可能最近几年功效比很难获得较大优势。

其他方面

另外需要注意的是，Summit使用NVIDIA V100还带了几个附加buff:

非常高的单精度和低精度运算性能。注意到我提到性能测试时一直加粗了“双精度”，是的，不谈精度说性能就是耍流氓，比如前些阵子Google说他们的TPU集群的运算性能达到了100Pflops，也就是比神威还快，这实际上说的是半精度。在跑HPL/HPCG时，仅仅使用了 NVIDIA V100的双精度单元，而NVIDIA V100的单精度计算能力是双精度的2倍，并且因为Tensor Core其半精度计算能力达到了惊人的16倍，也就是Summit的全机的半精度运算能力已经达到了1Eflops（1E=1000P=1000,000G=1,000,000,000M=1,000,000,000,000K=1,000,000,000,000,000）。半精度不能用于传统的科学计算，但是可以用于很多基因分析等离散任务。目前消息称Summit已经完成了Eflops级的基因分析应用，这意味着在Eflops问题上美国已经捷足先登，中国下面进而需要和美国争夺Eflops的HPL性能。
可以用于前所未有规模的机器学习，特别是深度学习中的强化学习和模型搜索任务。如果仅仅按照性能计，DeepMind使用3000块 TPUv1 训练AlphaGo Zero在3天就超过了人类，Summit上预计只要不到7个小时。

其实吧，这次比较真的让人不服气，美国超算直接上了NVIDIA V100，爆了各类指标，大部分功劳都要归NVIDIA。NVIDIA的CUDA战略确实赶上了这个时代。

超算的发展趋势

虽然前5名的架构有所区别，但是他们都给出相同的路线：

多核向众核发展。以后超算一块主板上有超过500个核心将是常态。（注意Top500没有算上GPU的内部核心而是将其整体作为一块加速器，作为众核时架构应该计入内部核心数）。
众核去cache化，用局部SRAM取代（神威的SPM，NVIDIA V100的shared memory）。Cache几乎是现代计算机体系结构的必然要素，其利用了访存局部性。但是在超算上其逐渐显现出了众多缺点：功耗高，bug多（Intel芯片众多漏洞都直接间接来自Cache），多核间同步困难（学过体系结构的同学都应该有所感悟），在复杂访存时“负向优化”（典型的是遍历大规模的图，即Graph500评测）。而超算任务往往分为两种：一种是非常规则的计算，因此可以手动控制内存访问，不需要cache协助；另外一种是非常不规则的访存，cache会帮倒忙；而需要cache的地方往往不是计算性能瓶颈，可以用主核来处理。所以从核去cache是一个趋势。
使用RDMA网络。使用专用硬件+DMA机制封装、处理和分发网络包，将计算单元从网络通信中解放出来。
对Intel的冲击。由于Intel在众核架构上的部分失利，以及之前美国对Intel出口的封锁，Intel在超算上失去了很多机会。我觉得Top500官网上的说法很讽刺：自从今年天河2号使用自产的Matrix-2000换掉了3年之久的Intel Xeon Phi后，功耗几乎没变，性能却翻倍了。

此外中美的超算发展路径也开始有了分歧。中国开始倾向于总体设计：主板，主核，从核都是配套的，可以直接集成在主板上。好处是可控性高，且集成度非常高（神威的一个节点比手机厚不了多少），且可以配备先进的水冷系统，坏处是成本以及通用性；美国继续走商业化集成：使用商用处理器、网络和加速器，自己只管集群系统。这样的好处是成本和通用性，坏处是集成度，以及需要等待NVIDIA和Intel挤牙膏。下面10年将见证两者的高下。

hello-ccy 网友的相关建议:

中国：我的够用就行。
美国：不行我必须给民众造就一个我们国家很富强的感觉。

同样的事，只是中美位置对换了，我照抄他答案把中美台词对换，我就想问，我这个答案能不能也有1K赞？

tiid-6 网友的相关建议:

美国小型超算，遍布全美各大学，学生和研究人员可以轻易获得超算资源，甚至免费。相反，国内的超算中心，都是单体过于强大，集中在大城市。除了远距离传输数据会变得很慢以外，也造成超算资源分配严重不均。中美超算普及还有很大的差距，不要忙不乐观。在我们这个美国的小破大学，都有2个4000 核心超算，其他学校的超算更是数不胜数。中国不应该比谁的单体超算更强大，而是应将超算普及化。多一些小型超算。让超算便的更加：亲民

如何看待美国造出超过神威太湖之光的「顶点」的超级计算机？的其他答案点击这里

如何看待美国造出超过神威太湖之光的「顶点」的超级计算机？第1页

其他方面

超算的发展趋势

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待美国造出超过神威太湖之光的「顶点」的超级计算机？ 第1页

其他方面

超算的发展趋势

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待美国造出超过神威太湖之光的「顶点」的超级计算机？第1页