百科问答小站 logo
百科问答小站 font logo



中国的超级计算机都在做哪些工作? 第1页

  

user avatar   zinky-81 网友的相关建议: 
      

“天河二号”生物应用方向 超五年使用经验强答一波。
生物数据处理、分析、统计建模。

不像其他领域,适用于超算架构的生物信息软件并不多(天河上就更少了),绝大多数使用就是把他当作一个大集群来使用。国内的生物数据分析集群使用效率是低于国外的。
我自己也做一些开发的工作,步履维艰,这方面人才缺口很大。

简单的说,我们的应用主要处理海量的生物基因组学数据(测序数据涉及大量字符匹配,临床大数据等涉及大量矩阵运算的数据。ps:我目前在天河上处理过的数据超过半个pb了)。用超算的好处就是短时间内(几天或者几小时)完成在一般计算机计算半年乃至几年的数据处理工作。好处就是大大缩短研究周期,提好分析效率,完成很多不可能完成的数据处理课题。在应用前景上,完成实时诊断、应对紧急公共卫生事件、以及国家与国家之间的科研竞赛都离不开它。

不会用超算的bioformatian不是好bioinformatian。

所以,我的感受就是天河二号就是国之重器,其他超算就不言而喻了。


~~~~~~~~~我是分割线~~~~~~~~~~~

我还是补编辑一份吧,没想到短短时间有这么多人评论,之前手机码的,今晚坐下来好好答一波,希望能给咱们国家超级计算打个call。

首先声明,我是生物信息背景的,不是纯计算背景,写的有问题的地方欢迎指正。

刷一波“天河二号”的荣誉吧,大国之间的竞争就这这些排名里面,速度意味着力量。

顺便贴出广州超算中心的网站,国家超级计算广州中心 - 首页 应该都可以申请使用。

Top500排名情况

2017年 天河二号 第二,第一是太湖之光,都是咱们国家的

16年 天河二号 第二,第一是太湖之光

15年 天河二号 第1,太湖之光还没做好

后面我就不show了 11年-15年之间一直是世界第一。因为太牛b,intel都不卖给超算中心芯片了。Weigo:如何看待美国禁运至强系列超算芯片?。我隐约记得后面连文件系统好像都不卖了?


下面是我接触超算的过程,看着就好,看不懂的跳过。

我最早接触超级计算机是硕士入学的时候,那时候我们学校有好几个计算集群(好几期),我自己做课题感到计算资源明显不够就跟老板商量了下(这点感谢老板,有前瞻性的让我使用),申请了几个集群,包括纯cpu架构、gpu架构、还有专门为了学科交叉计算所提供的服务。常规的任务投递系统pbs、slurm都有用过,感觉上手很快,用于我们前期的生物信息的一些算法模型训练可以达到事半功倍的效果。

顺便说下,我们开发的算法是在老板前期原创的算法基础上作改进,以往的做法就是人工并行,就是在多个pc上跑,然后人工汇总结果(对于很多计算机专业的人来讲可能会感到很惊讶,毕竟早些时候在生命科学领域,没有很多真正能想到、或者用到集群的)。那时候一个模型的周期是几个周或者几个月,万一遇到断电,对不起,可能就白干活了。我们的算法做了单个机器的并行,编程语言主要是java,在硬件跟不上的时候效率跟c等还是差一大截的,所以就是一个字,慢(对,你们也没看错,是java,因为我们训练的模型和算法代码会直接写到开发的软件里面,还有开发图形界面需求,所以从前到后一直是java,找时间再讲讲我们实验室java/perl/python之争的故事)。其实等待计算期间很痛苦的,为了排解痛苦就打打游戏啥的。再后来,买了server,项目进度提高了些,但是还是慢。

用上了集群,我们的生活一下奔了小康,短时间可以拿到接近全局最优的参数了。但是新的问题随之而来,java不支持跨节点并行,我们替代的策略是类似fork-join的方法分割任务,曲线救国了。后来也有人用c和c++重写了代码,但是我们算法更新太快,有给计算机的小伙伴讲清楚更新部分的原理,我们java都已经跑完了。综合考量以后,我们还是java一条道走到现在。

不久,我接触了组学数据分析,在集群上分析比较大的问题就是数据传输,占存储,算的慢,大样本跑起来怕是要到休学的时间段了。学校的集群要和一群计算机、物理、数学的排队,加上折腾,就弃用了一段时间。回到本地的server来分析,至少拷数据不那么折腾了。


后来,天河二号上线前要内部测试,国防科大在我们这边部署了超算先导系统,我们成了第一批在天河二号上测试的生物应用的团队。测试期间问题很多,但是他们后面一一解决了,感谢国防科大给力团队!

2013年下半年,天河二号正式对外开放使用,我们延续了账号的使用一直到现在。前前后后处理了百t以上的数据。我们课题组在上面数据分析工作涵盖基因组拼接、比对、蛋白结构预测、组学数据处理分析以及一系列生物信息学算法和软件的开发,以往不敢想不敢做的数据分析课题都可以基于平台展开了。

讲了超算给我带了机遇,下面就是挑战了。

感觉在超算使用方面我已经是老司机,然而事实上,我的超算应用水平也仅限一个熟练的用户罢,经常犯一些低级的错误(虽然我曾代表超算中心给用户培训过一些常见生物信息软件使用,但也只是一些皮毛)。一个始终回避不了的问题是,天河二号到现在还是有很多用起来不方便的地方,我猜这也是其他超算面临的情况。我有基友也在使用太湖之光,据说坑不比天河二号少(有没有使用太湖的兄弟们答一波)。列一些在生物方面比较棘手的问题:

1、大数据的传输问题,我们的解决方案是去插硬盘,快递员最快(这是国内网络带宽受限)。

2、天河软件配置问题,大超算稳定运行不易,常常维护以后 很多软件的配置要更改,解决方案是及是和技术支持部门联系。

3、组学数据存储问题、1个T在天河存储一年的费用几千块,普通用户账号大概10T。做生物信息的都知道,几t数据是不小的耗费,解决方案是多挣钱。

4、各种奇葩的报错和任务丢失,算出来的结果自己都不敢信,大数据查错会超级麻烦。

5、小众软件安装、依赖、环境配置问题。(c、perl、python软件的坑我都各种遇到,可能我基础不扎实吧,也就只有我的大java跨平台稳定了)。6、评论区提到的问题我可能都遇到过。

解决方案是及时和技术支持部门联系,因为我们的反馈也会提高他们对机器的优化。


总结一下,和刚接触天河二号相比,现在的使用已经平滑很多,需要说的是,使用超算还是要具备一些基本的集群使用知识的。对于学生物的来说,这是一道坎,类似地,其他非超算相关专业的也会存在这些问题。我有很多朋友用过天河二号一段时间后果断弃用,主要是因为学习和沟通的成本太高,与其花时间学习,不如找个更好用的小集群解决或者宁愿在小机器上多算一段时间。所以这也就对超算的宣传部门提出了更高要求(你们辛苦了),开开一些免费的科普、培训等等。在使用方面,早些时候,天河二号的空闲率还是很高的(与国外相比),现在提交任务要等了,但是由于使用时间不集中,很多节点还是闲置未开机状态。


这里,我想鼓励下同行们,不会用超算(集群)的bioformatian不是好bioinformatian。对于做生物信息/医学大数据研究的我们,超算的使用可以大大缩短我们的项目周期,提高我们的效率,可能一百个、一千个样本的全基因组一天就处理完了( )。以前不觉得,现在偶尔去github上转一圈,很多生物信息的软件开发也支持在不同的集群系统上运行。可见超算已经进入了我们开发者的生活当中了。

机器造出来是为了使用的,要把好的东西用在对的地方(比如我们生物信息学研究 ),我们的设备世界第一了,人才储备也一定要跟上。

————我是华丽的分割线———

莫名其妙的被贴上了不实信息的标签,谁能告诉我怎么回事呢,这是个主观性比较强的回答,难道也存在作假吗?


user avatar   francium-bobo 网友的相关建议: 
      

天河1A,Titan,Edison,Cori用户

不得不说, 在科研对外宣传上面, 美帝完爆其他国家(包括欧洲和日本), 拿NERSC((美国)能源部高性能计算中心)来说, 主页是这个样子的

每次会在主页上放4个成功案例,所选的成功案例都是非常贴近大众生活的, 可以大大提高公众对于NERSC的支持度。 这是其中一个, 使用超算来优化燃料电池材料, 未来可能应用于电动汽车, 这一期还有一个是讲生物数据库的, 介绍的文章都非常详细。

再往下翻, 可以看到当前正在计算(烧钱)的任务排名:

列出正在运行的任务简介, 牵头的科学家以及单位, 所使用的CPU核数和正在烧掉的机时, 最后的白框里的数字是会跳动的, 告诉你这是实时的数据。比如第二位的是开发基于等离子体尾波场的加速器, 可以大大缩小加速器体积, 用于医学等领域。第四位是计算核聚变装置边界的不稳定性(核聚变领域对计算能力的需求就是无底洞,最近中科大一个组在太湖之光上跑到了全机运行, 用来模拟托卡马克装置中的逃逸电子)。第五名是计算大气物理, 用于理解环境变化。

我想说的是, 中国的超算上也在运行同样种类的任务,为科学研究,国计民生服务, 但是天河1A的主页呢?太简陋, 而且基本不怎么更新, 系统升级和故障信息也都是通过邮件甚至是电话通知, 没有统一的信息发布平台和用户管理系统:


所以国内的超算啊, 还是要在管理和对外宣传上学习一个。


user avatar   jiehou1993 网友的相关建议: 
      

当然是用来完成科研、工程项目中繁重的计算任务的。

超算没有那么神秘,就是个计算工具。你输入计算条件,它给你输出计算结果。和买菜用的计算器是一样一样的,只是规模上有区别而已。

家用电脑一般只有一颗CPU(GPU同理),每颗CPU内一般只有2~8个物理核心。而一般的超算有成千上万颗CPU,每颗CPU内一般有几十个物理核心。

这么多CPU当然不是拿来供暖的,而是为了通过并行计算,完成繁重的计算任务的。

举个例子,在飞行器制造领域,经常要计算飞机附近空气的流动,以及飞行器本身的受力情况。最常用的计算方法是把空气、机体分割成一个个小块块,分别计算每个小块的运动和受力,再整合起来得到整体的运动和受力情况。

一般来说,分割的越精细,每个小块越小,计算越准确。

而鱼与熊掌不可兼得,分割的越精细,计算量也越大。

假如要把一个1 的立方体分成1 的小方块,那么就要对10亿个小方块进行计算。

如果用单个CPU核心,需要连续做10亿次运算,算完整个过程可能要花上一天。

而如果有10个CPU核心,那就可以把这10亿个方块分成10份,每个CPU核心只要计算1亿个方块,然后把得到的结果整合起来就行。这样大约能快上10倍,两个小时就能算完了。

在科研和工程领域,有许许多多这样的计算任务,例如原子基本性质的量子力学计算、药物反应过程的分子动力学模拟、黑洞碰撞的相对论模拟、大气运动和天气变化的预测、桥梁设计中的受力计算......

这些复杂的问题,如果用单个CPU核心计算,可能要花上几个月甚至是几年才能得到结果。这么长的计算时间是难以接受的,所以我们需要用多个CPU核心进行并行计算以提高效率,集成大量CPU于一身的超算自然就应需而生了。


最后安利一下自己的干货回答收藏夹:


user avatar   aesir 网友的相关建议: 
      

“天宫一号”是中国第一个目标飞行器和空间实验室。天宫一号是空间交会对接试验中的被动目标。“天宫一号”的成果发射标志着中国迈入航天“三步走”战略的第二部第二阶段(即掌握空间交会对接技术及建立空间实验室),同时也是中国空间站的起点,标志着中国已经掌握空间交会对接技术,拥有建立初步空间站,即短期无人照料空间站的能力。


基于”神威·太湖之光“超级计算机,对”天宫一号“飞行器两舱简化外形(长度10余米、横截面直径近3.5米)陨落飞行(H=65km、62km、Ma=13)绕流状态大规模并行模拟,使用16,384个处理器在20天内便完成常规需要12个月的计算任务,计算结果与风洞实验结果吻合较好,为”天宫一号“飞行试验提供重要数据支持。


用户单位:国家计算流体力学实验室


【纯搬运:

nsccwx.cn/casedetail.ph


user avatar   windskymagic 网友的相关建议: 
      




  

相关话题

  读博士或者拿到博士学位以后经历和感受是怎样的? 
  科研的道路是一步慢步步慢吗? 
  你见过最震撼的自然现象是什么? 
  三区四区sci难发吗? 
  如何在课题没有进展的情况下,讲一场让导师满意的组会? 
  如何看待袁隆平获得 2018 未来科学大奖?其成果和该奖项具有怎样的意义? 
  博士研究生入学第一年就完成了毕业所需的发表论文要求是怎样的体验? 
  CPU 只能进行数值运算,那么计算机是怎么显示出字符的? 
  C/C++ 标准库为什么不支持直接删除一个文件中的部分内容? 
  遇到“杠精”审稿人是一种怎样的体验? 

前一个讨论
匿名分享一个从未说出口的秘密如何?
下一个讨论
一个人到底绝望到什么程度能让他想要去死?





© 2024-05-02 - tinynew.org. All Rights Reserved.
© 2024-05-02 - tinynew.org. 保留所有权利