对生物大分子进行第一性原理计算通常有两个思路:
- 暴力硬算,代表者是Stanford大学,Todd Martinez开发的TeraChem。Stanford是目前世界上已知各专业的学生都能写出良好代码的大学(估计这也是为什么没听说Stanford大学毕业生劝退什么的,个人读Stanford几个课题组的工作,感到在Stanford,CS已经成了大学数学一样的基础知识了)。TeraChem是目前已知最好用的可GPU加速的量子化学软件。其他的比如VASP什么的据说也能支持GPU,但是都不那么好使。我自己博士期间参与过编写分块计算蛋白质电子结构的程序,比较了之后发现,TeraChem居然比分块计算还快。。。。。。但是由于DFT、HF之类对体系的计算量成O(N^4)增长,硬算是有上限的。我3年前测试的体系大约在200个残基以下,是小型蛋白质。我用MFCC分块,每一个CPU只计算一个残基,包含30个左右的原子;居然没有一个节点,两个GPU的TeraChem速度快。不过我不知道目前TeraChem的计算上限在哪。顺带说一下,TeraChem是按节点卖的。他们定义一个标准节点,里边只能包含两块GPU,5万元人民币一个节点。如果是一个节点装了4块GPU,价格就要增加了。
刚才看到,基于平面波的PWmat也蹦出来票了一把。
第一性原理计算2019-nCoV病毒分子3CL水解酶结构
不过,个人对这东西用在生物大分子量化计算中的价值持保留态度。等以后开会的时候咨询好了。PWmat算材料好像还是很有帮助的。知乎上也有他们的团队成员
分块计算。这又有许多流派。比较流行的有日本人开发的FMO、我熟悉的MFCC等。去年正好出了一篇综述:John M. Herbert,J. Chem. Phys. 151, 170901 (2019); https://doi.org/10.1063/1.5126216
1.5 目前DeepMD发展迅猛,以后估计可以做机器学习加速的第一性原理分子动力学来模拟蛋白质了。分子力场有可能成为历史,或者只占小半壁江山了。 @深势科技 DP Technology 应该给我加鸡腿。
- 上边有 @翟羽 说得好,只用分子力场做MD足够了。这是因为,对蛋白质进行理论计算,主要关心的是药物和蛋白质的结合能,这是一个自由能计算问题。且实验误差在1 kcal/mol数量级,完全不需要第一性原理计算。用只基于数据的化学信息学、生物信息学就可以做药物开发,结果又快又好。关于复杂体系的分子动力学模拟,我课题组近期做了一系列工作,开发了一套用于分子晶体模拟的极化(polarized,不是polarizable)力场,目前最好的结果是成功模拟了生物铁电体的相变,发表在一区杂志J. Phys. Chem. Letters上,欢迎引用:J. Phys. Chem. Letters 10, 1319 (2019).
- 但是针对某特定的药物和特定的蛋白质相结合,详细研究机理,就要上量子化学。不过通常的做法也不需要把整个体系都用量子力学计算,一般只需要ab initio QM/MM MD,针对药物作用位点进行高的精度计算即可。而更进一步研究蛋白质催化化学反应机理、生物体系中的量子效应如光合作用、视觉机理、生物发光机理的话,量子动力学也可能要用上,如MCTDH。甚至,如果研究生物大分子中的量子统计问题,对于经典环境、量子系统,就需要上Ehrenfest MD、surface hopping等,如果环境也是量子的,就需要HEOM、QUAPI等等。