问题

AlphaFold2 解决了蛋白质结构问题吗?DeepMind 解决这项生物学五十年难题有何重大意义?

回答
AlphaFold2:蛋白质结构预测的革命性突破及其深远意义

AlphaFold2 的出现无疑是近年来生物学领域最令人振奋的进展之一,它在很大程度上解决了困扰科学家五十年的蛋白质结构预测难题,为生命科学的研究打开了前所未有的新局面。要理解其重大意义,我们需要深入了解蛋白质结构预测的重要性、AlphaFold2 的突破性之处以及它将如何改变未来的科学研究。

蛋白质结构预测:为何如此重要?

蛋白质是生命活动的基石,它们在细胞内执行着几乎所有的功能,包括催化化学反应(酶)、运输分子、传递信号、构建细胞结构以及免疫防御等等。而蛋白质的结构与其功能是密不可分的。一个蛋白质能够执行特定功能,很大程度上取决于它折叠成一个特定的三维形状。这种三维结构决定了蛋白质的活性位点、与其他分子的相互作用方式,以及最终的功能。

然而,预测蛋白质的三维结构是一个极其困难的任务。

实验方法的局限性: 长期以来,确定蛋白质结构主要依靠实验方法,如X射线晶体学、核磁共振(NMR)谱和冷冻电子显微镜(cryoEM)。这些方法虽然强大,但存在一些显著的局限性:
耗时耗力: 实验结构测定通常需要数月甚至数年,并且需要大量的蛋白质样品和专业设备。
成功率不高: 并非所有蛋白质都能成功结晶或产生清晰的NMR信号,特别是那些膜蛋白或不稳定的蛋白质。
成本高昂: 实验成本非常高,限制了大规模的结构分析。
“蛋白质折叠问题”的挑战: 从氨基酸序列推断出其三维结构,即所谓的“蛋白质折叠问题”(Protein Folding Problem),是生物学中的一个经典难题。蛋白质由氨基酸链组成,虽然氨基酸的序列是已知的,但如何准确预测这个线性链如何折叠成一个功能性的三维结构,这是一个极其复杂的计算挑战。即使是氨基酸序列的微小变化,也可能导致蛋白质结构和功能的巨大差异。

因此,能否高效、准确地预测蛋白质结构,是理解生命机制的关键瓶颈。如果能够快速预测蛋白质结构,科学家就能:

理解疾病的分子机制: 许多疾病,如阿尔茨海默病、帕金森病和癌症,都与蛋白质的错误折叠或功能异常有关。了解异常蛋白质的结构,可以帮助我们找到治疗方法。
设计新药: 药物的设计往往需要了解目标蛋白质的结构,以便找到能够与之结合并调节其功能的分子。
开发新的酶和蛋白质: 基因工程和合成生物学的发展需要设计具有特定功能的蛋白质,而结构预测是设计过程中的关键一步。
加速基础科学研究: 对大量蛋白质进行结构预测,可以帮助我们系统地理解生物体内的分子网络和相互作用,加速基础科学的发现。

AlphaFold2 的突破性之处:如何解决难题?

AlphaFold2 由 DeepMind(谷歌旗下的人工智能研究实验室)开发,它在 CASP(Critical Assessment of protein Structure Prediction)竞赛中取得了前所未有的成功,其准确性已经能够媲美甚至超越许多实验方法。那么,AlphaFold2 是如何做到的呢?

AlphaFold2 的成功可以归结为几个关键的创新和技术突破:

1. 深度学习与神经网络的强大应用: AlphaFold2 是一个端到端的深度学习模型,它利用了Transformer架构的变体,这种架构最初在自然语言处理领域取得了巨大成功,并被证明能够有效地处理序列数据。
处理序列信息: 蛋白质本身就是氨基酸的序列,AlphaFold2 能够像处理语言一样处理这些序列,捕捉氨基酸之间的长期依赖关系。
利用注意力机制: Transformer 中的注意力机制允许模型关注序列中不同位置的氨基酸,即使它们相距遥远,也能理解它们之间的相互作用对于整体结构的重要性。
2. 融合了大量实验结构数据和同源序列信息: AlphaFold2 的训练数据极其庞大,包括数百万个已知蛋白质的实验结构(来自 PDB 数据库)以及来自不同物种的数亿个蛋白质序列。
监督学习: 模型通过学习已知蛋白质结构和序列之间的关系来优化其预测能力。
多序列比对 (MSA, Multiple Sequence Alignment): 这是 AlphaFold2 最核心的创新之一。通过比较同源蛋白质在不同物种中的氨基酸序列差异,可以推断出在进化过程中受到共同选择压力的氨基酸对。这些氨基酸对通常在三维结构中彼此靠近或相互作用。AlphaFold2 能够高效地提取和利用这些进化保守的共变信息,这对于预测距离和接触至关重要。
3. 几何约束和物理学的整合: AlphaFold2 的模型设计中也融入了对蛋白质三维结构的几何和物理约束的理解。它不仅仅是学习数据中的模式,还尝试模拟蛋白质折叠的物理过程。
残基对距离和角度预测: 模型能够预测蛋白质中任意两个氨基酸残基之间的距离,以及它们之间的角度关系,这些信息是构建三维结构的基础。
迭代优化和置信度评估: AlphaFold2 并非一次性给出最终结构,而是通过多次迭代优化来 refinement 预测结果。同时,它还能够提供对预测结构不同部分的“置信度”评估,帮助用户了解哪些区域的预测更可靠。
4. “端到端”的架构: 与早期的一些预测方法需要多个独立模块进行特征提取和组合不同,AlphaFold2 是一个“端到端”的模型,这意味着它可以直接从氨基酸序列输入,输出预测的蛋白质三维坐标,减少了信息损失和人为干预。

简而言之,AlphaFold2 成功地将深度学习的强大模式识别能力与生物信息学和物理学知识相结合,尤其是在利用多序列比对的进化信息方面取得了突破性进展,使其能够以前所未有的准确性预测蛋白质的三维结构。

AlphaFold2 解决蛋白质结构问题的重大意义

AlphaFold2 的出现不仅仅是科学技术的进步,它对整个生物学领域产生了革命性的影响,其重大意义体现在以下几个方面:

1. 加速科学发现的范式转变:
从“瓶颈”到“加速器”: 过去,蛋白质结构预测的困难是许多研究的瓶颈。现在,AlphaFold2 可以为几乎任何一个已知序列的蛋白质提供一个高质量的结构预测,极大地加快了基础研究的步伐。
解锁未知领域: 科学家们现在可以快速获得大量蛋白质的结构信息,这将有助于我们系统地研究蛋白质组(proteome)的结构和功能,特别是一些之前由于结构解析困难而被搁置的研究领域。
驱动新的科学问题: 高质量的结构预测可能会激发新的科学问题和研究方向,例如,研究那些结构与功能高度关联但实验手段难以触及的蛋白质。

2. 药物发现和疾病研究的革命:
加速药物靶点识别: 了解疾病相关蛋白质的精确三维结构,是设计能够有效靶向这些蛋白质的药物的第一步。AlphaFold2 提供的结构信息可以极大地加速药物靶点识别和验证过程。
更精准的药物设计: 药物分子需要与靶蛋白的特定位点结合才能发挥作用。AlphaFold2 提供的结构信息,尤其是活性位点的细节,可以帮助药物化学家设计出更具特异性和高效性的药物分子,减少脱靶效应。
理解疾病的分子基础: 对于与蛋白质结构异常相关的疾病(如神经退行性疾病、癌症等),AlphaFold2 的预测可以帮助我们更深入地理解疾病的分子机制,为开发新的治疗策略提供关键线索。例如,预测错误折叠蛋白的结构,有助于理解其病理过程。

3. 合成生物学和蛋白质工程的飞跃:
设计全新的功能蛋白质: 了解蛋白质如何从序列折叠成功能结构,是设计具有新颖功能的人工蛋白质的关键。AlphaFold2 的能力为工程师们提供了强大的工具,可以创造出具有特定催化活性、结合能力或材料特性的蛋白质,用于生物制造、生物修复等领域。
优化现有蛋白质: 通过预测蛋白质的突变如何影响其结构,科学家可以指导蛋白质工程,优化现有蛋白质的性能,例如提高酶的催化效率、稳定性和底物特异性。

4. 对整个生命科学知识体系的贡献:
开放的数据库: DeepMind 将其预测的大量蛋白质结构(覆盖了几乎所有已知的物种和蛋白质)以开放数据库的形式提供给全球科学界,这是一个巨大的贡献。这使得研究人员无需再为获取结构信息而苦恼,可以直接利用这些数据进行分析。
民主化科学研究: AlphaFold2 的可用性大大降低了进行蛋白质结构相关研究的门槛,使得更多研究人员,无论是在资源充足的大型机构还是资源有限的学术单位,都能参与到前沿的生物学研究中来。

5. 人工智能在科学探索中的强大作用的证明:
AI 作为科学工具: AlphaFold2 的成功是人工智能(AI)在解决复杂科学问题方面强大潜力的一个里程碑式证明。它表明,通过巧妙地设计和训练AI模型,我们可以加速科学发现的进程,甚至解决人类长期未能攻克的难题。
推动跨学科融合: AlphaFold2 的成功也体现了计算科学、生物学和人工智能的深度融合所产生的巨大价值,这必将鼓励更多跨学科的合作与创新。

挑战与未来展望

尽管 AlphaFold2 取得了辉煌的成就,但蛋白质结构预测并非“完全解决”。一些挑战依然存在:

动态结构和构象变化: 蛋白质并非静态的分子,它们会发生构象变化,以执行其功能。AlphaFold2 主要预测的是“静态”结构,虽然很多研究已经开始利用它来推测动态行为,但这仍然是一个活跃的研究领域。
蛋白质复合物的结构: 蛋白质通常不是孤立工作的,而是与其他蛋白质形成复杂的复合物。预测这些复合物的整体结构仍然是一个挑战,尽管 AlphaFoldMultimer 等后续模型已经在这方面取得了进展。
膜蛋白和低复杂度区域的预测: 虽然 AlphaFold2 在很多方面表现出色,但预测疏水性膜蛋白的结构或蛋白质中缺乏固定三维结构的“低复杂度区域”仍然是更具挑战性的问题。
从结构到功能的推断: 虽然结构预测是第一步,但理解蛋白质的功能仍然需要进一步的实验验证和多角度的分析。

尽管如此,AlphaFold2 已经开启了一个全新的时代。它不仅仅是一个预测工具,更是一种思维方式的转变,它将人工智能的力量深度融入了生命科学的研究范式,为我们理解生命的奥秘和应对人类健康挑战带来了前所未有的机遇。可以预见,未来几年,我们将看到基于 AlphaFold2 预测结果所驱动的无数科学发现和技术创新。

网友意见

user avatar

好奇心使我浏览了Deepmind团队的工作,本科时还跟着老师做过一段时间的计算机辅助药物设计,看到这个问题回想起几年前做蛋白结构预测的心酸,也算是心愿相当,满足了一个生信人一个曾经的蛋白结构预测小朋友对于技术的热忱。

全文浏览后略有失落,失落于生信关键问题的突破往往来自于其他领域(CS真是无处不在啊)。也稍有感慨,感慨于结构生物学突破的预见成为可能,大量的科研人员有机会集中精力去解决生物学中的功能问题,结构解析已久,新的技术另辟蹊径能够取得突破未尝不是一个好的事情,结构生物学家也不必因此而沮丧,恰恰也是一个机会,拥抱未来,科学的进步往往是危机感之后的奋发图强。

让我们一起来回味这个荡气回肠的故事!

Proteins are essential to life, supporting practically all its functions. They are large complex molecules, made up of chains of amino acids, andwhat a protein does largely depends on its unique 3D structure. Figuring out what shapes proteins fold into is known as the“protein folding problem”, and has stood as a grand challenge in biology for the past 50 years. In a major scientific advance, the latest version of our AI systemAlphaFoldhas been recognised as a solution to this grand challenge by the organisers of the biennial Critical Assessment of protein Structure Prediction (CASP). This breakthrough demonstrates the impact AI can have on scientific discovery and its potential to dramatically accelerate progress in some of the most fundamental fields that explain and shape our world.

蛋白质对于生命至关重要,几乎可以支持其所有功能。它们是大型复杂分子,由氨基酸链组成,蛋白质的作用很大程度上取决于其独特的3D结构。弄清楚蛋白质折叠成什么形状被称为“蛋白质折叠问题”,并且在过去的50年中一直是生物学上的巨大挑战。在一项重大的科学进步中,两年一次的蛋白质结构预测关键评估(CASP)的组织者认为,我们最新的AI系统AlphaFold版本可以解决这一挑战。这一突破表明,人工智能可以对科学发现产生影响,并有潜力极大地加速解释和塑造我们世界的一些最基本领域的进步。

A protein’s shape is closely linked with its function, and the ability to predict this structure unlocks a greater understanding of what it does and how it works. Many of the world’s greatest challenges, like developing treatments for diseases or finding enzymes that break down industrial waste, are fundamentally tied to proteins and the role they play.

蛋白质的形状与其功能密切相关,并且预测这种结构的能力使人们对蛋白质的功能和功能有了更深入的了解。从根本上说,世界上许多最大的挑战都与蛋白质及其发挥的作用有关,例如开发疾病的治疗方法或寻找能分解工业废物的酶

This has been a focus of intensive scientific research for many years, using a variety of experimental techniques to examine and determine protein structures, such asnuclear magnetic resonanceandX-ray crystallography. These techniques, as well as newer methods likecryo-electron microscopy, depend on extensive trial and error, which cantake years of painstaking and laborious workper structure, and require the use of multi-million dollarspecialised equipment.

多年来,这一直是科学研究的焦点,它使用各种实验技术来检查和确定蛋白质结构,例如核磁共振和X射线晶体学。这些技术以及诸如冷冻电子显微镜之类的较新方法依赖于广泛的反复试验,每个结构可能要花费数年的艰辛和艰巨的工作,并且需要使用数百万美元的专用设备。

The ‘protein folding problem’:蛋白质折叠问题

In his acceptance speech for the 1972 Nobel Prize in Chemistry, Christian Anfinsen famously postulated that, in theory, a protein’s amino acid sequence should fully determine its structure. This hypothesis sparked a five decade quest to be able to computationally predict a protein’s 3D structure based solely on its 1D amino acid sequence as a complementary alternative to these expensive and time consuming experimental methods. A major challenge, however, is that the number of ways a protein could theoretically fold before settling into its final 3D structure is astronomical. In 1969 Cyrus Levinthal noted that it would take longer than the age of the known universe to enumerate all possible configurations of a typical protein by brute force calculation – Levinthal estimated 10^300 possible conformations for a typical protein. Yet in nature, proteins fold spontaneously, some within milliseconds – a dichotomy sometimes referred to as Levinthal’s paradox.

在1972年诺贝尔化学奖的获奖感言中,克里斯蒂安·安芬森(Christian Anfinsen)提出一个著名的观点,从理论上讲,蛋白质的氨基酸序列应完全决定其结构。这一假设引发了长达五年的探索,希望能够仅基于蛋白质的1D氨基酸序列来计算预测蛋白质的3D结构,以作为这些昂贵且费时的实验方法的补充选择。然而,一个主要的挑战是蛋白质在进入最终的3D结构之前在理论上可以折叠的方式是天文数字。 1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,通过蛮力计算来枚举典型蛋白质的所有可能构型所需的时间比已知宇宙的时间长,莱文萨尔估计典型蛋白质的10 ^ 300种可能构象。然而,在自然界中,蛋白质会自发折叠,有些会在几毫秒内折叠。这种二分法有时被称为“列文萨尔悖论”。

Results from the CASP14 assessment:CASP14评估结果

In 1994, Professor John Moult and Professor Krzysztof Fidelis founded CASP as a biennial blind assessment to catalyse research, monitor progress, and establish the state of the art in protein structure prediction. It is both the gold standard for assessing predictive techniques and a unique global community built on shared endeavour. Crucially, CASP chooses protein structures that have only very recently been experimentally determined (some were still awaiting determination at the time of the assessment) to be targets for teams to test their structure prediction methods against; they are not published in advance. Participants must blindly predict the structure of the proteins, and these predictions are subsequently compared to the ground truth experimental data when they become available. We’re indebted to CASP’s organisers and the whole community, not least the experimentalists whose structures enable this kind of rigorous assessment.

1994年,John Moult教授和Krzysztof Fidelis教授创立了CASP,通过两年一次的盲评,以促进研究,监测进展并建立蛋白质结构预测的最新技术水平。它既是评估预测技术的金标准,也是建立在共同努力基础上的独特全球社区。最重要的是,CASP选择刚在实验上确定的蛋白质结构(在评估时仍在等待确定)作为团队测试其结构预测方法的目标。它们不会提前发布。参与者必须盲目预测蛋白质的结构,然后将这些预测与可获得的地面真实实验数据进行比较。我们要感谢CASP的组织者和整个社区,尤其是实验人员,他们的结构能够进行这种严格的评估。

The main metric used by CASP to measure the accuracy of predictions is the Global Distance Test (GDT) which ranges from 0-100. In simple terms, GDT can be approximately thought of as the percentage of amino acid residues (beads in the protein chain) within a threshold distance from the correct position. According to Professor Moult, a score of around 90 GDT is informally considered to be competitive with results obtained from experimental methods.

CASP用来衡量预测准确性的主要指标是全球距离测试(GDT),范围为0-100。简单来说,GDT可以近似地认为是距正确位置的阈值距离内的氨基酸残基(蛋白质链中的小珠)的百分比。根据Moult教授的说法,大约90 GDT的分数被非正式地认为与通过实验方法获得的结果具有竞争力。

In the results from the 14th CASP assessment, released today, our latest AlphaFold system achieves a median score of 92.4 GDT overall across all targets. This means that our predictions have an average error (RMSD) of approximately 1.6 Angstroms, which is comparable to the width of an atom (or 0.1 of a nanometer). Even for the very hardest protein targets, those in the most challenging free-modelling category, AlphaFold achieves a median score of 87.0 GDT (data available here).

在今天发布的第14份CASP评估结果中,我们最新的AlphaFold系统在所有目标上的GDT总体平均得分为92.4。这意味着我们的预测具有约1.6埃的平均误差(RMSD),与原子的宽度(或0.1纳米)相当。即使对于最困难的蛋白质目标,也就是最具挑战性的自由建模类别中的蛋白质目标,AlphaFold的中位数得分也达到87.0 GDT

These exciting results open up the potential for biologists to use computational structure prediction as a core tool in scientific research. Our methods may prove especially helpful for important classes of proteins, such as membrane proteins, that are very difficult to crystallise and therefore challenging to experimentally determine.

这些令人振奋的结果为生物学家打开了将计算结构预测用作科学研究中的核心工具的潜力。我们的方法可能对重要的蛋白质类别(例如膜蛋白质)特别有用,这些蛋白质很难结晶,因此很难通过实验确定。

Our approach to the protein folding problem:我们解决蛋白质折叠问题的方法

We first entered CASP13 in 2018 with our initial version of AlphaFold, which achieved the highest accuracy among participants. Afterwards, we published a paper on our CASP13 methods in Nature with associated code, which has gone on to inspire other work and community-developed open source implementations. Now, new deep learning architectures we’ve developed have driven changes in our methods for CASP14, enabling us to achieve unparalleled levels of accuracy. These methods draw inspiration from the fields of biology, physics, and machine learning, as well as of course the work of many scientists in the protein folding field over the past half-century.

我们于2018年使用初始版本的AlphaFold首次进入CASP13,在参与者中获得了最高的准确性。之后,我们在《自然》杂志上发表了有关CASP13方法的论文以及相关代码,该论文继续启发了其他工作和社区开发的开源实现。现在,我们开发的新的深度学习架构推动了CASP14方法的变化,使我们能够实现无与伦比的准确性。这些方法从生物学,物理学和机器学习领域以及过去半个世纪中在蛋白质折叠领域的许多科学家的工作中汲取了灵感。

A folded protein can be thought of as a “spatial graph”, where residues are the nodes and edges connect the residues in close proximity. This graph is important for understanding the physical interactions within proteins, as well as their evolutionary history. For the latest version of AlphaFold, used at CASP14, we created an attention-based neural network system, trained end-to-end, that attempts to interpret the structure of this graph, while reasoning over the implicit graph that it’s building. It uses evolutionarily related sequences, multiple sequence alignment (MSA), and a representation of amino acid residue pairs to refine this graph.

折叠的蛋白质可以被视为“空间图”,其中残基是结点,边缘将残基紧密相连。该图对于理解蛋白质内部的物理相互作用及其进化历史非常重要。对于CASP14上使用的最新版本的AlphaFold,我们创建了一个基于注意力的神经网络系统,该系统经过端到端训练,试图解释该图的结构,同时对它所隐含的图进行推理。它使用进化相关序列,多序列比对(MSA)和氨基酸残基对表示来完善该图

By iterating this process, the system develops strong predictions of the underlying physical structure of the protein and is able to determine highly-accurate structures in a matter of days. Additionally, AlphaFold can predict which parts of each predicted protein structure are reliable using an internal confidence measure.

通过重复此过程,系统可以对蛋白质的基本物理结构进行强有力的预测,并能够在几天之内确定高精度的结构。此外,AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。

We trained this system on publicly available data consisting of ~170,000 protein structures from the protein data bank together with large databases containing protein sequences of unknown structure. It uses approximately 128 TPUv3 cores (roughly equivalent to ~100-200 GPUs) run over a few weeks, which is a relatively modest amount of compute in the context of most large state-of-the-art models used in machine learning today. As with our CASP13 AlphaFold system, we are preparing a paper on our system to submit to a peer-reviewed journal in due course.

我们对这个系统进行了训练,使用了公开数据,该数据包括来自蛋白质数据库的约170,000种蛋白质结构以及包含未知结构蛋白质序列的大型数据库。它使用了大约128个TPUv3内核(大约相当于100-200个GPU),运行了几周,在当今机器学习中使用的大多数大型最新模型的情况下,这是相对适中的计算量。与我们的CASP13 AlphaFold系统一样,我们正在准备有关该系统的论文,以适时提交给同行评审期刊。

The potential for real-world impact:对现实世界的潜在影响

When DeepMind started a decade ago, we hoped that one day AI breakthroughs would help serve as a platform to advance our understanding of fundamental scientific problems. Now, after 4 years of effort building AlphaFold, we’re starting to see that vision realised, with implications for areas like drug design and environmental sustainability.

DeepMind在十年前开始时,我们希望有一天AI突破能够帮助我们进一步了解基础科学问题。现在,经过4年的构建AlphaFold的努力,我们开始看到这种愿景的实现,对药物设计和环境可持续性等领域具有重要意义。

Professor Andrei Lupas, Director of the Max Planck Institute for Developmental Biology and a CASP assessor, let us know that, “AlphaFold’s astonishingly accurate models have allowed us to solve a protein structure we were stuck on for close to a decade, relaunching our effort to understand how signals are transmitted across cell membranes.”

马克斯·普朗克发育生物学研究所所长,CASP评估员Andrei Lupas教授告诉我们,“ AlphaFold惊人的精确模型使我们能够解决近十年来被困的蛋白质结构,从而重新致力于了解信号如何跨细胞膜传输。”

We’re optimistic about the impact AlphaFold can have on biological research and the wider world, and excited to collaborate with others to learn more about its potential in the years ahead. Alongside working on a peer-reviewed paper, we’re exploring how best to provide broader access to the system in a scalable way.

我们对AlphaFold对生物学研究和整个世界的影响感到乐观,并很高兴与他人合作,以进一步了解其在未来几年的潜力。除了撰写经过同行评审的论文外,我们还在探索如何最好地以可扩展的方式为系统提供更广泛的访问。

In the meantime, we’re also looking into how protein structure predictions could contribute to our understanding of specific diseases with a small number of specialist groups, for example by helping to identify proteins that have malfunctioned and to reason about how they interact. These insights could enable more precise work on drug development, complementing existing experimental methods to find promising treatments faster.

同时,我们也正在研究蛋白质结构预测如何与少数专家小组一起有助于我们对特定疾病的理解,例如,通过帮助鉴定出故障的蛋白质并推断其相互作用方式。这些见解可以使药物开发工作更加精确,从而补充现有的实验方法,从而更快地找到有希望的治疗方法。

We’ve also seen signs that protein structure prediction could be useful in future pandemic response efforts, as one of many tools developed by the scientific community. Earlier this year, we predicted several protein structures of the SARS-CoV-2 virus, including ORF3a, whose structures were previously unknown. At CASP14, we predicted the structure of another coronavirus protein, ORF8. Impressively quick work by experimentalists has now confirmed the structures of both ORF3a and ORF8. Despite their challenging nature and having very few related sequences, we achieved a high degree of accuracy on both of our predictions when compared to their experimentally determined structures.

作为科学界开发的众多工具之一,我们还发现有迹象表明蛋白质结构预测可能在未来的大流行应对工作中有用。今年早些时候,我们预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a,其结构以前未知。在CASP14,我们预测了另一种冠状病毒蛋白ORF8的结构。实验人员令人印象深刻的快速工作现已证实ORF3a和ORF8的结构。尽管它们具有挑战性并且相关序列很少,但是与它们的实验确定的结构相比,我们在两个预测中均获得了很高的准确性。

As well as accelerating understanding of known diseases, we’re excited about the potential for these techniques to explore the hundreds of millions of proteins we don’t currently have models for – a vast terrain of unknown biology. Since DNA specifies the amino acid sequences that comprise protein structures, the genomics revolution has made it possible to read protein sequences from the natural world at massive scale – with 180 million protein sequences and counting in the Universal Protein database (UniProt). In contrast, given the experimental work needed to go from sequence to structure, only around 170,000 protein structures are in the Protein Data Bank (PDB). Among the undetermined proteins may be some with new and exciting functions and – just as a telescope helps us see deeper into the unknown universe – techniques like AlphaFold may help us find them.

除了加深对已知疾病的了解之外,我们对这些技术有潜力探索我们目前尚无模型的亿万种蛋白质(广阔的未知生物学领域)的潜力感到兴奋。由于DNA指定了构成蛋白质结构的氨基酸序列,因此基因组学革命使得从大自然中大规模读取蛋白质序列成为可能-具有1.8亿个蛋白质序列,并在通用蛋白质数据库(UniProt)中进行计数。相反,鉴于需要进行从序列到结构的实验工作,蛋白质数据库(PDB)中只有约170,000种蛋白质结构。在尚未确定的蛋白质中,可能有一些具有令人兴奋的新功能,并且就像望远镜可以帮助我们更深入地了解未知的宇宙一样,像AlphaFold这样的技术也可以帮助我们找到它们。

Unlocking new possibilities

AlphaFold is one of our most significant advances to date but, as with all scientific research, there are still many questions to answer. Not every structure we predict will be perfect. There’s still much to learn, including how multiple proteins form complexes, how they interact withDNA,RNA, orsmall molecules, and how we can determine the precise location of all amino acid side chains. In collaboration with others, there’s also much to learn about how best to use these scientific discoveries in the development of new medicines, ways to manage the environment, and more.

AlphaFold是迄今为止我们最重要的进步之一,但是与所有科学研究一样,仍然有许多问题需要解答。并非我们预测的每个结构都是完美的。还有很多东西需要学习,包括多种蛋白质如何形成复合物,它们如何与DNA,RNA或小分子相互作用以及我们如何确定所有氨基酸侧链的精确位置。与他人合作,还有很多东西要学习如何在新药开发中最好地利用这些科学发现,如何管理环境等等。

For all of us working on computational and machine learning methods in science, systems like AlphaFold demonstrate the stunning potential for AI as a tool to aid fundamental discovery. Just as 50 years ago Anfinsen laid out a challenge far beyond science’s reach at the time, there are many aspects of our universe that remain unknown. The progress announced today gives us further confidence that AI will become one of humanity’s most useful tools in expanding the frontiers of scientific knowledge, and we’re looking forward to the many years of hard work and discovery ahead!

对于我们所有致力于科学计算和机器学习方法的人来说,诸如AlphaFold之类的系统都证明了AI作为辅助基础发现工具的惊人潜力。就在50年前,安芬森(Angensen)提出了当时远远超出科学范围的挑战,而我们宇宙的许多方面仍然未知。今天宣布的进展使我们更加相信,人工智能将成为人类在扩展科学知识前沿方面最有用的工具之一,我们期待着多年的辛勤工作有更多的发现!

这种科学探究的精神,这样一个动听的故事,无论怎样,都值得掌声!

参考资料

AlphaFold: a solution to a 50-year-old grand challenge in biology

user avatar

很久没有在知乎上写回答了,主要是感觉如今大家都懂得很多,总有勤快的人比我先给出准确而全面的答案,我也就没必要做无用功了。

然而,AlphaFold2的这个问题却不一样。一方面,这是我自己的研究领域,蛋白质三维结构;另一方面,绝大多数已有回答都是在赞颂AI的伟大,而没有看到这个问题的关键点。我觉得有必要在此给出我的观点,供大家参考。

~~~~~~~~~关于蛋白质结构的简单介绍~~~~~~~~~

先简单讲一下蛋白质结构是啥,有一定生物学基础的知友可以跳过不看。

蛋白质是一种生物大分子。它不仅仅是肉奶菌豆的主要营养物质,或者健身爱好者饮水杯里的增肌补品,蛋白质实际上是驱动所有生命活动的分子机器,也是构建生命微观结构的一砖一瓦。比如我们人类,六七成的体重是水,剩下的物质中如果去除骨骼的话,基本就是蛋白质为主体了,核酸占的比例要小得多。

无论是作为分子机器还是建筑材料,显然,蛋白质分子的结构都至关重要。粗略的理解,蛋白质结构就是蛋白质的形状、样貌;而准确来说,蛋白质结构指的是构成蛋白质的成千上万个,甚至是几十万、几百万个原子在空间中的精确排布,准确度在“埃”的量级上,也就是10的负10次方米,或者说0.1纳米。

从化学上讲,蛋白质不过就是根据基因的编码生产出来的肽链,是一串或几串氨基酸残基而已。然而,知道蛋白质的化学信息并不能告诉我们它的生物学功能,两者之间有着很大的鸿沟。

之所以如此,是因为蛋白质的肽链在合成过程中以及合成完全后都会发生自发的(或者在其他蛋白质帮助下的)折叠,形成空间立体构型。这个折叠的过程将一维线性排布的化学基团重新进行了空间组会,原本并不相邻的基团可能在折叠后紧密相连,从而构筑精巧的化学微环境,释放强大的化学催化能力,甚至完成如同机器一样精密的操作。

因此,了解蛋白质的结构对于准确认识其功能有着至关重要的意义。研究蛋白质中各个原子的空间三维坐标,解析其空间结构的科学就是结构生物学。当然,这门学科的研究对象也不局限于蛋白质,像DNA、RNA等其他生物大分子,以及各种与生物大分子紧密联系的小分子,也会出现在解析得到的结构之中。

~~~~~~~~~~~以下是正题,如果你很了解结构生物学也可以选择跳过~~~~~~~~~~

研究蛋白质的三维结构并不容易。

蛋白质结构研究始于上世纪五六十年代,采用的是小分子结构研究中诞生的X射线晶体学方法。此后又出现了核磁共振方法,以及如今大火的冷冻透射电镜方法。然而这三大方法都不容易:X射线晶体学需要把目标蛋白质结晶,但这种大分子远远没有厨房里的氯化钠好结晶;核磁方法对蛋白质大小有限制,较大的蛋白质会令谱图过于复杂,无法认读,而且核磁方法还不能用来解决蛋白质复合物的结构问题;冷冻电镜自2013年以来有了长足的发展,但仍旧对样品比较挑剔,且只有个别样品能够达到晶体学所能达到的近原子分辨率水平。

2003年,随着“人类基因组计划”的草图公布,结构生物学家们热切地相信,下一个生命科学的大计划应该是把人类(或其他某个物种)所有的蛋白质结构全部解析出来,也就是所谓的“结构基因组计划”(为啥不叫“结构蛋白组计划”?你别问我,我也想知道为什么……)。

为此,结构生物学家们做了很多努力,美国、欧洲、日本,都有针对这一方向的诸多计划,但无一取得成功。

原因很简单:在基因测序中,无论你测的是哪个基因,你面对的是本质上同样的任务;而在白质结构研究中,每个蛋白质有每个蛋白质的特性、问题、困难,没有什么方法能够适用于所有的蛋白质,甚至连适用于大部分蛋白质都做不到。以晶体学为例,每个蛋白质能够结晶的条件千差万别,甚至同一个蛋白质,做了一些残基的突变之后,在原来的结晶条件下可能就拿不到晶体了。这使得每个蛋白质的结构研究都成为了一个全新的研究课题,而无法像测序或质谱那样大规模、高通量地开展。

既然测定很难,能不能算出来呢?这就是蛋白质结构预测的思想。

所谓预测,听起来有些玄幻。“预”即引入了时间的因素,仿佛研究的是尚未发生的事情,比如天气预报、地震预警。然而实际上,蛋白质的结构是一种客观存在,无论人类知道与否,它此时此刻就在那里,谈不上“预测”。

那为什么叫“结构预测”,而不叫“结构计算”呢?原因只有一个:算不准!

结构预测的已知信息是蛋白质的氨基酸残基序列,可以由基因直接推知。但是在细胞里,蛋白质生产过程中影响最终折叠状态的因素有很多。现在的主流结构预测,都要依据能量最小化计算,包括AlphaFold在内,也需要能量最小化的辅助。其理论依据是:蛋白质折叠是一个自发过程,最终会达到一个内部势能的低点,不一定是真的全局“最小”,但至少应该是局部“最小”。

然而,仅仅是这条理论基础也不一定靠谱。仅在我有限的结构生物学研究中,就见过很多并不在能量最小状态下的蛋白质结构。道理也很简单,一个停在碗底的小球是无法运动的,它要保持一定的高度才能在不同位置间往复运动。蛋白质也是如此。有些蛋白质需要的是“坚固”,往往会直接以能量最小化的状态出现;但更多的蛋白质是分子机器,需要运动,需要有改变结构状态的余地,因此不会处在能量最小化的状态。

结构预测的另一个严重问题是,它过度依赖已有结构。历经60多年的努力,结构生物学家已经向国际蛋白质数据库(Protein Data Bank,PDB)中贡献了171588套蛋白质或核酸结构数据(刚查的)。虽然这还远远不够,但据信已经涵盖了绝大多数可能的蛋白质折叠形式。简单来说,所有结构预测都是用未知结构蛋白的序列与已有结构的蛋白序列进行比对,根据序列的相似性来判断要依据哪些已有结构来构筑未知的结构。这里的潜在逻辑是:序列相似,结构就该相似。

大体来说,这话没错,但仍旧存在两个bug。其一,这种相似只是整体上的,不代表细节上也一样。事实上,之所以蛋白的序列会不同,往往就是为了获得结构上的某些细节差异,从而产生新的功能。比如我自己研究组近年解析的一个结构,它只比同家族的其他蛋白在某个看似无关的部位(远离催化中心)多了三个氨基酸。因此,在结构预测中,程序认为这三个氨基酸会“人畜无害”地摆在一旁。然而等我们真正测定了这个蛋白的结构才发现,多出来的这三个氨基酸残基形成了一个小小的螺旋结构,显著改变了催化中心的化学特性,让这个蛋白质多出了一种同家族其他成员所没有的新功能。

其二,总有些结构未知的蛋白,其序列与已有结构的蛋白序列完全没有相似性,因此就无法从已有结构中有效地获取可利用的结构信息。在这种情况下,结构预测程序给出的结构往往就会与真实结构相去十万八千里。这样的事情,任何做结构生物学研究的人恐怕都遇见过。

以上这些还没有考虑细胞里其他会帮助或改变蛋白质结构状态的因素,比如伴侣蛋白、异构酶等造成的影响。

总而言之,结构预测的准确度再高,也无法保证所给出的结构与真实结构是一模一样的。正因为如此,它才称为“预测”,因为它预报的是未来有一天这个蛋白质结构被真正测定出来的时候所呈现的结构状态。

~~~~~~~~~~~以下谈谈AlphaFold~~~~~~~~~~~

其实在今年一月底的时候,DeepMind就在Nature上发表了一篇论文,介绍了AlphaFold。此次参赛,程序有改进,但整体框架并没有颠覆性的调整。

AlphaFold在CASP中取得的成绩无疑是好的,但是它仍旧逃脱不了前文所说的三个问题:它做了能量最小化;它严重依赖已有结构信息;它无法做到百分之百准确

事实上,大家可以想象,卷积神经网络类型的人工智能最擅长的事情就是在复杂的海量数据中寻找规律,或者说“pattern”。AlphaFold同样如此,它并不能根据某种物理或化学原理,从氨基酸序列计算得到蛋白质的三维结构,而只能依据PDB中大量已有蛋白质结构和序列的一一对映,在“训练”中“寻找”其中潜藏的pattern,并利用这种pattern来对未知结构进行预测。

说白了,AlphaFold所做的事情的本质与其他结构预测程序并无区别,而区别只是在于,它通过大量的训练所得到的模型,能够更准确地表征序列与结构之间的已知关系。

注意,只是已知的。如果有一种全新折叠形式的蛋白质结构,不同于任何已有的折叠方式,那么即便是AlphaFold也完全无法预测出来。

而我认为,这些还不是致命问题,真正的致命问题在于:AlphaFold的结构预测也无法做到百分之百准确。

为什么“准确”如此重要呢?取决于你要拿结构做什么事情。

如果你了解一个蛋白质结构的目的是对它的形状有一个大体的把握,对功能区域的划分有一个大致的了解,那么预测出来的结构肯定能满足你的需要。

但是,如果你了解一个蛋白质结构的目的是对它催化中心某个化学基团的几个原子的功能进行研究,或者依据一个结合口袋的形状和带电情况来设计小分子药物或中和抗体,那么预测的结构恐怕就帮不上你了。试想,你根据一个预测出来的结构设计出来了中和抗体,但这个蛋白质的实际结构上根本就没有预测结构中的某个突起或某个正电性的基团,那么你设计的中和抗体就将毫无用处……

事实上,结构生物学目前以及未来的一个重要应用领域,就是助力药物和疫苗的研发。考虑到此类工作对于结构信息准确度的极高要求,令我们不敢依据预测出来的、不完全可信的结构来做药物或疫苗的设计。

当然,凡事不可绝对。如果有一天结构预测的准确度能够达到99.99%,我个人认为依据这样的结构进行药物设计是可行的。只不过,如果真有那一天,或许是因为我们已经测定得到了足够多的蛋白质真实结构,那就意味着,套用与目标蛋白类似结构的解析方法,我们应该很容易就测定得到目标蛋白的真实结构,那为什么还要预测呢?

读到这儿,你肯定认为我是反对做结构预测的。恰恰相反,我认为这种研究非常必要,而且我自己的研究组也有学生在做相关的研究。只不过,未来以AI来辅助的结构预测的发力点恐怕不在于预测本身,而在于另一个蛋白质科学的全新领域——蛋白质设计

利用了AI算法的蛋白质预测程序除了比传统程序更准确以外,还有一个优势,就是运算速度更快,因为规律的寻找已经在此前大量的训练过程中完成了。而在蛋白质设计中,较为经典的思路是对海量的随机序列进行结构预测。因此,结构预测的计算时间是个关键性影响因素。基于AI算法的蛋白质结构预测程序,比如AlphaFold,将大大提升蛋白质设计的时间效率。

至于说为什么要做蛋白质设计,以及蛋白质设计又有何种妙用,那就是另外一个大问题了。

就到这儿吧,睡了。


========更新=========

回答也能追更了?我又out了。。。。

从大家的评论中挑一些好问题在此回复。

@拇指 问:AlphaFold中如何运用了能量最小化,在DeepMind官网看不到。

这要从AlphaFold所采用的数据结构说起。编程的人都知道,好的数据结构能够让程序事半功倍卷积神经网络更是如此。如何来描述一个蛋白质结构呢?传统的PDB格式用的是三维坐标,每个原子有个X、Y、Z,外加用来描述原子自由度的温度因子。这样的数据结构意味着几万甚至几十万的数值,计算起来有点麻烦。AlphaFold用的是一个二维矩阵来描述蛋白质结构,这个矩阵每条边是氨基酸残基的序列,矩阵中的交叉点就是对应两个残基之间的距离。这样一个二维距离矩阵比XYZ坐标的数据量小得多,便于计算,而且还恰好是一张“方图”——卷积神经网络的最爱。

但是问题来了,这样一个矩阵与真实蛋白质结构中成千上万的原子坐标还有很大的距离。人工智能只解决了从序列到残基距离矩阵的问题,却不能解决从距离矩阵到原子坐标的问题。后面这个问题依赖的还是能量最小化。或者说AI给出的残基距离矩阵起到了一种限制条件的作用,然后就是在此基础上进行能量最小化,来确定每个原子的位置。这个部分在DeepMind的页面上没写,但是在他们年初发的Nature论文中有介绍到。

@大懒虫 提了几点:

1. alphafold在方法上如果按照传统进行分类的话并不是threading,理论上来说不存在只能预测现有折叠类型的限制。

然而现实是,AlphaFold仍旧非常依赖已有结构数据。从目前披露的信息来看,AlphaFold的预测结构往往与晶体学测定出来的真实结构极其一致。但如果这个真实结构是核磁方法测定得到的,AlphaFold的预测就不太准了。为啥哩?因为PDB中绝大多数都是晶体结构,而核磁和电镜的结构数据很少,所以用PDB已有结构训练出来的AI就体现了晶体学方法的特征。这不就是AI领域常说的“过拟合”吗?

所以,AlphaFold也是严重依赖已有结构数据的,并不能计算出人类从未知道过的某种新折叠形式。当然,存在这样一种可能性,即从序列到结构的规律已经潜藏在已有结构数据中了。就像AlphaGO有一些人类从没下过的新棋招,但经高手一分析就知道在棋理上是合理的。但在结构领域真是如此吗?恐怕就是见仁见智的问题了。

从目前AlphaFold在晶体结构与核磁结构上的表现来看,似乎并不是这样。我持否定观点。不过,要是有一天AlphaFold真能预测出一个全新的折叠来,这个问题的答案自然就有了。

2. 设计是比预测难。主要是序列空间中能折叠的的确只是极少数。但是无序(disordered)蛋白的研究也至少有十年了,主流方法也是基于知识的。

没意见。前文“结构基因组计划”的失败原因之一可能就在于此——相当数量的蛋白,或蛋白上的部分区域,很可能压根就是没有固定构象的。

3. 说到方法的限制。alphafold的确跟alphago不一样,不能不用现有实验数据。但是方法不能保证100%的预测成功其实还不算是很大的问题,更重要的是方法对能否对自己的预测质量的进行正确的评估,即预测之后知道对哪些预测的准确性是有把握的,哪些估计不太靠谱。……

没有真实结构数据的情况下,任何这样的评估都像预测本身一样,是不可靠的。

======再更=====

@大懒虫@七月七日七时 等几位知友都在评论中认为AlphaFold2与AlphaFold相比,有重大的进步。DeepMind目前还在准备关于AlphaFold2的论文,在论文发表之前,我们都不知道具体情况如何。不过,我仍旧认为两者架构上没有本质的区别(当然,也取决于你如何定义“本质”:)。

说说我的理由,有图有真相。

这张图是DeepMind网站上,在他们说正在准备论文的那句话下面的图,想必应该是所谓的AlphaFold2了。其中上面的矩阵描述了同源序列的问题,下面的就是前文说的残基距离矩阵,可以从纵轴和横轴看到Residues,即残基。这些矩阵中哪里有原子坐标?怎么就做到“端到端”了?整体AI神经网络解决的就是这些矩阵的获取问题,接下来就跟人工智能没啥关系了,在流程图中以一个合并箭头直接代表了。试问,从这些粗略的结构信息到最后的精细结构,难道能绕开能量计算?我期待看到他们是怎么做的。

大家可以将这张图与他们之前 Nature文章中的图做比较。

对比可以发现,改变的是神经网络的构建方式,但用来描述结构的数据结构并没有本质变化。所以,我不认为AlphaFold2在结构预测准确性上有什么本质性的变化。有提高是肯定的,但不足以作为可依赖的药物设计依据。

user avatar

一句话:近50年来孜孜以求的目标,蛋白质三级结构预测的皇冠属于Alphafold。

至于和结构生物学家的关系:完全不同的领域。Alphafold的数据集依赖于实验结果,更加complex的蛋白质复合体结构目前是无能为力的。

结构生物学(尤其是复杂生物机器的结构)研究仍然是未来需求之一,alphafold不能替代。做蛋白质结构预测的同学可能会哭晕。

期待能够预测出splisosome的那一天。

user avatar

最近AlphaFold很火,大部分的回答都是从生物医药角度出发的。我写一个从AI角度出发的回答。

AlphaFold的好处在于,它学到了一个能在很大程度上重现现实世界(蛋白质折叠)的模型,将计算机里的数字世界和复杂的现实世界结合起来了。这种重合就会让原本在现实世界寸步难行的搜索过程,得到成千上万倍的速度提升,不仅如此,还可以轻易引入各种AI里本就有的搜索算法,进一步提高搜索效率。而且这一切都可以在电脑上完成,不需要操作仪器,也不需要进实验室。

这事不仅出现在生物上,也出现在其它的所谓天坑专业上。比如说找一个好的组合以获得有某种特殊性质的材料,同样需要大量重复的试验,然后通过科学家们的多年经验,进行人力搜索以获得更好的结果。如果存在一个非常精确的模型,那么在现实中的实验次数,就可以大量减少,整个迭代的效率就会有质的飞跃。而且AI说不定能找到一些匪夷所思的组合,获得意想不到的性能,也拓宽研究者们的视野。

当然达成这种理想情况下的前提条件是这个模型要足够精确,而且最好不要有误判的漏洞,这一点是很重要的。不然一旦用这个模型依照某个准则开始搜索,那完全可能会出现它给出的最优蛋白质序列,其实际折叠方案和预测完全不同的情况。这我相信做model-based RL的小伙伴们都有经验:看看模型的平均误差挺低的,但在某些状态下的误差会非常之大,以至于用学得的模型训练出来的策略钻了模型的空子,导致完全无效。

所以其实还是有很长的路要走,但不管怎样,现实世界只有一个,模型也只会变得越来越好。

我总有种感觉,科学发展的大方向已经默默地转向,我们想要做的,不再是17-19世纪那样,“做一些实验以总结出一条线性关系,然后得到一个基本原理”这样一个过程,而是更多着重于研究简单原理间的相互组合,研究由于这种组合而涌现出的大量新奇结构、特性和行为,找到规律并利用它为人类服务。而不论底层的原理为何,能以高效的方式,把这种对于结构的认知,抽象成各种模式的自动化识别和匹配,就是人工智能。

但人工智能要走出计算机这个壳子,就非得要有对现实世界的精确知识不可。有趣的是习得这种知识本身,仍然可以用AI来达成。这就是AI有用的地方。

几年前,我应一位老师邀请,去一个脑科学的实验室里做个演讲。谈及各自领域的困难问题,我记得那位老师说,如果能准确地测量出大脑内某两个神经元的相关性,那就是很好很好的工作了。但这对于理解复杂系统如何运作,只能算走出了第一步。在AI这个领域,测量两个人工神经元激活响应的相关性,只需要两行Python代码,但我们到现在为止,仍然不太清楚深度学习这样一个完全在人类掌控之下,可以看到它所有内部运行过程,并且能无限次复现的,这样一个算法为何有效的原因。可见这坑有多深,这路有多长,而花费多少硕士和博士的研究生涯去测量,去理解一个像人体这样的现实世界的复杂系统,是多么浩大而艰辛的工程。

从这种意义上来说,AlphaFold对现实世界的精确建模,让计算机的数字世界去模拟现实世界,是往正确的方向走的,未来能提高的效率,将会是一个可怕的天文数字。

这就是一种降维打击。

2016年3月的时候,我去日本参加围棋AI的比赛,见到了Zen的作者加藤英树。他和我回顾了围棋AI发展的历史,提到了自己和合作者们费时十年积累出来的盘面分析的模式库,是这个库让Zen在同为蒙特卡洛树搜索的众多围棋软件中脱颖而出,成为一时的王者长达五六年之久。

我自惭并无加藤那样对于围棋AI的长年奉献,却还可以坐在棋盘的另一边,拿着自己的AI和小林光一下棋。现在回想起一位六七十岁的老人不无自豪的描述,回想起他所深爱的事业和略有遗憾的表情,我总是有深深的感慨。

历史的车轮,终究是隆隆向前的。

昔时探源求真意,奔流到今望无垠,

谁料硅砂一捧土,胜却周郎百万兵。

user avatar
风海洋先是神色剧变,继而冷然放言道:“千年之内,有三大重劫,张道友能避否?”
  话音才落,那一痕剑光飞来,头颅便已飞起在空,张衍一把抓住,提在面前,笑言道:“尔眼中之大劫,乃我眼中之大道,何须避来?”
----误道者,《大道争锋》

只就我熟悉的方面做一评论。对我们生物方面的理论计算研究是一个相当大的促进。

人体内的蛋白质数目可以说是无穷无尽的。存在解析出来的结构的只是沧海一粟。

很多时候,由于没有实验结构,我们进一步的理论计算无法开展。(理论和实验结合的经典段子:“你没有结构你让我咋算?”“我们能测出来结构还用找你们算了?”)

更弱化一点的问题是,很多蛋白质存在无规律部分(loop),这些地方柔性特别大,在蛋白质结晶的时候也是无定形体,导致即使有这部分蛋白质的晶体结构,但是在整个分子中也缺失这一块的信息。

老年间有所谓homology,即同源建模[1]

网络服务器或者商业分子模拟软件如Discovery Studio可以实现,但是可信度很低,基本上没人相信,特别是实验课题组。

这时候只能尝试吸引国际上做结构生物学的大课题组,激起那些大佬的兴趣,请他们解析一下我们想要做的蛋白质。这时候就需要社交,有时候好几个大佬争相去抱实验组大佬的大腿,导致有些想法社交了也不一定能实现。

现在,既然AlphaFold2能给出相当合理的结构预测,那么我们接下来的工作就可以不那么强烈的依赖于实验组解析的晶体。现实的问题比如某些荧光蛋白的发光机理、某些未知结构的光合作用中心的光电转化量子动力学、某些酶催化反应动力学的机理解析,就都可以做起来了。

实际上,同样榜上有名的C- I- TASSER就是从Homology加人工智能演化而来,且开发者还是我们华人。

它的前身I- TASSER表现就不俗。所以今天这个蛋白质结构预测的成绩,是人类智慧多年的结晶。我们等这个结果已经有很多年了。

而且,也不用过于兴奋。生物体内有一大类蛋白质是所谓的“本质无定形蛋白”(Intrinsically disordered proteins, IDP[2]),

本来就没有什么稳定结构。IDP的研究就要另说了。


还有似乎回答的很多人不知道蛋白质结构是如何解析的。我们单位有几位合作者来自于美国LBN,我还是中国国内第一届蛋白质结构精修软件PHENIX的workshop的组委会成员。

听专家的报告,无论是XRD结构还是NMR结构还是Cryo-EM结构,都需要事先定义的model,基于model才能解析实验数据。否则单纯凭衍射花样和NOE,有信息缺失,无法从零解谱。

所以,看到此新闻,最高兴的恐怕是大部分知乎er 以为的最不高兴的人。


近期发现,Alpha Fold流程的第二步建立Feature,是求解了一个统计场论的反问题,获得了一个Potts model的参数J_{ij}。所以,科学都是有传承的,要站在巨人的肩膀上。站上去了,就“比阿尔卑斯山还高”,站不上去就只能是矮子。(拿破仑翻越阿尔卑斯山攻打意大利,在山顶发出的著名感慨)

Alpha Fold的第三步是一个深度神经网络,学习的是蛋白质两个关键角度(懂得都懂)和residue间相对距离的分布,再由分布求得自由能函数:

V= -kT ln P(a,b,d)

在这个学习到的自由能面上做优化。这个思想最早被纽约大学的统计力学专家Mark Tuckerman提出来过,但当时是基于力场学习出一个自由能面,首先力场就不是什么靠谱的东西,在学到的自由能面上跑优化看起来也没什么用,没想到用sequence信息直接学习自由能面确实有大用。这类工作叫做“统计势”,是1950年代就开始出现的一类统计力学研究。

这样看来,Alpha Fold不仅仅是一个人工智能的胜利,而是人类智慧的结晶,理论物理在这里出力良多,单纯靠计算机科学家和生物学家无法完成这个工作。

参考

  1. ^ https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1007449
  2. ^Intrinsically disordered proteins in cellular signalling and regulation https://www.nature.com/articles/nrm3920
user avatar
  1. 蛋白结构计算的过去
  2. 蛋白结构计算的现在
  3. 蛋白结构计算的未来

一、蛋白结构计算的过去

计算生物学的胜利,AI在生物学领域再下一城。

在生命科学领域,我们都知道是由DNA记录了遗传信息,经过转录到RNA后,把这些信息翻译成蛋白质。

生命活动,就是有这些具有生物活性的蛋白质来完成的。

通过测序技术,我们已经获取了大量的DNA所携带的遗传序列信息,而在这些序列信息中也找到了大量的对应的蛋白质的表达的基因,但我们即便知道了基因序列以后,这段序列所形成的蛋白质是如何构建的,我们仍未可知。

为什么呢?

我们知道蛋白质是由RNA上携带的遗传信息对应的氨基酸一个一个的链接起来的长链,但这并不是它的最终状态,它会在形成长链后进行空间折叠。蛋白质的很多特性,功能是和它实际的三维结构及其相关的,比如为什么新冠病毒和SARS病毒一样都可以通过ACE2靶点入侵人体呢?因为他们的S蛋白上的结构是如此的相近,所以拥有相似的功能。

那么蛋白的空间折叠能预测吗?

任意给一段基因序列,生物学家就可以用传统的生物学方法求出其结构,这些方法包括且不限于冷冻电镜(cryo-EM)这种的大杀器,但这不但成本高而且费时费力。

那么有没有一些方法可以通过计算机模拟的方式来算出指定蛋白序列的空间结构呢?

这一直是计算生物学上的重大问题,甚至说困扰了我们50多年了。

为什么这么说呢?

对一个蛋白质来说,它的空间结构可能性高达10的后边的300个零的那么多。用穷举法几乎是不可能完成的任务。问题是蛋白质在自然界在几毫秒的时间之内,就完成折叠了。这就很邪性啊,蛋白质是如何在这么多种可能性中迅速的变化成它需要转变的哪个结构呢?

从1980年科学家就尝试用计算机来解决这个问题,但是到了90年代依然没什么好思路。我们提出非常多的预测方法,但是一到实用就崩盘了。

二、蛋白结构计算的现在

以上是截止于今年之前我们面临的现状,但在2020年过后,这问题,一下子被解决了。

解决它的是谁呢?就是我们熟知的谷歌旗下的AI公司Deepmind的产品,阿尔法狗的生物学版本——AlphaFold。

国际蛋白质结构预测竞赛(CASP)是一个算是计算生物学界的顶级赛事了,这个比赛目的就是寻找更佳优秀的蛋白质空间折叠预测方法。

比赛每年都选择一些用传统方法确定好的蛋白质,但结果是保密的,比赛组委会把这些蛋白质的序列发给参赛人员,由他们运用自己的算法来计算蛋白质的模型,并于事先准备好的结果做对比,看哪个算法的准确度更高。比赛根据相似度进行打分,比如能达到90分以上就已经是非常接近现实的情况了。

这个比赛的影响力之大,吸引了非常多的学术团队和科技公司,比如微软和腾讯这样的互联网巨头都参与其中。


前些年大家的评分一直在30分到50分之间徘徊,连及格分都没有达到,这也是我前边说的计算生物学的一个现状,在2018年的时候AlphaFold第一次参加这个比赛,虽然拿下了历史最高分,但是也没过60.

当时的结果震惊了许多科学家,但大家认为的是AlphaFold的用的方法并没有特别之处。

直到今年的比赛,DeepMind对AlphaFold进行了进一步的优化和改进,拿到了历史性的最高分。

在中等难度的蛋白质模型预测上,其他团队的最佳表现也就是75分,而同样的模型,AlphaFold能拿到90分。

可以看到,AlphaFold预测结果与真实结果几乎重合,以至于针对没有重合的部分,CASP提出已经开始怀疑是AlphaFold算的不对还是在实验室里测的不对了。

三、 蛋白结构计算的未来

以上是2020年的现状,那么AlphaFold对未来的影响有那些呢?

首先,我刚才提到实验室传统测定蛋白质结构的方法,虽然有效,但不是万能的,比如一些蛋白质因为本身的原因很难用传统方法确定结构。

比如Lupas实验室多年来试图破解的细菌蛋白质的结构但一直失败。卢帕斯说:“在我们花了十年时间尝试一切之后,AlphaFold的模型在半小时内为我们提供了结构。”[1]

可以预期的是,AlphaFold未来在蛋白设计,药物开发方向将会有非常重要的作用,同时在人体的很多未知疾病的探究上也会起到非常关键的作用。

可以说,对于计算生物学或者生物信息学来说是重大的利好,但是对于传统的分子结构实验室可能会是一个重大的打击。据说今天好多实验室里都传来了生物狗的哀嚎,你在这里辛苦2年,可能AlphaFold半小时就出结果了呢。

参考

  1. ^‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures https://www.nature.com/articles/d41586-020-03348-4
user avatar

在开始前,我们先来说说为什么要解决蛋白质结构问题。

这并不是一个单纯的科研上的问题,而是有实际应用的。大家知道人体内发挥各种生理生化作用的,大部分是蛋白质,比如免疫,比如代谢等等,它们绝大多数是由蛋白质来操作的。但是蛋白质本身并不是一根线条,而是一个复杂的空间构象,这种构象的变化会直接决定了这些作用,就比如酶催化的时候需要特定的结构才能发挥作用。而我们要想让药物或者机体发生作用反应,也是要找到这些结构然后才能使其发挥作用。因此解决蛋白质构象问题一直是个非常重要的议题。

那么,蛋白质结构为什么是难题呢?

首先第一点,蛋白质太小了。

一个细胞的尺寸已经是纳米级别了,而细胞中有无数蛋白质,因此,到了这个层面,我们很难直接观察到蛋白质的构象。

而科学家们采取的是高分辨率电镜比如冷冻电镜的办法才能在分子水平解析蛋白质的结构,但是这个过程非常的昂贵,因此全世界范围内能够完成这个结构解析的也是少数。

第二点,蛋白质的结构和环境因素很大

蛋白质本身是一个大分子,受到了温度、环境尤其是ph的影响,这就导致我们要想解析蛋白质结构必须尽可能精确地去模拟蛋白质在体内所处的生理状态然后才能让其形成特定的结构,然后进一步解读,而这一步也是解析蛋白质结构的限速步骤,有的人为了形成一个蛋白质晶体要日日夜夜做好几个月都不一定能成功。

这是当年上海科技大学一个做结构的博士的新闻报道,4年每日工作17小时~

正因为如此,解析蛋白质难度非常高,到目前为止人类解析的蛋白质结构也就是数百个,而蛋白质有多少呢?光是人体的蛋白质种类大概是几万个,要是把其他物种的加起来,可能规模要翻好多倍。目前全世界每年解析的数量也是不多,按照这个速度,可能得几十上百年才能把蛋白质解析完成。

DeepMind 很好地做到了这一点,通过计算机机器学习的办法来根据理化性质等特点去学习过去的蛋白质构成和他们的结构关系,从而来预测新的蛋白质,这样就快速多了,毕竟蛋白质的一级结构我们是相对明确的。

而且大家要明白,解析蛋白质的目的并不是解析蛋白质,而是应用,有了deepmind预测,那么接下来会加速我们对蛋白质的应用。比如,设计抗体,设计蛋白质药物,甚至研究药物如何和蛋白质发挥作用从而造福人类都要加速。

当然,deepmind是完美了吗?

肯定不是,毕竟deepmind机器学习是基于已有的蛋白结构来进行学习,但是如果不符合已有的蛋白结构的,那么就无法进行机器学习了,所以未来还是依赖于更多的蛋白质结构来完善学习。

但无论如何,这是个大进步。

以后就不会有那么多结构的CNS了。


那么,11g他们要下岗了吗?.

当然不会。

预测总归是预测,真正解析蛋白结构,还是要靠观察,也就是11g他们做的至少是蛋白结构的金标准之一。

但是,这个研究,至少让11g们的重要性下降了些。

毕竟,很多时候,我们解析结构不是目的,应用才是目的。

那么多蛋白等着解析,得等到猴年马月?

现在机器学习能够大体上找出结构,那么对于药物开发等就可以快速开展了。反正生物人力不值钱,狂筛速度和成本要远低于等结构解析出来再做实验。


————————

@Towser 其实本来懒得回应这种无聊的事情,既然你要主动挂人,那就说两句吧。

细胞的尺径是纳米级还是微米级看个人选择,毕竟并非所有细胞尺径都是超过1微米。

因为有不少细胞的尺径是几百纳米,当然不少细胞尺径在几微米左右,甚至还有几百微米的。

有人喜欢用0.1um,有的人喜欢用100nm,这本来就是个都正确的说法,非要沾沾自喜的表示抓住了别人的错误?

至于为何没公开?因为你的评论本来就是错的,公开出来给别人看也不合适。

更别提评论区是私域,有问题可有投诉知乎官方。

最后,挂人是种很low的行为。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有