百科问答小站 logo
百科问答小站 font logo



AlphaFold2 解决了蛋白质结构问题吗?DeepMind 解决这项生物学五十年难题有何重大意义? 第1页

  

user avatar   shuai-shuai-9-13 网友的相关建议: 
      

好奇心使我浏览了Deepmind团队的工作,本科时还跟着老师做过一段时间的计算机辅助药物设计,看到这个问题回想起几年前做蛋白结构预测的心酸,也算是心愿相当,满足了一个生信人一个曾经的蛋白结构预测小朋友对于技术的热忱。

全文浏览后略有失落,失落于生信关键问题的突破往往来自于其他领域(CS真是无处不在啊)。也稍有感慨,感慨于结构生物学突破的预见成为可能,大量的科研人员有机会集中精力去解决生物学中的功能问题,结构解析已久,新的技术另辟蹊径能够取得突破未尝不是一个好的事情,结构生物学家也不必因此而沮丧,恰恰也是一个机会,拥抱未来,科学的进步往往是危机感之后的奋发图强。

让我们一起来回味这个荡气回肠的故事!

Proteins are essential to life, supporting practically all its functions. They are large complex molecules, made up of chains of amino acids, andwhat a protein does largely depends on its unique 3D structure. Figuring out what shapes proteins fold into is known as the“protein folding problem”, and has stood as a grand challenge in biology for the past 50 years. In a major scientific advance, the latest version of our AI systemAlphaFoldhas been recognised as a solution to this grand challenge by the organisers of the biennial Critical Assessment of protein Structure Prediction (CASP). This breakthrough demonstrates the impact AI can have on scientific discovery and its potential to dramatically accelerate progress in some of the most fundamental fields that explain and shape our world.

蛋白质对于生命至关重要,几乎可以支持其所有功能。它们是大型复杂分子,由氨基酸链组成,蛋白质的作用很大程度上取决于其独特的3D结构。弄清楚蛋白质折叠成什么形状被称为“蛋白质折叠问题”,并且在过去的50年中一直是生物学上的巨大挑战。在一项重大的科学进步中,两年一次的蛋白质结构预测关键评估(CASP)的组织者认为,我们最新的AI系统AlphaFold版本可以解决这一挑战。这一突破表明,人工智能可以对科学发现产生影响,并有潜力极大地加速解释和塑造我们世界的一些最基本领域的进步。

A protein’s shape is closely linked with its function, and the ability to predict this structure unlocks a greater understanding of what it does and how it works. Many of the world’s greatest challenges, like developing treatments for diseases or finding enzymes that break down industrial waste, are fundamentally tied to proteins and the role they play.

蛋白质的形状与其功能密切相关,并且预测这种结构的能力使人们对蛋白质的功能和功能有了更深入的了解。从根本上说,世界上许多最大的挑战都与蛋白质及其发挥的作用有关,例如开发疾病的治疗方法或寻找能分解工业废物的酶

This has been a focus of intensive scientific research for many years, using a variety of experimental techniques to examine and determine protein structures, such asnuclear magnetic resonanceandX-ray crystallography. These techniques, as well as newer methods likecryo-electron microscopy, depend on extensive trial and error, which cantake years of painstaking and laborious workper structure, and require the use of multi-million dollarspecialised equipment.

多年来,这一直是科学研究的焦点,它使用各种实验技术来检查和确定蛋白质结构,例如核磁共振和X射线晶体学。这些技术以及诸如冷冻电子显微镜之类的较新方法依赖于广泛的反复试验,每个结构可能要花费数年的艰辛和艰巨的工作,并且需要使用数百万美元的专用设备。

The ‘protein folding problem’:蛋白质折叠问题

In his acceptance speech for the 1972 Nobel Prize in Chemistry, Christian Anfinsen famously postulated that, in theory, a protein’s amino acid sequence should fully determine its structure. This hypothesis sparked a five decade quest to be able to computationally predict a protein’s 3D structure based solely on its 1D amino acid sequence as a complementary alternative to these expensive and time consuming experimental methods. A major challenge, however, is that the number of ways a protein could theoretically fold before settling into its final 3D structure is astronomical. In 1969 Cyrus Levinthal noted that it would take longer than the age of the known universe to enumerate all possible configurations of a typical protein by brute force calculation – Levinthal estimated 10^300 possible conformations for a typical protein. Yet in nature, proteins fold spontaneously, some within milliseconds – a dichotomy sometimes referred to as Levinthal’s paradox.

在1972年诺贝尔化学奖的获奖感言中,克里斯蒂安·安芬森(Christian Anfinsen)提出一个著名的观点,从理论上讲,蛋白质的氨基酸序列应完全决定其结构。这一假设引发了长达五年的探索,希望能够仅基于蛋白质的1D氨基酸序列来计算预测蛋白质的3D结构,以作为这些昂贵且费时的实验方法的补充选择。然而,一个主要的挑战是蛋白质在进入最终的3D结构之前在理论上可以折叠的方式是天文数字。 1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,通过蛮力计算来枚举典型蛋白质的所有可能构型所需的时间比已知宇宙的时间长,莱文萨尔估计典型蛋白质的10 ^ 300种可能构象。然而,在自然界中,蛋白质会自发折叠,有些会在几毫秒内折叠。这种二分法有时被称为“列文萨尔悖论”。

Results from the CASP14 assessment:CASP14评估结果

In 1994, Professor John Moult and Professor Krzysztof Fidelis founded CASP as a biennial blind assessment to catalyse research, monitor progress, and establish the state of the art in protein structure prediction. It is both the gold standard for assessing predictive techniques and a unique global community built on shared endeavour. Crucially, CASP chooses protein structures that have only very recently been experimentally determined (some were still awaiting determination at the time of the assessment) to be targets for teams to test their structure prediction methods against; they are not published in advance. Participants must blindly predict the structure of the proteins, and these predictions are subsequently compared to the ground truth experimental data when they become available. We’re indebted to CASP’s organisers and the whole community, not least the experimentalists whose structures enable this kind of rigorous assessment.

1994年,John Moult教授和Krzysztof Fidelis教授创立了CASP,通过两年一次的盲评,以促进研究,监测进展并建立蛋白质结构预测的最新技术水平。它既是评估预测技术的金标准,也是建立在共同努力基础上的独特全球社区。最重要的是,CASP选择刚在实验上确定的蛋白质结构(在评估时仍在等待确定)作为团队测试其结构预测方法的目标。它们不会提前发布。参与者必须盲目预测蛋白质的结构,然后将这些预测与可获得的地面真实实验数据进行比较。我们要感谢CASP的组织者和整个社区,尤其是实验人员,他们的结构能够进行这种严格的评估。

The main metric used by CASP to measure the accuracy of predictions is the Global Distance Test (GDT) which ranges from 0-100. In simple terms, GDT can be approximately thought of as the percentage of amino acid residues (beads in the protein chain) within a threshold distance from the correct position. According to Professor Moult, a score of around 90 GDT is informally considered to be competitive with results obtained from experimental methods.

CASP用来衡量预测准确性的主要指标是全球距离测试(GDT),范围为0-100。简单来说,GDT可以近似地认为是距正确位置的阈值距离内的氨基酸残基(蛋白质链中的小珠)的百分比。根据Moult教授的说法,大约90 GDT的分数被非正式地认为与通过实验方法获得的结果具有竞争力。

In the results from the 14th CASP assessment, released today, our latest AlphaFold system achieves a median score of 92.4 GDT overall across all targets. This means that our predictions have an average error (RMSD) of approximately 1.6 Angstroms, which is comparable to the width of an atom (or 0.1 of a nanometer). Even for the very hardest protein targets, those in the most challenging free-modelling category, AlphaFold achieves a median score of 87.0 GDT (data available here).

在今天发布的第14份CASP评估结果中,我们最新的AlphaFold系统在所有目标上的GDT总体平均得分为92.4。这意味着我们的预测具有约1.6埃的平均误差(RMSD),与原子的宽度(或0.1纳米)相当。即使对于最困难的蛋白质目标,也就是最具挑战性的自由建模类别中的蛋白质目标,AlphaFold的中位数得分也达到87.0 GDT

These exciting results open up the potential for biologists to use computational structure prediction as a core tool in scientific research. Our methods may prove especially helpful for important classes of proteins, such as membrane proteins, that are very difficult to crystallise and therefore challenging to experimentally determine.

这些令人振奋的结果为生物学家打开了将计算结构预测用作科学研究中的核心工具的潜力。我们的方法可能对重要的蛋白质类别(例如膜蛋白质)特别有用,这些蛋白质很难结晶,因此很难通过实验确定。

Our approach to the protein folding problem:我们解决蛋白质折叠问题的方法

We first entered CASP13 in 2018 with our initial version of AlphaFold, which achieved the highest accuracy among participants. Afterwards, we published a paper on our CASP13 methods in Nature with associated code, which has gone on to inspire other work and community-developed open source implementations. Now, new deep learning architectures we’ve developed have driven changes in our methods for CASP14, enabling us to achieve unparalleled levels of accuracy. These methods draw inspiration from the fields of biology, physics, and machine learning, as well as of course the work of many scientists in the protein folding field over the past half-century.

我们于2018年使用初始版本的AlphaFold首次进入CASP13,在参与者中获得了最高的准确性。之后,我们在《自然》杂志上发表了有关CASP13方法的论文以及相关代码,该论文继续启发了其他工作和社区开发的开源实现。现在,我们开发的新的深度学习架构推动了CASP14方法的变化,使我们能够实现无与伦比的准确性。这些方法从生物学,物理学和机器学习领域以及过去半个世纪中在蛋白质折叠领域的许多科学家的工作中汲取了灵感。

A folded protein can be thought of as a “spatial graph”, where residues are the nodes and edges connect the residues in close proximity. This graph is important for understanding the physical interactions within proteins, as well as their evolutionary history. For the latest version of AlphaFold, used at CASP14, we created an attention-based neural network system, trained end-to-end, that attempts to interpret the structure of this graph, while reasoning over the implicit graph that it’s building. It uses evolutionarily related sequences, multiple sequence alignment (MSA), and a representation of amino acid residue pairs to refine this graph.

折叠的蛋白质可以被视为“空间图”,其中残基是结点,边缘将残基紧密相连。该图对于理解蛋白质内部的物理相互作用及其进化历史非常重要。对于CASP14上使用的最新版本的AlphaFold,我们创建了一个基于注意力的神经网络系统,该系统经过端到端训练,试图解释该图的结构,同时对它所隐含的图进行推理。它使用进化相关序列,多序列比对(MSA)和氨基酸残基对表示来完善该图

By iterating this process, the system develops strong predictions of the underlying physical structure of the protein and is able to determine highly-accurate structures in a matter of days. Additionally, AlphaFold can predict which parts of each predicted protein structure are reliable using an internal confidence measure.

通过重复此过程,系统可以对蛋白质的基本物理结构进行强有力的预测,并能够在几天之内确定高精度的结构。此外,AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。

We trained this system on publicly available data consisting of ~170,000 protein structures from the protein data bank together with large databases containing protein sequences of unknown structure. It uses approximately 128 TPUv3 cores (roughly equivalent to ~100-200 GPUs) run over a few weeks, which is a relatively modest amount of compute in the context of most large state-of-the-art models used in machine learning today. As with our CASP13 AlphaFold system, we are preparing a paper on our system to submit to a peer-reviewed journal in due course.

我们对这个系统进行了训练,使用了公开数据,该数据包括来自蛋白质数据库的约170,000种蛋白质结构以及包含未知结构蛋白质序列的大型数据库。它使用了大约128个TPUv3内核(大约相当于100-200个GPU),运行了几周,在当今机器学习中使用的大多数大型最新模型的情况下,这是相对适中的计算量。与我们的CASP13 AlphaFold系统一样,我们正在准备有关该系统的论文,以适时提交给同行评审期刊。

The potential for real-world impact:对现实世界的潜在影响

When DeepMind started a decade ago, we hoped that one day AI breakthroughs would help serve as a platform to advance our understanding of fundamental scientific problems. Now, after 4 years of effort building AlphaFold, we’re starting to see that vision realised, with implications for areas like drug design and environmental sustainability.

DeepMind在十年前开始时,我们希望有一天AI突破能够帮助我们进一步了解基础科学问题。现在,经过4年的构建AlphaFold的努力,我们开始看到这种愿景的实现,对药物设计和环境可持续性等领域具有重要意义。

Professor Andrei Lupas, Director of the Max Planck Institute for Developmental Biology and a CASP assessor, let us know that, “AlphaFold’s astonishingly accurate models have allowed us to solve a protein structure we were stuck on for close to a decade, relaunching our effort to understand how signals are transmitted across cell membranes.”

马克斯·普朗克发育生物学研究所所长,CASP评估员Andrei Lupas教授告诉我们,“ AlphaFold惊人的精确模型使我们能够解决近十年来被困的蛋白质结构,从而重新致力于了解信号如何跨细胞膜传输。”

We’re optimistic about the impact AlphaFold can have on biological research and the wider world, and excited to collaborate with others to learn more about its potential in the years ahead. Alongside working on a peer-reviewed paper, we’re exploring how best to provide broader access to the system in a scalable way.

我们对AlphaFold对生物学研究和整个世界的影响感到乐观,并很高兴与他人合作,以进一步了解其在未来几年的潜力。除了撰写经过同行评审的论文外,我们还在探索如何最好地以可扩展的方式为系统提供更广泛的访问。

In the meantime, we’re also looking into how protein structure predictions could contribute to our understanding of specific diseases with a small number of specialist groups, for example by helping to identify proteins that have malfunctioned and to reason about how they interact. These insights could enable more precise work on drug development, complementing existing experimental methods to find promising treatments faster.

同时,我们也正在研究蛋白质结构预测如何与少数专家小组一起有助于我们对特定疾病的理解,例如,通过帮助鉴定出故障的蛋白质并推断其相互作用方式。这些见解可以使药物开发工作更加精确,从而补充现有的实验方法,从而更快地找到有希望的治疗方法。

We’ve also seen signs that protein structure prediction could be useful in future pandemic response efforts, as one of many tools developed by the scientific community. Earlier this year, we predicted several protein structures of the SARS-CoV-2 virus, including ORF3a, whose structures were previously unknown. At CASP14, we predicted the structure of another coronavirus protein, ORF8. Impressively quick work by experimentalists has now confirmed the structures of both ORF3a and ORF8. Despite their challenging nature and having very few related sequences, we achieved a high degree of accuracy on both of our predictions when compared to their experimentally determined structures.

作为科学界开发的众多工具之一,我们还发现有迹象表明蛋白质结构预测可能在未来的大流行应对工作中有用。今年早些时候,我们预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a,其结构以前未知。在CASP14,我们预测了另一种冠状病毒蛋白ORF8的结构。实验人员令人印象深刻的快速工作现已证实ORF3a和ORF8的结构。尽管它们具有挑战性并且相关序列很少,但是与它们的实验确定的结构相比,我们在两个预测中均获得了很高的准确性。

As well as accelerating understanding of known diseases, we’re excited about the potential for these techniques to explore the hundreds of millions of proteins we don’t currently have models for – a vast terrain of unknown biology. Since DNA specifies the amino acid sequences that comprise protein structures, the genomics revolution has made it possible to read protein sequences from the natural world at massive scale – with 180 million protein sequences and counting in the Universal Protein database (UniProt). In contrast, given the experimental work needed to go from sequence to structure, only around 170,000 protein structures are in the Protein Data Bank (PDB). Among the undetermined proteins may be some with new and exciting functions and – just as a telescope helps us see deeper into the unknown universe – techniques like AlphaFold may help us find them.

除了加深对已知疾病的了解之外,我们对这些技术有潜力探索我们目前尚无模型的亿万种蛋白质(广阔的未知生物学领域)的潜力感到兴奋。由于DNA指定了构成蛋白质结构的氨基酸序列,因此基因组学革命使得从大自然中大规模读取蛋白质序列成为可能-具有1.8亿个蛋白质序列,并在通用蛋白质数据库(UniProt)中进行计数。相反,鉴于需要进行从序列到结构的实验工作,蛋白质数据库(PDB)中只有约170,000种蛋白质结构。在尚未确定的蛋白质中,可能有一些具有令人兴奋的新功能,并且就像望远镜可以帮助我们更深入地了解未知的宇宙一样,像AlphaFold这样的技术也可以帮助我们找到它们。

Unlocking new possibilities

AlphaFold is one of our most significant advances to date but, as with all scientific research, there are still many questions to answer. Not every structure we predict will be perfect. There’s still much to learn, including how multiple proteins form complexes, how they interact withDNA,RNA, orsmall molecules, and how we can determine the precise location of all amino acid side chains. In collaboration with others, there’s also much to learn about how best to use these scientific discoveries in the development of new medicines, ways to manage the environment, and more.

AlphaFold是迄今为止我们最重要的进步之一,但是与所有科学研究一样,仍然有许多问题需要解答。并非我们预测的每个结构都是完美的。还有很多东西需要学习,包括多种蛋白质如何形成复合物,它们如何与DNA,RNA或小分子相互作用以及我们如何确定所有氨基酸侧链的精确位置。与他人合作,还有很多东西要学习如何在新药开发中最好地利用这些科学发现,如何管理环境等等。

For all of us working on computational and machine learning methods in science, systems like AlphaFold demonstrate the stunning potential for AI as a tool to aid fundamental discovery. Just as 50 years ago Anfinsen laid out a challenge far beyond science’s reach at the time, there are many aspects of our universe that remain unknown. The progress announced today gives us further confidence that AI will become one of humanity’s most useful tools in expanding the frontiers of scientific knowledge, and we’re looking forward to the many years of hard work and discovery ahead!

对于我们所有致力于科学计算和机器学习方法的人来说,诸如AlphaFold之类的系统都证明了AI作为辅助基础发现工具的惊人潜力。就在50年前,安芬森(Angensen)提出了当时远远超出科学范围的挑战,而我们宇宙的许多方面仍然未知。今天宣布的进展使我们更加相信,人工智能将成为人类在扩展科学知识前沿方面最有用的工具之一,我们期待着多年的辛勤工作有更多的发现!

这种科学探究的精神,这样一个动听的故事,无论怎样,都值得掌声!

参考资料

AlphaFold: a solution to a 50-year-old grand challenge in biology


user avatar   Lewind 网友的相关建议: 
      

很久没有在知乎上写回答了,主要是感觉如今大家都懂得很多,总有勤快的人比我先给出准确而全面的答案,我也就没必要做无用功了。

然而,AlphaFold2的这个问题却不一样。一方面,这是我自己的研究领域,蛋白质三维结构;另一方面,绝大多数已有回答都是在赞颂AI的伟大,而没有看到这个问题的关键点。我觉得有必要在此给出我的观点,供大家参考。

~~~~~~~~~关于蛋白质结构的简单介绍~~~~~~~~~

先简单讲一下蛋白质结构是啥,有一定生物学基础的知友可以跳过不看。

蛋白质是一种生物大分子。它不仅仅是肉奶菌豆的主要营养物质,或者健身爱好者饮水杯里的增肌补品,蛋白质实际上是驱动所有生命活动的分子机器,也是构建生命微观结构的一砖一瓦。比如我们人类,六七成的体重是水,剩下的物质中如果去除骨骼的话,基本就是蛋白质为主体了,核酸占的比例要小得多。

无论是作为分子机器还是建筑材料,显然,蛋白质分子的结构都至关重要。粗略的理解,蛋白质结构就是蛋白质的形状、样貌;而准确来说,蛋白质结构指的是构成蛋白质的成千上万个,甚至是几十万、几百万个原子在空间中的精确排布,准确度在“埃”的量级上,也就是10的负10次方米,或者说0.1纳米。

从化学上讲,蛋白质不过就是根据基因的编码生产出来的肽链,是一串或几串氨基酸残基而已。然而,知道蛋白质的化学信息并不能告诉我们它的生物学功能,两者之间有着很大的鸿沟。

之所以如此,是因为蛋白质的肽链在合成过程中以及合成完全后都会发生自发的(或者在其他蛋白质帮助下的)折叠,形成空间立体构型。这个折叠的过程将一维线性排布的化学基团重新进行了空间组会,原本并不相邻的基团可能在折叠后紧密相连,从而构筑精巧的化学微环境,释放强大的化学催化能力,甚至完成如同机器一样精密的操作。

因此,了解蛋白质的结构对于准确认识其功能有着至关重要的意义。研究蛋白质中各个原子的空间三维坐标,解析其空间结构的科学就是结构生物学。当然,这门学科的研究对象也不局限于蛋白质,像DNA、RNA等其他生物大分子,以及各种与生物大分子紧密联系的小分子,也会出现在解析得到的结构之中。

~~~~~~~~~~~以下是正题,如果你很了解结构生物学也可以选择跳过~~~~~~~~~~

研究蛋白质的三维结构并不容易。

蛋白质结构研究始于上世纪五六十年代,采用的是小分子结构研究中诞生的X射线晶体学方法。此后又出现了核磁共振方法,以及如今大火的冷冻透射电镜方法。然而这三大方法都不容易:X射线晶体学需要把目标蛋白质结晶,但这种大分子远远没有厨房里的氯化钠好结晶;核磁方法对蛋白质大小有限制,较大的蛋白质会令谱图过于复杂,无法认读,而且核磁方法还不能用来解决蛋白质复合物的结构问题;冷冻电镜自2013年以来有了长足的发展,但仍旧对样品比较挑剔,且只有个别样品能够达到晶体学所能达到的近原子分辨率水平。

2003年,随着“人类基因组计划”的草图公布,结构生物学家们热切地相信,下一个生命科学的大计划应该是把人类(或其他某个物种)所有的蛋白质结构全部解析出来,也就是所谓的“结构基因组计划”(为啥不叫“结构蛋白组计划”?你别问我,我也想知道为什么……)。

为此,结构生物学家们做了很多努力,美国、欧洲、日本,都有针对这一方向的诸多计划,但无一取得成功。

原因很简单:在基因测序中,无论你测的是哪个基因,你面对的是本质上同样的任务;而在白质结构研究中,每个蛋白质有每个蛋白质的特性、问题、困难,没有什么方法能够适用于所有的蛋白质,甚至连适用于大部分蛋白质都做不到。以晶体学为例,每个蛋白质能够结晶的条件千差万别,甚至同一个蛋白质,做了一些残基的突变之后,在原来的结晶条件下可能就拿不到晶体了。这使得每个蛋白质的结构研究都成为了一个全新的研究课题,而无法像测序或质谱那样大规模、高通量地开展。

既然测定很难,能不能算出来呢?这就是蛋白质结构预测的思想。

所谓预测,听起来有些玄幻。“预”即引入了时间的因素,仿佛研究的是尚未发生的事情,比如天气预报、地震预警。然而实际上,蛋白质的结构是一种客观存在,无论人类知道与否,它此时此刻就在那里,谈不上“预测”。

那为什么叫“结构预测”,而不叫“结构计算”呢?原因只有一个:算不准!

结构预测的已知信息是蛋白质的氨基酸残基序列,可以由基因直接推知。但是在细胞里,蛋白质生产过程中影响最终折叠状态的因素有很多。现在的主流结构预测,都要依据能量最小化计算,包括AlphaFold在内,也需要能量最小化的辅助。其理论依据是:蛋白质折叠是一个自发过程,最终会达到一个内部势能的低点,不一定是真的全局“最小”,但至少应该是局部“最小”。

然而,仅仅是这条理论基础也不一定靠谱。仅在我有限的结构生物学研究中,就见过很多并不在能量最小状态下的蛋白质结构。道理也很简单,一个停在碗底的小球是无法运动的,它要保持一定的高度才能在不同位置间往复运动。蛋白质也是如此。有些蛋白质需要的是“坚固”,往往会直接以能量最小化的状态出现;但更多的蛋白质是分子机器,需要运动,需要有改变结构状态的余地,因此不会处在能量最小化的状态。

结构预测的另一个严重问题是,它过度依赖已有结构。历经60多年的努力,结构生物学家已经向国际蛋白质数据库(Protein Data Bank,PDB)中贡献了171588套蛋白质或核酸结构数据(刚查的)。虽然这还远远不够,但据信已经涵盖了绝大多数可能的蛋白质折叠形式。简单来说,所有结构预测都是用未知结构蛋白的序列与已有结构的蛋白序列进行比对,根据序列的相似性来判断要依据哪些已有结构来构筑未知的结构。这里的潜在逻辑是:序列相似,结构就该相似。

大体来说,这话没错,但仍旧存在两个bug。其一,这种相似只是整体上的,不代表细节上也一样。事实上,之所以蛋白的序列会不同,往往就是为了获得结构上的某些细节差异,从而产生新的功能。比如我自己研究组近年解析的一个结构,它只比同家族的其他蛋白在某个看似无关的部位(远离催化中心)多了三个氨基酸。因此,在结构预测中,程序认为这三个氨基酸会“人畜无害”地摆在一旁。然而等我们真正测定了这个蛋白的结构才发现,多出来的这三个氨基酸残基形成了一个小小的螺旋结构,显著改变了催化中心的化学特性,让这个蛋白质多出了一种同家族其他成员所没有的新功能。

其二,总有些结构未知的蛋白,其序列与已有结构的蛋白序列完全没有相似性,因此就无法从已有结构中有效地获取可利用的结构信息。在这种情况下,结构预测程序给出的结构往往就会与真实结构相去十万八千里。这样的事情,任何做结构生物学研究的人恐怕都遇见过。

以上这些还没有考虑细胞里其他会帮助或改变蛋白质结构状态的因素,比如伴侣蛋白、异构酶等造成的影响。

总而言之,结构预测的准确度再高,也无法保证所给出的结构与真实结构是一模一样的。正因为如此,它才称为“预测”,因为它预报的是未来有一天这个蛋白质结构被真正测定出来的时候所呈现的结构状态。

~~~~~~~~~~~以下谈谈AlphaFold~~~~~~~~~~~

其实在今年一月底的时候,DeepMind就在Nature上发表了一篇论文,介绍了AlphaFold。此次参赛,程序有改进,但整体框架并没有颠覆性的调整。

AlphaFold在CASP中取得的成绩无疑是好的,但是它仍旧逃脱不了前文所说的三个问题:它做了能量最小化;它严重依赖已有结构信息;它无法做到百分之百准确

事实上,大家可以想象,卷积神经网络类型的人工智能最擅长的事情就是在复杂的海量数据中寻找规律,或者说“pattern”。AlphaFold同样如此,它并不能根据某种物理或化学原理,从氨基酸序列计算得到蛋白质的三维结构,而只能依据PDB中大量已有蛋白质结构和序列的一一对映,在“训练”中“寻找”其中潜藏的pattern,并利用这种pattern来对未知结构进行预测。

说白了,AlphaFold所做的事情的本质与其他结构预测程序并无区别,而区别只是在于,它通过大量的训练所得到的模型,能够更准确地表征序列与结构之间的已知关系。

注意,只是已知的。如果有一种全新折叠形式的蛋白质结构,不同于任何已有的折叠方式,那么即便是AlphaFold也完全无法预测出来。

而我认为,这些还不是致命问题,真正的致命问题在于:AlphaFold的结构预测也无法做到百分之百准确。

为什么“准确”如此重要呢?取决于你要拿结构做什么事情。

如果你了解一个蛋白质结构的目的是对它的形状有一个大体的把握,对功能区域的划分有一个大致的了解,那么预测出来的结构肯定能满足你的需要。

但是,如果你了解一个蛋白质结构的目的是对它催化中心某个化学基团的几个原子的功能进行研究,或者依据一个结合口袋的形状和带电情况来设计小分子药物或中和抗体,那么预测的结构恐怕就帮不上你了。试想,你根据一个预测出来的结构设计出来了中和抗体,但这个蛋白质的实际结构上根本就没有预测结构中的某个突起或某个正电性的基团,那么你设计的中和抗体就将毫无用处……

事实上,结构生物学目前以及未来的一个重要应用领域,就是助力药物和疫苗的研发。考虑到此类工作对于结构信息准确度的极高要求,令我们不敢依据预测出来的、不完全可信的结构来做药物或疫苗的设计。

当然,凡事不可绝对。如果有一天结构预测的准确度能够达到99.99%,我个人认为依据这样的结构进行药物设计是可行的。只不过,如果真有那一天,或许是因为我们已经测定得到了足够多的蛋白质真实结构,那就意味着,套用与目标蛋白类似结构的解析方法,我们应该很容易就测定得到目标蛋白的真实结构,那为什么还要预测呢?

读到这儿,你肯定认为我是反对做结构预测的。恰恰相反,我认为这种研究非常必要,而且我自己的研究组也有学生在做相关的研究。只不过,未来以AI来辅助的结构预测的发力点恐怕不在于预测本身,而在于另一个蛋白质科学的全新领域——蛋白质设计

利用了AI算法的蛋白质预测程序除了比传统程序更准确以外,还有一个优势,就是运算速度更快,因为规律的寻找已经在此前大量的训练过程中完成了。而在蛋白质设计中,较为经典的思路是对海量的随机序列进行结构预测。因此,结构预测的计算时间是个关键性影响因素。基于AI算法的蛋白质结构预测程序,比如AlphaFold,将大大提升蛋白质设计的时间效率。

至于说为什么要做蛋白质设计,以及蛋白质设计又有何种妙用,那就是另外一个大问题了。

就到这儿吧,睡了。


========更新=========

回答也能追更了?我又out了。。。。

从大家的评论中挑一些好问题在此回复。

@拇指 问:AlphaFold中如何运用了能量最小化,在DeepMind官网看不到。

这要从AlphaFold所采用的数据结构说起。编程的人都知道,好的数据结构能够让程序事半功倍卷积神经网络更是如此。如何来描述一个蛋白质结构呢?传统的PDB格式用的是三维坐标,每个原子有个X、Y、Z,外加用来描述原子自由度的温度因子。这样的数据结构意味着几万甚至几十万的数值,计算起来有点麻烦。AlphaFold用的是一个二维矩阵来描述蛋白质结构,这个矩阵每条边是氨基酸残基的序列,矩阵中的交叉点就是对应两个残基之间的距离。这样一个二维距离矩阵比XYZ坐标的数据量小得多,便于计算,而且还恰好是一张“方图”——卷积神经网络的最爱。

但是问题来了,这样一个矩阵与真实蛋白质结构中成千上万的原子坐标还有很大的距离。人工智能只解决了从序列到残基距离矩阵的问题,却不能解决从距离矩阵到原子坐标的问题。后面这个问题依赖的还是能量最小化。或者说AI给出的残基距离矩阵起到了一种限制条件的作用,然后就是在此基础上进行能量最小化,来确定每个原子的位置。这个部分在DeepMind的页面上没写,但是在他们年初发的Nature论文中有介绍到。

@大懒虫 提了几点:

1. alphafold在方法上如果按照传统进行分类的话并不是threading,理论上来说不存在只能预测现有折叠类型的限制。

然而现实是,AlphaFold仍旧非常依赖已有结构数据。从目前披露的信息来看,AlphaFold的预测结构往往与晶体学测定出来的真实结构极其一致。但如果这个真实结构是核磁方法测定得到的,AlphaFold的预测就不太准了。为啥哩?因为PDB中绝大多数都是晶体结构,而核磁和电镜的结构数据很少,所以用PDB已有结构训练出来的AI就体现了晶体学方法的特征。这不就是AI领域常说的“过拟合”吗?

所以,AlphaFold也是严重依赖已有结构数据的,并不能计算出人类从未知道过的某种新折叠形式。当然,存在这样一种可能性,即从序列到结构的规律已经潜藏在已有结构数据中了。就像AlphaGO有一些人类从没下过的新棋招,但经高手一分析就知道在棋理上是合理的。但在结构领域真是如此吗?恐怕就是见仁见智的问题了。

从目前AlphaFold在晶体结构与核磁结构上的表现来看,似乎并不是这样。我持否定观点。不过,要是有一天AlphaFold真能预测出一个全新的折叠来,这个问题的答案自然就有了。

2. 设计是比预测难。主要是序列空间中能折叠的的确只是极少数。但是无序(disordered)蛋白的研究也至少有十年了,主流方法也是基于知识的。

没意见。前文“结构基因组计划”的失败原因之一可能就在于此——相当数量的蛋白,或蛋白上的部分区域,很可能压根就是没有固定构象的。

3. 说到方法的限制。alphafold的确跟alphago不一样,不能不用现有实验数据。但是方法不能保证100%的预测成功其实还不算是很大的问题,更重要的是方法对能否对自己的预测质量的进行正确的评估,即预测之后知道对哪些预测的准确性是有把握的,哪些估计不太靠谱。……

没有真实结构数据的情况下,任何这样的评估都像预测本身一样,是不可靠的。

======再更=====

@大懒虫@七月七日七时 等几位知友都在评论中认为AlphaFold2与AlphaFold相比,有重大的进步。DeepMind目前还在准备关于AlphaFold2的论文,在论文发表之前,我们都不知道具体情况如何。不过,我仍旧认为两者架构上没有本质的区别(当然,也取决于你如何定义“本质”:)。

说说我的理由,有图有真相。

这张图是DeepMind网站上,在他们说正在准备论文的那句话下面的图,想必应该是所谓的AlphaFold2了。其中上面的矩阵描述了同源序列的问题,下面的就是前文说的残基距离矩阵,可以从纵轴和横轴看到Residues,即残基。这些矩阵中哪里有原子坐标?怎么就做到“端到端”了?整体AI神经网络解决的就是这些矩阵的获取问题,接下来就跟人工智能没啥关系了,在流程图中以一个合并箭头直接代表了。试问,从这些粗略的结构信息到最后的精细结构,难道能绕开能量计算?我期待看到他们是怎么做的。

大家可以将这张图与他们之前 Nature文章中的图做比较。

对比可以发现,改变的是神经网络的构建方式,但用来描述结构的数据结构并没有本质变化。所以,我不认为AlphaFold2在结构预测准确性上有什么本质性的变化。有提高是肯定的,但不足以作为可依赖的药物设计依据。


user avatar   qin-lou-yue-7 网友的相关建议: 
      

一句话:近50年来孜孜以求的目标,蛋白质三级结构预测的皇冠属于Alphafold。

至于和结构生物学家的关系:完全不同的领域。Alphafold的数据集依赖于实验结果,更加complex的蛋白质复合体结构目前是无能为力的。

结构生物学(尤其是复杂生物机器的结构)研究仍然是未来需求之一,alphafold不能替代。做蛋白质结构预测的同学可能会哭晕。

期待能够预测出splisosome的那一天。


user avatar   tian-yuan-dong 网友的相关建议: 
      

最近AlphaFold很火,大部分的回答都是从生物医药角度出发的。我写一个从AI角度出发的回答。

AlphaFold的好处在于,它学到了一个能在很大程度上重现现实世界(蛋白质折叠)的模型,将计算机里的数字世界和复杂的现实世界结合起来了。这种重合就会让原本在现实世界寸步难行的搜索过程,得到成千上万倍的速度提升,不仅如此,还可以轻易引入各种AI里本就有的搜索算法,进一步提高搜索效率。而且这一切都可以在电脑上完成,不需要操作仪器,也不需要进实验室。

这事不仅出现在生物上,也出现在其它的所谓天坑专业上。比如说找一个好的组合以获得有某种特殊性质的材料,同样需要大量重复的试验,然后通过科学家们的多年经验,进行人力搜索以获得更好的结果。如果存在一个非常精确的模型,那么在现实中的实验次数,就可以大量减少,整个迭代的效率就会有质的飞跃。而且AI说不定能找到一些匪夷所思的组合,获得意想不到的性能,也拓宽研究者们的视野。

当然达成这种理想情况下的前提条件是这个模型要足够精确,而且最好不要有误判的漏洞,这一点是很重要的。不然一旦用这个模型依照某个准则开始搜索,那完全可能会出现它给出的最优蛋白质序列,其实际折叠方案和预测完全不同的情况。这我相信做model-based RL的小伙伴们都有经验:看看模型的平均误差挺低的,但在某些状态下的误差会非常之大,以至于用学得的模型训练出来的策略钻了模型的空子,导致完全无效。

所以其实还是有很长的路要走,但不管怎样,现实世界只有一个,模型也只会变得越来越好。

我总有种感觉,科学发展的大方向已经默默地转向,我们想要做的,不再是17-19世纪那样,“做一些实验以总结出一条线性关系,然后得到一个基本原理”这样一个过程,而是更多着重于研究简单原理间的相互组合,研究由于这种组合而涌现出的大量新奇结构、特性和行为,找到规律并利用它为人类服务。而不论底层的原理为何,能以高效的方式,把这种对于结构的认知,抽象成各种模式的自动化识别和匹配,就是人工智能。

但人工智能要走出计算机这个壳子,就非得要有对现实世界的精确知识不可。有趣的是习得这种知识本身,仍然可以用AI来达成。这就是AI有用的地方。

几年前,我应一位老师邀请,去一个脑科学的实验室里做个演讲。谈及各自领域的困难问题,我记得那位老师说,如果能准确地测量出大脑内某两个神经元的相关性,那就是很好很好的工作了。但这对于理解复杂系统如何运作,只能算走出了第一步。在AI这个领域,测量两个人工神经元激活响应的相关性,只需要两行Python代码,但我们到现在为止,仍然不太清楚深度学习这样一个完全在人类掌控之下,可以看到它所有内部运行过程,并且能无限次复现的,这样一个算法为何有效的原因。可见这坑有多深,这路有多长,而花费多少硕士和博士的研究生涯去测量,去理解一个像人体这样的现实世界的复杂系统,是多么浩大而艰辛的工程。

从这种意义上来说,AlphaFold对现实世界的精确建模,让计算机的数字世界去模拟现实世界,是往正确的方向走的,未来能提高的效率,将会是一个可怕的天文数字。

这就是一种降维打击。

2016年3月的时候,我去日本参加围棋AI的比赛,见到了Zen的作者加藤英树。他和我回顾了围棋AI发展的历史,提到了自己和合作者们费时十年积累出来的盘面分析的模式库,是这个库让Zen在同为蒙特卡洛树搜索的众多围棋软件中脱颖而出,成为一时的王者长达五六年之久。

我自惭并无加藤那样对于围棋AI的长年奉献,却还可以坐在棋盘的另一边,拿着自己的AI和小林光一下棋。现在回想起一位六七十岁的老人不无自豪的描述,回想起他所深爱的事业和略有遗憾的表情,我总是有深深的感慨。

历史的车轮,终究是隆隆向前的。

昔时探源求真意,奔流到今望无垠,

谁料硅砂一捧土,胜却周郎百万兵。


user avatar   yongle-li-86 网友的相关建议: 
      
风海洋先是神色剧变,继而冷然放言道:“千年之内,有三大重劫,张道友能避否?”
  话音才落,那一痕剑光飞来,头颅便已飞起在空,张衍一把抓住,提在面前,笑言道:“尔眼中之大劫,乃我眼中之大道,何须避来?”
----误道者,《大道争锋》

只就我熟悉的方面做一评论。对我们生物方面的理论计算研究是一个相当大的促进。

人体内的蛋白质数目可以说是无穷无尽的。存在解析出来的结构的只是沧海一粟。

很多时候,由于没有实验结构,我们进一步的理论计算无法开展。(理论和实验结合的经典段子:“你没有结构你让我咋算?”“我们能测出来结构还用找你们算了?”)

更弱化一点的问题是,很多蛋白质存在无规律部分(loop),这些地方柔性特别大,在蛋白质结晶的时候也是无定形体,导致即使有这部分蛋白质的晶体结构,但是在整个分子中也缺失这一块的信息。

老年间有所谓homology,即同源建模[1]

网络服务器或者商业分子模拟软件如Discovery Studio可以实现,但是可信度很低,基本上没人相信,特别是实验课题组。

这时候只能尝试吸引国际上做结构生物学的大课题组,激起那些大佬的兴趣,请他们解析一下我们想要做的蛋白质。这时候就需要社交,有时候好几个大佬争相去抱实验组大佬的大腿,导致有些想法社交了也不一定能实现。

现在,既然AlphaFold2能给出相当合理的结构预测,那么我们接下来的工作就可以不那么强烈的依赖于实验组解析的晶体。现实的问题比如某些荧光蛋白的发光机理、某些未知结构的光合作用中心的光电转化量子动力学、某些酶催化反应动力学的机理解析,就都可以做起来了。

实际上,同样榜上有名的C- I- TASSER就是从Homology加人工智能演化而来,且开发者还是我们华人。

它的前身I- TASSER表现就不俗。所以今天这个蛋白质结构预测的成绩,是人类智慧多年的结晶。我们等这个结果已经有很多年了。

而且,也不用过于兴奋。生物体内有一大类蛋白质是所谓的“本质无定形蛋白”(Intrinsically disordered proteins, IDP[2]),

本来就没有什么稳定结构。IDP的研究就要另说了。


还有似乎回答的很多人不知道蛋白质结构是如何解析的。我们单位有几位合作者来自于美国LBN,我还是中国国内第一届蛋白质结构精修软件PHENIX的workshop的组委会成员。

听专家的报告,无论是XRD结构还是NMR结构还是Cryo-EM结构,都需要事先定义的model,基于model才能解析实验数据。否则单纯凭衍射花样和NOE,有信息缺失,无法从零解谱。

所以,看到此新闻,最高兴的恐怕是大部分知乎er 以为的最不高兴的人。


近期发现,Alpha Fold流程的第二步建立Feature,是求解了一个统计场论的反问题,获得了一个Potts model的参数J_{ij}。所以,科学都是有传承的,要站在巨人的肩膀上。站上去了,就“比阿尔卑斯山还高”,站不上去就只能是矮子。(拿破仑翻越阿尔卑斯山攻打意大利,在山顶发出的著名感慨)

Alpha Fold的第三步是一个深度神经网络,学习的是蛋白质两个关键角度(懂得都懂)和residue间相对距离的分布,再由分布求得自由能函数:

V= -kT ln P(a,b,d)

在这个学习到的自由能面上做优化。这个思想最早被纽约大学的统计力学专家Mark Tuckerman提出来过,但当时是基于力场学习出一个自由能面,首先力场就不是什么靠谱的东西,在学到的自由能面上跑优化看起来也没什么用,没想到用sequence信息直接学习自由能面确实有大用。这类工作叫做“统计势”,是1950年代就开始出现的一类统计力学研究。

这样看来,Alpha Fold不仅仅是一个人工智能的胜利,而是人类智慧的结晶,理论物理在这里出力良多,单纯靠计算机科学家和生物学家无法完成这个工作。

参考

  1. ^ https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1007449
  2. ^Intrinsically disordered proteins in cellular signalling and regulation https://www.nature.com/articles/nrm3920

user avatar   lengzhe1984 网友的相关建议: 
      
  1. 蛋白结构计算的过去
  2. 蛋白结构计算的现在
  3. 蛋白结构计算的未来

一、蛋白结构计算的过去

计算生物学的胜利,AI在生物学领域再下一城。

在生命科学领域,我们都知道是由DNA记录了遗传信息,经过转录到RNA后,把这些信息翻译成蛋白质。

生命活动,就是有这些具有生物活性的蛋白质来完成的。

通过测序技术,我们已经获取了大量的DNA所携带的遗传序列信息,而在这些序列信息中也找到了大量的对应的蛋白质的表达的基因,但我们即便知道了基因序列以后,这段序列所形成的蛋白质是如何构建的,我们仍未可知。

为什么呢?

我们知道蛋白质是由RNA上携带的遗传信息对应的氨基酸一个一个的链接起来的长链,但这并不是它的最终状态,它会在形成长链后进行空间折叠。蛋白质的很多特性,功能是和它实际的三维结构及其相关的,比如为什么新冠病毒和SARS病毒一样都可以通过ACE2靶点入侵人体呢?因为他们的S蛋白上的结构是如此的相近,所以拥有相似的功能。

那么蛋白的空间折叠能预测吗?

任意给一段基因序列,生物学家就可以用传统的生物学方法求出其结构,这些方法包括且不限于冷冻电镜(cryo-EM)这种的大杀器,但这不但成本高而且费时费力。

那么有没有一些方法可以通过计算机模拟的方式来算出指定蛋白序列的空间结构呢?

这一直是计算生物学上的重大问题,甚至说困扰了我们50多年了。

为什么这么说呢?

对一个蛋白质来说,它的空间结构可能性高达10的后边的300个零的那么多。用穷举法几乎是不可能完成的任务。问题是蛋白质在自然界在几毫秒的时间之内,就完成折叠了。这就很邪性啊,蛋白质是如何在这么多种可能性中迅速的变化成它需要转变的哪个结构呢?

从1980年科学家就尝试用计算机来解决这个问题,但是到了90年代依然没什么好思路。我们提出非常多的预测方法,但是一到实用就崩盘了。

二、蛋白结构计算的现在

以上是截止于今年之前我们面临的现状,但在2020年过后,这问题,一下子被解决了。

解决它的是谁呢?就是我们熟知的谷歌旗下的AI公司Deepmind的产品,阿尔法狗的生物学版本——AlphaFold。

国际蛋白质结构预测竞赛(CASP)是一个算是计算生物学界的顶级赛事了,这个比赛目的就是寻找更佳优秀的蛋白质空间折叠预测方法。

比赛每年都选择一些用传统方法确定好的蛋白质,但结果是保密的,比赛组委会把这些蛋白质的序列发给参赛人员,由他们运用自己的算法来计算蛋白质的模型,并于事先准备好的结果做对比,看哪个算法的准确度更高。比赛根据相似度进行打分,比如能达到90分以上就已经是非常接近现实的情况了。

这个比赛的影响力之大,吸引了非常多的学术团队和科技公司,比如微软和腾讯这样的互联网巨头都参与其中。


前些年大家的评分一直在30分到50分之间徘徊,连及格分都没有达到,这也是我前边说的计算生物学的一个现状,在2018年的时候AlphaFold第一次参加这个比赛,虽然拿下了历史最高分,但是也没过60.

当时的结果震惊了许多科学家,但大家认为的是AlphaFold的用的方法并没有特别之处。

直到今年的比赛,DeepMind对AlphaFold进行了进一步的优化和改进,拿到了历史性的最高分。

在中等难度的蛋白质模型预测上,其他团队的最佳表现也就是75分,而同样的模型,AlphaFold能拿到90分。

可以看到,AlphaFold预测结果与真实结果几乎重合,以至于针对没有重合的部分,CASP提出已经开始怀疑是AlphaFold算的不对还是在实验室里测的不对了。

三、 蛋白结构计算的未来

以上是2020年的现状,那么AlphaFold对未来的影响有那些呢?

首先,我刚才提到实验室传统测定蛋白质结构的方法,虽然有效,但不是万能的,比如一些蛋白质因为本身的原因很难用传统方法确定结构。

比如Lupas实验室多年来试图破解的细菌蛋白质的结构但一直失败。卢帕斯说:“在我们花了十年时间尝试一切之后,AlphaFold的模型在半小时内为我们提供了结构。”[1]

可以预期的是,AlphaFold未来在蛋白设计,药物开发方向将会有非常重要的作用,同时在人体的很多未知疾病的探究上也会起到非常关键的作用。

可以说,对于计算生物学或者生物信息学来说是重大的利好,但是对于传统的分子结构实验室可能会是一个重大的打击。据说今天好多实验室里都传来了生物狗的哀嚎,你在这里辛苦2年,可能AlphaFold半小时就出结果了呢。

参考

  1. ^‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures https://www.nature.com/articles/d41586-020-03348-4

user avatar   li-lei-up 网友的相关建议: 
      

在开始前,我们先来说说为什么要解决蛋白质结构问题。

这并不是一个单纯的科研上的问题,而是有实际应用的。大家知道人体内发挥各种生理生化作用的,大部分是蛋白质,比如免疫,比如代谢等等,它们绝大多数是由蛋白质来操作的。但是蛋白质本身并不是一根线条,而是一个复杂的空间构象,这种构象的变化会直接决定了这些作用,就比如酶催化的时候需要特定的结构才能发挥作用。而我们要想让药物或者机体发生作用反应,也是要找到这些结构然后才能使其发挥作用。因此解决蛋白质构象问题一直是个非常重要的议题。

那么,蛋白质结构为什么是难题呢?

首先第一点,蛋白质太小了。

一个细胞的尺寸已经是纳米级别了,而细胞中有无数蛋白质,因此,到了这个层面,我们很难直接观察到蛋白质的构象。

而科学家们采取的是高分辨率电镜比如冷冻电镜的办法才能在分子水平解析蛋白质的结构,但是这个过程非常的昂贵,因此全世界范围内能够完成这个结构解析的也是少数。

第二点,蛋白质的结构和环境因素很大

蛋白质本身是一个大分子,受到了温度、环境尤其是ph的影响,这就导致我们要想解析蛋白质结构必须尽可能精确地去模拟蛋白质在体内所处的生理状态然后才能让其形成特定的结构,然后进一步解读,而这一步也是解析蛋白质结构的限速步骤,有的人为了形成一个蛋白质晶体要日日夜夜做好几个月都不一定能成功。

这是当年上海科技大学一个做结构的博士的新闻报道,4年每日工作17小时~

正因为如此,解析蛋白质难度非常高,到目前为止人类解析的蛋白质结构也就是数百个,而蛋白质有多少呢?光是人体的蛋白质种类大概是几万个,要是把其他物种的加起来,可能规模要翻好多倍。目前全世界每年解析的数量也是不多,按照这个速度,可能得几十上百年才能把蛋白质解析完成。

DeepMind 很好地做到了这一点,通过计算机机器学习的办法来根据理化性质等特点去学习过去的蛋白质构成和他们的结构关系,从而来预测新的蛋白质,这样就快速多了,毕竟蛋白质的一级结构我们是相对明确的。

而且大家要明白,解析蛋白质的目的并不是解析蛋白质,而是应用,有了deepmind预测,那么接下来会加速我们对蛋白质的应用。比如,设计抗体,设计蛋白质药物,甚至研究药物如何和蛋白质发挥作用从而造福人类都要加速。

当然,deepmind是完美了吗?

肯定不是,毕竟deepmind机器学习是基于已有的蛋白结构来进行学习,但是如果不符合已有的蛋白结构的,那么就无法进行机器学习了,所以未来还是依赖于更多的蛋白质结构来完善学习。

但无论如何,这是个大进步。

以后就不会有那么多结构的CNS了。


那么,11g他们要下岗了吗?.

当然不会。

预测总归是预测,真正解析蛋白结构,还是要靠观察,也就是11g他们做的至少是蛋白结构的金标准之一。

但是,这个研究,至少让11g们的重要性下降了些。

毕竟,很多时候,我们解析结构不是目的,应用才是目的。

那么多蛋白等着解析,得等到猴年马月?

现在机器学习能够大体上找出结构,那么对于药物开发等就可以快速开展了。反正生物人力不值钱,狂筛速度和成本要远低于等结构解析出来再做实验。


————————

@Towser 其实本来懒得回应这种无聊的事情,既然你要主动挂人,那就说两句吧。

细胞的尺径是纳米级还是微米级看个人选择,毕竟并非所有细胞尺径都是超过1微米。

因为有不少细胞的尺径是几百纳米,当然不少细胞尺径在几微米左右,甚至还有几百微米的。

有人喜欢用0.1um,有的人喜欢用100nm,这本来就是个都正确的说法,非要沾沾自喜的表示抓住了别人的错误?

至于为何没公开?因为你的评论本来就是错的,公开出来给别人看也不合适。

更别提评论区是私域,有问题可有投诉知乎官方。

最后,挂人是种很low的行为。


user avatar   viaxke-yan-jia-su-qi 网友的相关建议: 
      

我理解里,因为中国发展太快了。

这说起来你们可能觉得离谱,但是事实就是这样。大量引入外资和外来技术开始后经济发展太快,在这种高速发展下做技术导向企业就是不可能的,你做技术带来的增长率远远赶不上加了外资杠杆的竞争对手的增长率。

哪怕企业真的技术强壁垒高能活过竞争,企业里的员工也必然要被大量挖角,因为员工在这种环境下理性选择也是赚快钱。2000年赚了1000万的和2000-2020每年100万收入的在2021比资产时前者几乎无悬念完胜的背景下,没人会有心思在一家公司搞什么技术的,必然都是想着快,抄,上,做出影响力,跳槽,收入翻几倍,下一轮。

等中国也一年增长两三个点,利率接近0,普通搞技术的可以30混到60的时候,这种公司反而会更容易生成。


user avatar   moxuan233 网友的相关建议: 
      

三峡

有了它很多长江生物灭绝了或正在灭绝。




  

相关话题

  基础科学应该缩小招生规模吗? 
  鸟类是单起源还是多起源? 
  图像处理和机器学习有什么关系? 
  如何评价DeepMind新提出的MuZero算法? 
  随着人工智能的不断增强,会出现背叛人类的好机会吗? 
  基于朊病毒的蛋白质药物设计可行不可行? 
  人类第一次在熟肉上加盐是什么时候? 
  当今生物界有哪些有明显进化趋势物种? 
  当病毒入侵人体后,免疫系统如何抵御? 
  人最多可以在水里泡多久? 

前一个讨论
CDPR 新游戏《赛博朋克 2077》出了,实际游戏体验如何?
下一个讨论
如何评价Deepmind自监督新作BYOL?





© 2024-05-10 - tinynew.org. All Rights Reserved.
© 2024-05-10 - tinynew.org. 保留所有权利