百科问答小站 logo
百科问答小站 font logo



如何看待中国科研团队发现新冠病毒已突变,演化出两个亚型,且传染力或有差异?发生了哪些变化? 第1页

  

user avatar   li-lei-up 网友的相关建议: 
      

终于看到这类文章了,从1月份等到了3月份。

早在1月22日回答问题“新冠比SARS弱的时候”,就提到过这个问题,我们太乐观了,病毒上存在大量的新突变,可能会造成很麻烦的后果,事实上现在无论是死亡人数还是感染人数,都已经远远超过了2003年了,最新WHO对死亡率的估测(3.4%)更是证实这个病毒,真的不弱。

因为当时看到公开的数据显示该病毒上已经出现了相当多的变异。

其实,这是基本上每个做生物的人都能够预想到的,基因组本身是会发生各种各样的突变,无论是外界刺激,还是本身复制的随机错误。对于新型冠状病毒这种单链RNA病毒,更是如此,连双链都hold不住的变异,单链更别提了。

而且和人类基因组不一样,病毒基因组很小,比如这次新型冠状病毒基因组大小只有29903个核苷酸(GenBank: MN908947.3)

这些位置可谓是“寸土寸金”,比起人类基因组有90%以上的是非基因区域,病毒的基因组上大部分区域都是有用的地方,负责结构的,负责感染的等等,这些位置发生突变,很有可能就会造成重大的变化,也就是说,某种程度上,病毒基因组的“容错率”较低。

事实上,根据目前的证据,该病毒已经有许多突变了,这是国家生物信息中心给出的变异图

如果将其放到基因组上,我们可以看到病毒本身的突变遍及了整个基因组(图中黑色竖线)

突变被固定下来,那就是进化了。

病毒进化很依赖于自然选择,而这个自然选择,就是人体。

举个浅显的例子。假如病毒的源头是感染了A,那么,对于外地人来说,大概率是

A→B

(当然后期出现了无疫区接触史的,我们认为是发生了B→C)

但是对于疫区来说,由于病毒不断地从一个人传到另一个人,在一个封闭的城市里,那就是不断地传播,所以疫区可能已经是

A→B→C→D→E→F→……

而每一次传播,都是一次自然选择。

传染性毒株的增加首先会导致少量具有繁殖优势的毒株的产生。随后这些带有繁殖优势的克隆会在数量上占据主导,从而获得更多进一步进化的机会。

为何这么讲呢?

打个比方,病毒A进入了人体,然后复制过程发生突变,产生了BCD,如果他只在这个人体上,那么它最终经过了这个人的筛选,可能是这个人体会有ABC这三种类型(假定D不适应人体而没获得进化优势)。

但是当这个病毒继续传播到下一个人时候,又一次自然选择,于是又增强一次,最后就是,线性传播越多,自然选择越多,强大病毒越多。

事实上,从最新发表这篇文章来看,佐证了这个观点,那就是病毒的进化。当然,上面我的分析那就是写知乎的水平,要是发表论文还是要严谨的分析。

在作者分析过程中,他们注意到了8,782和28,144这两个位点本身的关联(生物学上叫连锁,通俗的解释就是这两并不是随机变的),这意味着需要对这个位点进行进一步重要分析。

然后根据该位点的碱基引发的氨基酸改变,可以分为两类

碱基是T,对应的是亮氨酸,Leu,命名为L亚型。

碱基是C,对应的是丝氨酸,Ser,命名为S亚型。

通过与其他冠状病毒比较,S型新冠病毒与蝙蝠来源的冠状病毒在进化树上更接近,也就是S型相对更古老。

通过层层的进化,新的L型具有更强的传染性,所以从下面的图可以看出,L型是目前的大头

不过有意思的是,L型反而在国内更多些,而S型这个早期的病毒型则是在国外较多,比如武汉的96.3%是L型的(其实这也佐证了武汉本身就是一个巨大的病毒集中地,新亚型不断地扩散),武汉之外是61.6%。

究其原因,那就是WHO提到的「中国方法是唯一事实证明成功的方法」?

在开始的慌乱之后,迅速行动起来全民对抗,经过一段时间的围追堵截,全民做出了巨大的牺牲,我们事实上将病毒的扩散做到了一定的控制,甚至可以预料,未来,病毒范围逐渐收缩直到彻底被从中国人群中赶走。

尽管病毒在人体进行自然选择,但是它们遇到了更加强大的国家来给他个强制的人道隔绝,结果就是L型病毒很大程度被我们掐住了,这不得不说是一个奇迹。

因为理论上,早期的s型病毒较为温和,后期的新L型其实是传染力更加强大的病毒株,然而,目前来看,我们是将他们掐住了,

反而是国外不乐观,它们现在迅猛增加,

当前的确诊人数,国外扩散越来越明显了,要知道,它们面对的可是相对较温和的S型为主的病毒啊。

病毒还在持续进化,这样下去,如果再进化出一个新的亚型来,国外的对抗力量,是否能够应对?是个问号。

要知道,环球同此炎凉,国外的病例,也会倒输入回中国,比如前两天,努力很久的浙江,一下子新增了7例,是来自意大利的,而北京新增了,来自伊朗的。


现在只能期待疫苗尽早出来,这样也可以对疫情的控制做出巨大的贡献。


user avatar   hong-zheng-90 网友的相关建议: 
      

这文章从头错到尾,phylogenetic tree是错的,得出传播力更强的逻辑也是错的,最后什么防控得力导致选择压力更是错的离谱。幸好是中科院自己的杂志,还只是接受稿件(没有正是发表),不至于到国际上贻笑大方,要点脸的话就趁早撤稿吧。// 3月6日更新,好像外媒已经开始大肆渲染了,估计这回真的要闹国际笑话了。国际同行已经开始花式打脸。


28144T(所谓的L型)才是更加原始的,28144C(所谓的S型)是后来突变产生的,这也就解释了这两个病毒mutants的流行病学特征(详细分析见下文),而不是作者牵强附会的中国防疫做得好导致的选择压力。

最搞笑的是那个所谓同时感染S型和L型的病人,其实只是28144号位点测序不准罢了(C/T未确定)....,就被作者当成同时感染两种亚型。

gisaid.org/epiflu-appli

作者好歹看看其他人做的系统发生树(⬆️),不要闭门造车得出个错误结论,还是想讨好上级领导先射箭再画靶子?

下面是真正正确的详细解读(拜托朋友上来答的,观点完全一致,我比较懒):

根据全球科研工作者公认的SARS-CoV-2基因组共识序列(consensus)以及目前已知的众多病毒株基因组序列分析,论文中的多个观点有着实质性缺陷(substantial flaws),作者构建的系统发生树(phylogenetic tree)是错误的,基于错误的系统发生树得出的结论(S型更加原始、L型是后突变产生的)自然也是错误的,而在此基础上衍生的多个猜想和推论也是不符合事实、不符合逻辑、不符合常识的。


全球SARS-CoV-2新型冠状病毒的共同祖先、起源病毒株、参考序列,全球最早完成高质量全基因组测序、1月5日上传公开的病毒株,Wuhan-Hu-1,它在28144位点上是什么?答案是28144T,对应ORF8 84Leu/L型,L型,L型,重要的事情说三遍
然而,论文作者却宣称,根据他们根据远方亲戚RaTG13构建的系统发生树,S型是祖先、L型是后来突变的,而且美国患者测序结果中8782、28144两个位点出现了C/T混合,怀疑是同时感染了两个病毒株?不要开国际玩笑,闹国际笑话!


正因为L型是更古老的基因型,所以传播更为广泛(占70%),也携带有更丰富、更复杂的其他位点突变;而后期出现、相对年轻的S型传播就没有那么广泛,突变也相对较少。L型传播广泛、累积突变更多的事实,恰恰印证了L型是相对S型更为古老的基因型;L型传播更为广泛、积累更多突变,成为非常容易理解的正常现象,突变正是时间积累导致的,这与病毒传播力、复制速度、毒性没有显著联系。

user avatar   jackey10 网友的相关建议: 
      

媒体对这篇文章完全是误读。分型突变和功能突变是两码事,新冠病毒目前尚未发现任何毒力或传播力相关的变异。从病毒的感染性致病性上来说,目前测序的全球任何一株病毒,无论所谓的S型还是L型毒力都是一样的,所谓的突变只对分型有意义,没有任何功能型突变研究结果。所谓的传播性差异也只是统计S型和L型的患者分布的差异,并不是研究出了这两个型传播力有差异,和功能毫无相关性。媒体完全是误导性解读。

全球所有已测序的病毒株,在三万多个碱基中只发现了140多个位点的突变(中科院版纳植物园之前的90多个样本中发现的是120个位点,这次多了几个样本,多了几个位点,总体没有差异),相似性为99.6%。目前和新冠病毒相似性最高症状最相似的中间宿主-马来穿山甲的病毒,其相似性也只有90%,蝙蝠病毒是87%,与新冠同亚型的SARS是79%。所以99.6%已经高度同源,可以认定没有整体变异。也就是说全球的新冠在序列上是高度一致的,在传播过程中即使传播了多代病人都尚未发生明显变异,也没有证据显示病毒传播力的地域差异。更重要的是,与致病性直接相关的突刺s蛋白和其他重要蛋白,也没有被发现任何功能性变异。

而我们定义的毒王一般是指他的病毒载量特别多,导致传染性特别强,而不是他身上病毒变异了或者毒力特别强。目前的病毒都是等效的,没有毒力差异。被发现才几十天就产生毒力变异是不现实的,哪怕是流感也只是每年有一定的变异,可能要换疫苗,而不是几十天。

在进化上这篇文章基本上和中科院的另一篇文章相同,美国的H8和广东的H2病毒比武汉的H4和H1病毒株在进化上更古老。文章基本没有什么新意在里面,发不了顶级杂志。

图来自:《国家科学评论》(National Science Review)于3月3日发表的论文《关于SARS-CoV-2的起源和持续进化》(On the origin and continuing evolution of SARS-CoV-2)

图来自:中科院基于全基因组数据解析新型冠状病毒的演化和传播


user avatar   dreamerchen-93 网友的相关建议: 
      

我来凑热闹回答一下。这个问题很多回答我看也不看了;一堆哗众取宠的答案,都是基于这篇论文观点(是正确的前提下)的延伸和解读。为什么?我可以肯定的说,这篇论文关于病毒基因突变、演化方面的结论是错误的,错误的,错误的,重要的事情说三遍。事实和证据表明,L型才是最古老的基因型,而S型是后出现的突变基因型。

这篇文章是2月29日发表于National Science Review的论文草稿(doi: 10.1093/nsr/nwaa039),有明确标示ACCEPTED MANUSCRIPT(已接受的论文草稿);今天(3月4日)下午看到有相关新闻以及微信公众号的论文解读以后,我个人已经写email联系通讯作者,以下回答节选和改编自本人的email。下面是新闻和微信公众号链接:

2019年底爆发于中国湖北武汉的SARS-CoV-2(又称新型冠状病毒),已经造成了全球范围内数万人的感染和数千人的死亡;但我们也获得了上百个病毒株基因组序列,其中包含有许多点突变,尤其是ORF8基因是突变热点区域,确实存在如作者在论文中所述的28144C/T核苷酸非同义突变(对应ORF8 84Ser/Leu),其中28144C对应Ser/丝氨酸、是作者所说的S型,28144T对应Leu/亮氨酸、是作者所说的L型(读者请记住,我自己也容易忘,要去翻序列)。

由于这篇论文是综述,阐述了新型冠状病毒的很多方面特征,无关观点不予讨论;关于病毒基因突变和演化方面,这篇论文的观点是:S型相对更古老,而L型是看起来是突变型。
此外作者在论文中还提出了多个猜测和推论,具体见下(论文原文为英文,引用的中文节选自微信公众号的论文解读):

通过与其他冠状病毒比较,作者发现S型新冠病毒与蝙蝠来源的冠状病毒在进化树上更接近,从而得出S型相对更古老的结论。
那么,一个很自然的推论是:相对古老的S型新冠病毒应该产生更多的病毒株,因其有更多的时间在人群中传播。然而,基因组数据表明L型占70%,S型占30%,且每个L型病毒株比S型携带了相对较多的新生突变。为什么相对年轻的L型新冠病毒却产生了更多的病毒株?作者推测,L型病毒传播能力更强,或者在人体内复制更快,因此可能意味着其毒力也更大。
作者进而比较了1月7日前后S型和L型所占比例的变化,他们发现L型在病毒株中的比例下降,而S型比例上升。对于这一有些反常的变化,作者也给出了自己的假设——因为中国采取了强有力的防疫措施,L型病毒的患者可能更容易表现出症状,因而更容易受到人工干预,从而使L型新冠病毒受到的负选择压力更大,感染的人数由此变少。
此外,从绝大多数患者提取的病毒株的第8782位和28144位点均只显示C碱基或T碱基,也就是说,只感染了L型或S型中的一个病毒亚型。然而,从曾经在确诊前、近期有过武汉旅行史的一位美国患者分离的病毒株,这两个位点却均呈现了C和T的混合现象,也就是说,很有可能这位患者同时感染了L型和S型新冠病毒(但目前还无法排除新突变型的可能性)。

根据全球科研工作者公认的SARS-CoV-2基因组共识序列(consensus)以及目前已知的众多病毒株基因组序列分析,论文中的这些观点具有实质性缺陷(substantial flaws),作者构建的系统发生树(phylogenic tree)是错误的,基于错误的系统发生树得出的结论(S型更加原始、L型是后突变产生的)自然也是错误的,而在此基础上衍生的多个猜测和推论也是不符合事实、不符合逻辑、不符合常识的。

下面我具体展开论证一下。

1、方法学缺陷:

首先,作者用蝙蝠CoV-RaTG13(MN996532)作为参考序列分析SARS-CoV-2,就犯了根本性的方法学错误。要知道,蝙蝠CoV-RaTG13与人类SARS-CoV-2在全基因组上的核苷酸平均相似度只有96%(意味着1100个核苷酸的差异),而目前所有SARS-CoV-2的核苷酸差异不超过10个。用一把最小刻度1m的尺子,去测量两个相距只有1cm的物体间隔,毫无疑问是有很大方法学问题的。这相当于用望远镜看到100米之外的两片树叶,然后问哪片树叶离我们更近?这个问题无法回答,应该凑近了看;而要回答两棵树谁更高的时候,凑近了看就不行,需要站远一些看。

类似的,在分析不同种冠状病毒(如SARS-CoV、MERS-CoV、bat CoVs、pangolin CoVs)之间的相似性时,应该用跨物种的基因组序列去构建系统发生树;而在分析同一种冠状病毒在不同时间、不同地点分离得到的病毒株演化关系时,需要以同一种病毒的共识序列(consensus)为基础分析突变的位点、突变类型、递进关系。 由于RNA病毒本身的突变率高, 共识序列不是随便挑一个病毒株的序列、拍脑袋定下来的,而是需要综合多个病毒株样本的基因组特征、时间空间起源、流行病学溯源后才能建立起来;科学领域是有科学、规范、严瑾的方法。
用不同的参考系列作为树根、作为起点,建立起来的系统发生树会展现出不同形态、不同结构(真正做过系统发生树的人心里很清楚,点击一下某个节点,整个树图会重新计算、有新的形态);对于流感病毒、冠状病毒容易发生重组的病毒而言,甚至对不同的基因组区域进行建树,某个病毒会处于树中的不同位置。这次SARS-CoV-2正是如此,它基因组中的不同元件来自于不同的起源,其中绝大部分基因组来自于蝙蝠CoV-RaTG13,而能与人类ACE2宿主细胞受体结合的、最关键的spike蛋白对应的S基因S1亚基的受体结合域(S1-RBD),反而更像马来穿山甲体内的冠状病毒。我在另一篇知乎回答中,已经解释过新冠病毒很有可能是来自于穿山甲的原因了。

所以建树的本领,能否建一棵漂亮的、合乎逻辑的、得到科学界同行公认的系统发生树,反映了研究者本身的基因组学、生物信息学、分子进化生物学功底(以及大数据清洗和质控能力)。因此,拿RaTG13(而非目前科学界公认的共识序列)去建立SARS-CoV-2病毒突变株的系统发生树,是典型的舍近求远、大材小用了,得到的结果也无疑是刻舟求剑、缘木求鱼,非常有可能是错的

2、病毒基因组序列的事实与证据:

其次,我自己在2月初的时候做过序列比对、做过系统发生树,我来具体解释一下为什么论文作者的系统发生树是肯定错误的

论文作者提到的那位具有武汉旅行史的美国患者,我大概率能猜到是USA-IL1/2020MN988713)这个人,他是美国伊利诺伊州第一个患者,从中分离得到的病毒株测序结果也是美国最早一批上传的序列之一(1月25日上传)。
以全球最早公布的病毒序列Wuhan-Hu-1(MN908947,1月5日上传)做为参考序列比对 USA-IL1/2020(我亲自做过,印象深刻),除了poly A尾巴(病毒基因组尾部有没有意义、长度不等的AAAA重复序列)之外,两个病毒株序列之间的差异只在以下8个位点:
490T>W(A/T),3177C>Y(C/T),8782C>Y(C/T),24034C>Y(C/T),26729T>Y(C/T),28077G>S(G/C),28144T>Y(C/T),28854C>Y(C/T);其中用粗斜体标出的,恰恰是论文作者提到的两个特定位点,而且USA-IL1/2020恰恰正是这两个位点上的Y(这是C/T的简并碱基字母),却被论文作者误认为是C/T混合现象;实在想不通论文作者为什么会犯常识性的低级错误。

插入小科普:简并碱基
碱基只有ATCG四个,但有时候测序结果还会出现简并碱基,这意味着这个位置的碱基可能没有测准确,或者测出来的结果有杂合性或多态性(不延伸开去了,有兴趣的读者可以自行搜索)。简并碱基的字母包括:
二重简并:R(A/G,代表A或者G,以此类推)、Y(C/T)、M(A/C)、K(G/T)、S(G/C)、W(A/T);
三重简并:H(A/C/T,用三缺一的碱基G的后一个字母H代表,以此类推)、B(G/T/C)、V(G/A/C)、D(G/A/T);
四重简并:N(A/T/C/G四种碱基都有可能出现)。

我把GenBank上Wuhan-Hu-1和USA-IL1/2020两个病毒株的序列,在8782、28144两个位点附近直接对比,复制在excel上截图给大家看(一段10个碱基,一行6段60个碱基);有兴趣的读者,可以通过GenBank的链接直接在网页上搜8761、28141(每一行开头的碱基编号)进行验证。

有了简并碱基的基础知识,就可以分析上述8个位点的核苷酸到底有没有差异、有没有突变了。首先可以看到,包括作者提到的8782C/T、28144C/T在内,USA-IL1/2020与Wuhan-Hu-1之间的所有核苷酸差异都是简并碱基导致的(Y出现在6个位点上,其他2个位点分别是W、S);其次,USA-IL1/2020出现的简并碱基都是与Wuhan-Hu-1兼容的(例如8782位美国的Y兼容武汉的C,而28144位美国的Y兼容武汉的T)。
冠状病毒是单链RNA病毒,每个位点上只有一个碱基,要么是C、要么是T,不可能同时出现C/T,更不可能像论文作者猜测的那样同时感染两个病毒株。那为什么会出现简并碱基?这是因为NGS二代测序时不够准确、全基因组测序结果不够完美导致的,美国人在少数几个位点并有测出来到底是C还是T。

插入小科普:NGS二代测序原理
NGS二代测序时有很低概率会发生测序错误。在拼接contig乃至全基因组的时候,大部分位点会被多条reads覆盖,由于测序错误的地方是随机出现的,会被大量正确的reads修正;但极少数位点由于覆盖不够深,导致测序人员无法确定这个位点到底是什么。
举个例子,某段序列是……AACTGCCAT……,NGS的时候是采用鸟枪法打断成片段,测序之后再拼接;某个片段序列测出来是……AACT(这叫做一条read),其他read还包括……AACTGCC,……AACTGCTA,……AACTGCCAT……。用生物信息学软件把这些reads对齐、重叠拼接在一起,我们得到:
……AACT
……AACTGCC
……AACTGCTA
……AACTGCCAT……
那么拼接结果是:……AACTGCYAT……,其他位点都是完全相同的结果,但Y这个位点(加粗)我们并不确定到底是C还是T,有两条reads测出来是C,有一条read测出来是T;测序错误时,有可能是C测错测成了T,也有可能是T测错测成了C(而且这个错误出现了2次)。但这个位点的覆盖度(coverage)比较低(只有3条reads),C:T打成2:1,样本量太小,导致我们很难判断真实的序列上到底应该是什么。
这就因为NGS的测序准确性问题导致的碱基简并。一个基因组在打断的时候,绝大部分区域都会形成多样化的片段,测序出来就会有很多不同的reads覆盖;但极少数区域由于运气不好,覆盖度<5,可能会出现1:1、2:1、3:2甚至1:2:1、1:1:1:1的尴尬局面。
这时候我们理应重新建库、测序做一遍,或者用更深度的NGS测序,测30x、100x的深度,也可以改用更准确的PCR一代测序;如果更大样本的测序结果中,绝大多数都是C、那就应该是C,如果绝大多数是T、那就应该是T。

对于USA-IL1/2020病毒株,在整个基因组接近3万个核苷酸上,只出现了8个简并碱基(8/3万=0.03%),可以说全基因组测序的准确性已经很高了;但还有8个简并碱基,这意味着不够完美,还有修正更新、改进提升的空间;但可能是由于时间紧迫,美国相关团队把相对较高质量、但并不完美的测序结果直接上传到NCBI GenBank了。
而Wuhan-Hu-1是由复旦大学团队完成测序的,1月5日上传第一版(MN908947.1),1月14日更新为第二版(MN908947.2),1月17日更新为当前第三版(MN908947.3)。最早的第一版有很多碱基是错误(相对于最新的第三版而言),但复旦大学团队精心打磨、快速更新,测序深度和准确性迅速提升,最新的第三版结果被全球的病毒学家、基因组学家普遍认为是非常高质量、近乎完美的(原因见后)。

在生物信息学、基因组学分析比对同一种病毒不同突变株基因组的时候,是忽略简并碱基的;如果目标序列的简并碱基兼容参考序列,那就认为没有突变;如果目标序列的简并碱基不兼容参考序列,那就认为有突变。举个例子,如果参考序列是C,那么如果测出来是Y(C/T)我们当做没没有突变;但如果参考序列是A,如果测出来是Y(C/T),那么无论是C还是T,相对于参考序列A都是有1个核苷酸突变的。
因此同一种病毒的多个突变株序列比对,对参考序列的测序质量、准确度要求非常高,这是所有其他序列比对基因突变的基础和标准。因为同一种病毒的两个突变株之间,核苷酸差异可能只有1-2个,如果参考序列测错了,对其他比对序列的分析都将出现偏差,构建出来的系统发生树就很有可能是错的。那么回过来,现在我们已知的事实是,USA-IL1/2020在上述8个位点出现的简并碱基,全部都是与Wuhan-Hu-1兼容的。
当然没有人能够拍胸脯100%保证这8个位点上一定是C或是T(需要更多数据支持,但美国人没有进一步更新数据),但我可以在99%的置信度水平下给出判断:这两个病毒株的全基因组是完全一致的(identical)。(如果读者有兴趣,可以计算一下不是完全一致的贝叶斯后验概率;就是一个可能具有突变的美国基因组序列,与参考序列之间的差异刚好落在这8个位点中的某个或者某些位点、而且刚好是测序得到简并碱基的另一个非兼容选择的概率)

正因为如此,2019年1月下旬,中国和美国科学家都松了一口气,虽然已经出现了武汉的集中爆发,也出现了跨国输出个案,但在当时病毒基因组尚未发生变异。因为在武汉和从武汉回美国伊利诺伊州的两个独立患者体内,分离得到的病毒株基因组序列是完全一致的(identical);当时的其他病毒株,要么也没有突变、完全一致,要么最多只有1个核苷酸突变。
当然,后来随着病毒在更大范围内的流行,中国各地、海外各国都分离得到了更多的病毒株,测序后,病毒全基因组序列被上传到GenBank、GISAID等公开数据库。进过序列比对分析,全球科学家们发现,病毒确实在基因组多个位点上出现了不同形式的核苷酸突变和氨基酸突变,确实产生了突变病毒株,但这是后话了。

基于上述病毒全基因组序列分析,目前全球科学家公认的是,中国科学家(复旦大学团队)上传的全球第一条病毒序列(Wuhan-Hu-1),恰好是病毒开始人传人时最早的起源序列(original sequence),恰好是与其他突变病毒株符合的共识序列(consensus sequence,指每个位点上都与大多数病毒株序列相符),也是进行基因组比对分析和系统发生树构建时使用的参考序列(refenrence sequence)

能取得这样的成绩,并不是必然的,有一定的运气成分。在病毒爆发的时候,被抓住测序的第一个病毒株很有可能已经发生了1-2个核苷酸突变(冠状病毒的突变速度大约为10-20个核苷酸/年,如果晚了1个月有可能就见不到庐山真面目)。这时候,需要10条以上的更多病毒株序列叠加在一起比对,才有可能识别出已发生的突变,并把这些突变回复回去,得到推定的起源序列(庐山真面目);但测序数十个病毒株需要更多的时间、人力、计算资源,每拖延一天、这个未知的病毒就在人群中继续传播蔓延一天,而我们对它的基因组一无所知;而在爆发初期每拖延一周,可能就导致受感染人数翻倍(这个病毒的倍增时间大约在7天左右)。
如果不在第一现场抓住病毒,事后寻找最初的感染者或者最早的病毒株,就如同大海捞针、水中捞月了,有很大的概率是找不到的。正如同刑侦学、流行病学调查一样,错过了第一现场(被别人东锅或者其他物体干扰了),想要还原第一现场并不是不行,但需要付出数倍的努力,而且很多细节被淹没了(比如华南海鲜市场内或者周围区域,到底哪些摊位、哪些人、哪些动物上面携带有这个病毒株,现在已经无法考证了)。

我们现在收集了100多条病毒株序列,放在一起进行对比分析,不存在其他99条序列都是某个核苷酸、而Wuhan-Hu-1是另一个不同的核苷酸的现象(如果存在,意味着不是其他99个病毒株突变,而是武汉的病毒株恰好在那个位点有个突变),而现在的情况是:其他病毒株的突变各种各样,但大部分病毒株在绝大部分位点上都与Wuhan-Hu-1完全一致(就像USA-IL1/2020除了8个简并碱基之外,29000多个碱基的其他地方长得与Wuhan-Hu-1完全一模一样),所有其他病毒株基因组序列都向它看齐。这也正是前面我提到,Wuhan-Hu-1病毒株基因组测序结果的质量非常高、近乎完美的原因

虽然有运气成分(第一把抓住的病毒株恰好没有携带突变),但更重要的是中国科学家共同努力的结果。在SARS-CoV-2病毒低水平流行的极早期,我们就识别锁定了患者(武汉当地医院),从样本中分离培养病毒株(武汉病毒所),对病毒基因组进行测序(复旦大学)。科学家们在与未知的病毒赛跑、与潜在的突变赛跑、与时间赛跑。小山狗所在公司当时也有测序能力,但只通过NGS二代测序组装出大片段的contig,识别出与SARS-CoV具有80%以上的相似性(并且与华大基因进行了比对,12月底通报了武汉当地医院,这个消息由李文亮医生通过微信截屏流传出来),并没有完成(高质量的)全基因组测序,没有经过逐个位点高准确度的重复验证。仅仅过了几天(12月底到1月初),Wuhan-Hu-1这条高质量、近乎完美的全基因组序列正式亮相,则是中国科学家共同努力的结果;复旦大学测序团队在第一时间上传到NCBI GenBank公开,中国科学家在第一时间通知WHO,WHO对此表示高度赞扬。

3、L型、S型到底谁先谁后的最终答案:

核心问题(灵魂拷问)来了:全球SARS-CoV-2新型冠状病毒的共同祖先、起源病毒株、参考序列,全球最早完成高质量全基因组测序、1月5日上传的病毒株Wuhan-Hu-1,它在28144位点上究竟是什么核苷酸?答案是28144T,对应ORF8 84Leu/L型,L型,L型,重要的事情再说三遍

然而,与全球科学界公认的结果相反,论文作者却宣称,根据他们根据远方亲戚蝙蝠RaTG13构建的粗糙的系统发生树推断,S型是祖先、L型是后来突变的;美国患者测序结果中8782、28144两个位点都出现了C/T混合,怀疑是同时感染了两个病毒株?更离谱的是,难道全球SARS-CoV-2的祖宗病毒株Wuhan-Hu-1是后来突变的L型?(手动黑人问号脸)
不仅我不同意,全球科学界同行不同意,连新冠病毒自己估计都不答应,气的要从患者肺里蹦出来了!这是严肃科学,这是事关病毒溯源和演化过程的重要问题,请不要开国际玩笑、闹国际笑话!

就像那一篇预印版论文说蛇可能是新冠病毒的中间宿主一样,随随便便写两三页纸丢出去投稿,开的都是国际玩笑么?所有科学家都知道,冠状病毒科的病毒只感染鸟类和哺乳动物,不感染爬行动物或更低等的动物;而包括SARS-CoV、MERS-CoV、SARS-CoV-2在内的β冠状病毒属(Betacoronavirus),只感染哺乳动物,不感染鸟类。有些论文的作者连最基本的病毒学常识都犯了错误(对,不能感染爬行动物是常识,Wuhan-Hu-1是祖宗病毒株也是常识),我不知道该说什么好,蛇那种低质量的灌水文章甚至不值一驳。

正是基于上述充分、扎实的事实和证据,我坚定地认为,论文作者关于病毒突变、演化的观点和结论是完全错误的。L型(28144T、ORF8 84Leu)毫无疑问才是最古老的基因型,而S型(28144C、ORF8 84Ser)是后出现的突变基因型。如果接受Wuhan-Hu-1序列是全球病毒株共同祖先的观点,那么作者所谓的疑难问题都可以迎刃而解了。
恰恰是因为L型是更古老的基因型,所以传播更为广泛(占70%),也携带有更丰富、更复杂的其他位点突变;而后期出现、相对年轻的S型传播就没有那么广泛,突变也相对较少。L型传播广泛、累积突变更多的事实,恰恰印证了L型是相对S型更为古老的基因型。好比现代人类走出非洲的历史过程,导致最古老的非洲聚集了人类最古老的基因型,非洲也具有最丰富的人类基因组复杂性、人种复杂性、语言复杂性;而在进化树上处于末梢的美洲原住民(爱斯基摩人、印第安人),基因型多态性最低,是由一小撮跨越白令海峡的黄种人后代演化形成的。
正因为L型起源最早,所以L型在时间、空间的富集特性就变得十分容易理解了。作者自己在论文图中显示,在湖北武汉(疾病爆发中心地)、1月7日之前(疾病爆发早期)几乎全部都是L型;随着病毒向外传播,在武汉之外、1月7日之后,才有一定比例(大约40%)是后来突变产生的S型。

同样,正因为L型起源更早,所以L型传播更为广泛、积累更多突变的现象就变得十分容易理解了。这与病毒传播力、复制速度、毒性没有任何显著的相关性或因果性联系(没有半毛钱关系)。论文作者在媒体采访中宣称“L型传播能力更强,或者在人体内复制更快,因此可能意味着其毒力也更大”的猜测或推论,是毫无根据的胡乱猜测和假性因果;除了造成不明真相的吃瓜群众(比如提问题的人、部分回答问题的人)毫无任何意义的恐慌、担忧、疑虑之外,没有任何价值。在在疾病广泛流行期间写出这种(英文)论文的作者,尤其还接受了(中文)媒体的采访、出现在公众媒介传播圈中,这种行为本身是草率的、不负责任的、缺乏必要的舆论敏感性的,甚至是有沽名钓誉、自我炒作嫌疑的!

进一步,基于众多突变的病毒全基因组序列,从各个位点的突变频率、突变类型(同义突变vs非同义突变)、不同病毒株突变的继承和递进关系、以及携带相应突变的病毒株条数及时间、地理分布上分析,目前病毒基因组的同义突变(synonymous mutation)、非同义突变(non-synonymous mutation),在整个基因组尺度上的突变速率是相似的。
这意味着在分子进化角度上看,截止目前,SARS-CoV-2病毒是接近中性演化的(neutral evolution),既没有明显的正向选择(positive selection,氨基酸突变获得更多的适应性优势,突变株被富集),也没有明显的纯化选择(purified selection,氨基酸突变是相对有害的,突变株被加速淘汰)。也就是说,目前SARS-CoV-2病毒全基因组上各种不同基因、不同位点、不同形式、不同组合的突变,大多都是RNA病毒复制过程中随机产生的,从总体看具有相似的传播力和致病性;既没有出现超级传播者(传播力特变强的病毒株),也没有出现超级毒王(毒力特别强病毒株)(但不排除未来某些时候出现,SARS的时候就出现过)。

4、其他相关问题的补充:

另外补充一点,由于病毒全基因组序列是人上传到数据库的,因此某种形式的突变被相对更多的序列命中,并不代表这个病毒株或者这种突变类型具有特定的病毒学特性(例如感染人群更多、传播力更强、毒力更高,这些需要在细胞学水平上验证);很可能仅仅是由于在不同地点、不同时间被采集、分离、鉴定、测序而已,比如不幸在武汉、广州、浙江被分别抓住,或者不幸在美国华盛顿州、伊利诺伊州、加州被分别抓住。
大家要知道,在中国、在湖北、在武汉,还有数万被感染人群的病毒株并没有测序;在国外,也有数千被感染人群的病毒株没有测序;他们中有很多人,可能感染了同一个病毒株,测序结果也应该是一样的。但受限于成本和人力因素,我们不可能对每个感染者都做NGS深度二代测序,追踪其来源、爹妈是谁、有没有新突变;但是我们可以在不同地区、不同时间对患者抽样,对病毒株进行测序,能够相对准确地还原出病毒起源、传播、扩散、突变、演化的大致规律和路径,这正是基因组流行病学的重要现实意义。

因此,在进一步分析中要注意逻辑陷阱:命中某种突变的基因组序列多≠这个突变传播范围广≠这个突变感染的人群≠这个突变的病毒株传播力更强。我看到有多篇预印本论文出现了这种简单粗暴的表述、推论或者暗示(从左至右推导一步两步三步),他们都犯了类似错误——掉进这个逻辑陷阱。我并非意指某个推导步骤一定是对的或是错的,上述逻辑链条一定成立或者不成立;但如果没有经过广泛、深入、扎实的流行病学调查,也没有经过认真、准确、严谨的基因组学分析,推导几步妄下结论是不严谨、不客观、不够准确的,也缺乏足够的真实世界证据支持。逻辑要自洽、要符合常识,但更重要的是得到真实世界的事实和证据的充分支持,否则就是无本之木、空中楼阁罢了。

更重要的是,要注意这些被抓住、被测序的病毒株,其携带者往往都是当地的先证病例(index cases);从流行病学角度上先证病例十分重要,不仅需要快速追踪、排查隔离密切接触者、切断传播途径,还应当尽快完成病毒基因组测序并公布(正如USA-IL1/2020),以便让全球科学家识别病毒是否在特定区域、特定人群出现了新的突变。
基于这个很重要的常规操作模式,在2020年2月中旬之前,病毒主要在中国流行,中国科学家在全球数据库中上传了很多病毒株的全基因组序列(包括在武汉、广州、深圳、重庆、浙江、江西、山东等各省市的早期感染者);而从2月下旬开始,病毒开始向海外扩散,其他国家科学家上传了更多的病毒序列(包括美国、新加坡、韩国、意大利、法国等国家的早期感染者),中国科学家上传的序列反而减少了(有兴趣的读者可以自行搜索一下)。
这种数据来源的变化,并不代表国内或海外的某个病毒株感染了更多的人、或者传播范围更广,甚至可能仅仅是由于研究者不愿意再上传一模一样的基因组序列(缺乏科学研究的新颖性);而选择性上传的偏差,又会导致依赖于公开数据库进行的基因组学分析陷入可能的偏差之中。正因如此,WHO呼吁和鼓励更广泛、更全面、更及时的病毒基因组信息公开与分享,以便于全球科学家能够对病毒基因组突变的特征有更完整的认知,对具有潜在更高危险性(如传播力更强、毒力更强)的突变病毒株有更及时的追踪和更有效的准备。

5、外部公开资源:

除了美国NIH NCBI建立的GenBank公开数据库之外,GISAID(全球共享禽流感数据倡议组织)数据库也被用来上传和公开除了流感病毒之外的其他呼吸道病毒(包括本次新冠病毒)的基因组测序信息。GISAID上有自动计算的系统进化树(网页链接),根据在GISAID上传的病毒株基因组数据,自动构建系统发生树。

此外,部分公司在开源项目的支持下,也推出了可视化的公开网页。根据英文版的开源网站nextstrain.org/ncov网页链接)的基础数据,志诺维思镜像开发了中文版的“战新冠”(网页链接);通过公开的基因组信息数据库,自动抓取、自动生成、自动更新、可动态交互的网页。上面清楚的记录了目前已公开发表的绝大多数病毒株的名称、相对于参考序列的核苷酸突变及氨基酸突变、在病毒全基因组中的定位,以及样本的时间范围、地理空间分布。我们非常支持学术界(如GISAID网页)、企业界(如“战新冠”网页)、传媒界(如丁香园的病例数据统计网页),向普通大众实时公开易于直观理解的科普知识

根据最新抓取的“3月3日变异进化树及详情”中文网页,我截了几张图,给大家直观看一下所谓的系统发生树到底是长什么样子的:

这是常见的矩形布局,此外还有辐射形布局、无树根布局(图略,大家可以自己去网页上点击查看,动态交互很直观)。

我这里额外说明一点,图中显示Wuhan-Hu-1距离参考序列有一个非同义突变(G29277C,对应N G335A)是错误的。这是因为数据库抓取的是Wuhan-Hu-1第二版序列进而构建的系统发生树(第一版错误位点较多,第二版这个位点仍有错误);在1月17日更新的修正后第三版序列中,清楚无疑地显示是Wuhan-Hu-1是29277G;这与构建系统发生树计算得到的参考序列G一致,而不是第二版错误的29293C(两个版本的核苷酸序列编号差16位,见下图)。

因此正如我在上面说的,在更新修正了少数错误之后,Wuhan-Hu-1的第三版结果近乎完美,自身就是起源序列、共识序列、参考序列;因此其真实位置应该在矩形布局的系统发生树最左侧中央、整棵树的最根部。

同样,在分子时钟式的斜线布局中,Wuhan-Hu-1的真实位置,应该在最左下角的最根部,位于0个突变的水平轴上、最左侧的2019年12月。

而在病毒全基因组突变定位图中可以看到,各种不同形式的突变(图中右上角NT显示的是核苷酸突变,也可以切换为AA氨基酸突变)在病毒全基因组的相对位置;鼠标上去可以点击查看、可以放大缩小。其中左侧、右侧两个最高的山峰(红色圈圈),正是论文作者识别出来的ORF1ab基因内的8782位点,以及ORF8基因内的28143-28145位点。纵坐标的山峰高度是ENTROPY/熵;熵越大,意味着不同基因组序列之间在这个位点上的差异性越大、混乱度越高。因此基于目前已知的病毒株序列,8782、28144这两个位点是全基因组中最显著的突变热点区域;但很可惜的是,论文作者在这两个突变热点区域的分析和结论,却是完全错误的

6、一些我个人的看法:

我们非常欢迎、鼓励和支持关于SARS-CoV-2病毒和COVID-19疾病相关的论文,能够在第一时间发表,这对于我们抗击疫情、深入理解病毒有着莫大的帮助。但科学研究首先基于事实、合理假设、小心求证,而且要尊重科学、尊重常识、尊重全球同行已有的研究成果。同样重要的是,在研究成果发布前或发布后,要基于科学谨慎的态度进行准确解读,避免误导性陈述带来不必要的舆论复杂性;最后,无论是论文还是解读(包括知乎上的回答),要经得起同行和人民群众的评议,经得起历史和事实的检验。

PS:在反驳论文作者的本回答出炉后,本楼其他赞同性回答都可以洗洗睡了。我非常不喜欢知乎上的部分答案,装作一副非常科学的样子引经据典,实际上却在贩卖私货、贩卖焦虑,通过哗众取宠来吸引眼球;而又有一些高赞答案直接从论文观点开始延伸解释,给大家科普,但却忘了论文作者本身论据、论点的对错,没有人去验证、去判断、去评价,应有的科学、严谨、质疑的态度哪里去了呢?

撒面粉、撒胡椒、撒鸡汤谁都会,但这次居然看到一篇错误的论文,于是我发完email之后就上来拍砖,俗话说:挨打要立正。正如我在微信公众号的论文解读下的留言(链接,请用手机或微信网页版打开查看留言)中所说的一样,我说的每一句话经得起事实和数据的考验、经得起全球基因组分析大拿的评议和质疑。希望论文作者也能够,同样希望本楼里的其他部分回答也能够,经得起人民群众雪亮眼光的考验。


user avatar   divinites 网友的相关建议: 
      

我的原答案是给定文中L 和S 的先后顺序正确,然后认为没有证据表明毒力和传播性有显著区别。现在根据 @黑泽@西湖天下景 的答案,甚至于连L 和S 谁先谁后,该文都出现了错误,这样的话,连起源的意义都没有了。


这篇文章是一个描述性的分析,文中作者写了一些推论,然后被媒体拿出来成为了「定论」,这样不好,因为很可能后来的毒理分析不支持这些推论。

出于好奇去看了一下原文,确实分离出了两个亚型,L和S,并且S更加的古老。但是「更具侵略性和传染性更强」是不一定的,原文如是说:

Thus far, we found that, although the L type is derived from the S type, L (~70%) is more prevalent than S (~30%) among the sequenced SARS-CoV-2 genomes we examined. This pattern suggests that L has a higher transmission rate than the S type.

因为发现的毒株中,70%是L,30%是S,所以L可能传染力更广。

也就是这个推论完全建立在观察,而非毒理分析上。而观察数据是不能直接用来推断因果的——因为L传染力强,所以L人多?事实上因为目前全世界绝大部分的新冠患者都在武汉,武汉什么类型多,那么整体什么类型就多。那如何解释L局限在武汉呢?作者又说:为什么L传播强,而又没有扩散呢?因为我们控制得力,把他们都控制在武汉了……

这样画一个靶子自己打,并不是一个严格的科学论断,只能说是一种推测。这整个故事都建立在「L比S传播力强」的假设上,但是这个假设是没有一个稳固的支撑的,也就是说并没有基于机理的因果分析,完全就是因为观察到武汉的L比较多。而武汉的L比较多这个事实有很多可能。事实上,因为武汉封城比较早,所以无论武汉的这个L是传播强也好,一样也好,还是弱也好,反正都已经控制在武汉了,比例就已经固定了。无法根据「武汉L比较多」而判断L和S的传播力度或者毒性。

我完全可以反过来说,虽然L比较多,但是S的传播比较广,还能逃逸出武汉,所以S的传染性更强。在讨论环节,作者也说了,毒性目前还需要进一步分析。而在摘要中,传播能力是不是更强也用的「might」,表示只是根据观测的统计结果做了一个推论。

所以这篇文章能提供的实锤信息其实并不多,意义更多的是在病毒起源上的。能提供给我们的信息就是病毒发生了变异,可以分成两个亚型。在世界各地的分布有区别。其他的都是建立在观察结果上目前阶段并不可靠的推论,毒性、传播性,还需要进一步的分析。


user avatar   15611876838 网友的相关建议: 
      

新冠病毒是否已经发生突变?如何突变?这是目前医学界研究的焦点之一,短短1个月内已经有3篇科研论文声称发现了变异或突变:
1、2月20日,中科院西双版纳热带植物园官网刊文称发现了120个变异位点。
2、3月2日,巴西科学家发现巴西患者病毒基因有3处突变。
3、3月3日,中国科学院主办的《国家科学评论》(National Science Review)发表的论文《关于SARS-CoV-2的起源和持续进化》(On the origin and continuing evolution of SARS-CoV-2)显示:新冠病毒已于近期产生了149个突变点,并演化出了两个亚型,分别是L亚型和S亚型。而L亚型更具侵略性传染力更强。

有关病毒基因突变,我多次强调要谨慎下结论,因为:

1、国内这2篇文章作者的研究方法是,将其他多个实验室发表在网站上的新冠病毒基因测序数据下载到自己的电脑上进行分析,作者本人没做这些实验。各个实验室的基因测序数据是肯定有误差的,有时候这个误差大到使这篇文章的作者得出错误的结论。

2、不容忽视的是,目前有不少实验室采用的基因测序方法错误率很高,比如三代测序技术的错误率在10%~20%之间,这种错误率完全可能造成误导而得出不靠谱的结论。RNA测序的错误率更高,新冠病毒就是RNA病毒。

3、突变是否导致更具侵略性传染力,还需进一步分析,包括变异后的病毒蛋白质空间结构变化、细胞感染实验和动物实验,才能得出可靠的结论。突变是否导致疫情更严重,要看突变在那个蛋白质上,有的蛋白质与传染性有关,有的与繁殖能力有关。如果突变导致传染性更强和繁殖能力更快,那是有可能加重疫情的。但是有可能正好相反,突变使得传染性更弱和繁殖能力更慢,这是对控制疫情有利的。

4、比较靠谱研究方法是同一位研究人员采用相同的测序方法,对不同样本分别进行3次深度测序,最后综合分析才能得岀接近真相的结论。


user avatar   sui-kuang-feng-qu 网友的相关建议: 
      

最最担心的事情来了,在我看来,这就是个非常非常不好的消息!

无论是来自巴西的报道还是今天我国科研团队证实新冠病毒发生突变,都明确指向一个结果:新冠病毒极其容易在短时间产生变异。

从去年12月到现在3月,仅仅只过了3个月时间,新冠就产生了较为明显的突变,这说明新冠的变异是迅速的,而随着全球感染人数的增加,变异的速度会越来越快。

3个月时间,研发针对性疫苗根本来不及。将来的疫苗,很可能是非完整序列的,即,一种疫苗只针对某一种或几种类型的新冠病毒可以免疫,但对其它变异类型的新冠病毒则不起作用。

将来疫苗大概就是这个么情况,估计大家要打的疫苗不只一种,而是好几种。

对于容易变异的病毒,疫苗的路走起来很困难,特效药的路也不好走。我相信全球这么多科学家,人类最终是可以开发出药物治疗新冠的,但是,这种药物必须是广谱的,就像青霉素被发明一样,能够对几乎所有细菌都产生杀灭效果,我们也需要一种特效药可以在广义上消灭冠状病毒。

另外,把希望寄托在病毒朝弱毒或低毒方向变异,这是非常不靠谱的想法,我举个例子,假设有1亿正常病毒,其中大约1万个病毒将产生变异,难道这1万个病毒都朝低毒方向变异?病毒的变异是随机的,是不可测的,从概率学的角度上看,病毒变异的结果将无限接近于5千个朝高毒变异,5千个朝低毒变异,这才是符合正常的大自然规律。

想要所有产生突变的病毒都朝低毒方向,这就是异想天开,纯属自我安慰,这种概率比一个人天天中500万的概率还低。

尽快研发出疫苗和特效药才是解决问题的终极手段。

最后,延伸谈一个问题,很多人把高温结界当成救命法宝,包括某些佛系防疫国家的政府,原因就是“非典”经验,03年“非典”就是因为进入夏天,气候温度升高而销声匿迹。

新冠是RNA病毒,具有非常强的适应性,夏天来了,这破病毒通过变异产生抗热性,这不是可能,而是必然发生的事情,因为它很容易变异,通过变异来进化,这才符合自然规律。还是那个例子,有1亿个病毒,温度升高了,高温杀死了绝大部分病毒,幸存下来的极少极少量病毒则产生了抗热性,这就是现实。

物种战争,需要人类全力以赴,佛系抗疫的、麻痹大意的、厌倦情绪的,迟早吞吃苦果,不要放松,希望大家继续高度警惕。




  

相关话题

  如何看待 12 月 17 日美国南加州重症监护室(ICU)可用比例为0%?从医疗角度来说这代表什么? 
  西安各大医院已相继接诊多例出血热患者,什么是出血热?该怎样预防和治疗? 
  为什么美国疫情这么严重,失业人员如此之多,但是股票还在疯涨? 
  西安一新冠肺炎定点医院封闭隔离病区发现 1 例确诊病例,目前情况如何? 
  为什么药企宁愿 70 万一针的诺西那生被降成「地板价」也要进医保? 
  发达国家的受教育程度那么高,为什么这次的新冠肺炎没有体现出发达国家居民的科学素质? 
  2019年12月开始到现在肆虐全球的新冠肺炎疫情是史上最强的病毒吗? 
  河南一女子微整形遇非法行医变植物人,涉事医院将承担哪些责任?整容需要注意和预防哪些问题? 
  为什么说插喉管就是永别?? 
  诊断乳腺癌有哪些新的方法? 

前一个讨论
如何看待华为员工李沁兵恶意编辑问题带节奏被知乎禁言?
下一个讨论
如何看待网上出现的没钱不要生孩子的言论?





© 2024-05-11 - tinynew.org. All Rights Reserved.
© 2024-05-11 - tinynew.org. 保留所有权利