生物系统发生和分类的研究进展怎么样了？第1页

congyu-yu 网友的相关建议:

和 @好大一盆绿萝一样，我现在的研究中很大一部分就是恐龙的分类和系统发生，略微不同的是我本科是生命科学专业的，学习过一部分基于分子的分类和系统发生的内容，对基于分子和基于形态的研究之前的区别的认识可能会多一点点。

这个回答里的观点仅代表我自己浅薄的认识，并不是目前学科的研究的主要方向，甚至也不是次要方向，我只是觉得这样的观点比较有趣，而且似乎能够解决不少问题，在未来也许能成为这个研究方向进展的基础，所以放在这里供大家参考。也非常欢迎对系统发生和分类感兴趣的同好，无论是形态方面还是分子方面，多多交流，互通有无。回答里的错误疏漏也欢迎大家在评论中指出！

正如绿萝师兄在他的回答中提到的那样，

形态学数据的提取都伴随着巨量的“信息浪费”

古生物学界对于什么是”数据“和”信息“始终是一头雾水的状态，大量的论文提到新数据New data

或者新信息New information,

但是事实上，绝大部分作者对于data和information之前的区别缺乏深刻的认识。下面正式提出我的观点，对生物的分类和系统发生本质上是一个通信过程，引入信息论与通信工程是未来发展方向。

让我们先快速回顾一下生物分类和系统发生的历史。

生物分类（一般对应taxonomy或者classification）和系统发生（phylogeny）是两件不同的事情，分类指把不同的生物归入到不同的分类单元，一般从物种species开始，之后可以把较小的分类单元放入较大的分类单元中，依次类推。例如，恐龙中的兽脚亚目Theropoda包括了若干的科级分类单元，包括暴龙科Tyrannosauridae，伤齿龙科Troodontidae，驰龙科Dromaesauridae等等，暴龙科中包括了若干物种（由于化石的稀缺性，古生物学中偏好直接命名属）如暴龙Tyrannosaurus，阿尔伯塔龙Albertsaurus，虔州龙Qianzhousaurus等等。当然，实际应用中有各种各样的分类和命名规则，这里就不展开了，分类学是我们认识世界的一种手段，在瑞典分类学家林奈提出双名法之后逐渐成熟。

但也是双名法为生物分类埋下了隐患。在林奈的年代，包括他自己在内的绝大多数人都认为世界是静态的，生物演化的概念甚至还没有萌芽，分类学足以描述周围的世界，以后的工作无非是增加新发现的物种和修订过往分类中的错误。但是现在我们知道，生物是在演化的，生物圈是一个动态变化的过程，如果把时间尺度放大到百万年的级别，传统的分类学就失灵了。让我们继续刚刚恐龙的例子，目前学界的主流观点认为现代鸟类起源与恐龙，而且与兽脚亚目Theropoda中的伤齿龙科Troodontidae和驰龙科Dromaesauridae关系最紧密，很可能是其中一个科的成员演化而来，或者与他们构成姐妹群关系（sister group）。传统的分类学中，鸟纲与爬行纲同属与”纲“这个分类层级，但目前的主流观点又认为鸟要么是一个”科“级别的单元要么是一个比”科“小的单元，也就是较小的分类单元中包括了较大的分类单元，这样一来”界门纲目科属种“这样的层级体系就没有存在的必要了。在面对动态变化的生物圈时，传统的分类学只能靠不断增加分类单元来修修补补，始终是指标不治本的。

系统发育（phylogeny）更关心生物之间的演化关系，这当然也是更为本质的东西。系统发育通过树状的结构来表示各个物种之间的关系，我们还是以暴龙举例

在很多时候，系统发育并没有完全放弃传统分类的层级结构，例如上图中就标记了暴龙超科Tyrannosauroidea，暴龙科Tyrannosauridae，原角鼻龙科Proceratosauridae等等单元，但这些单元经常会因为新化石的发现或者演化树结构的调整而改变位置，传统分类学中基于特征的分类单元（例如哺乳动物是一类温血，有毛发，向后代哺乳的动物）事实上已经变成了基于演化树的分类单元（例如恐龙是暴龙与三角龙的最近共同祖先及其全部后代）。

演化树的思想早在达尔文时期就已经出现，例如下面这幅他手稿中有名的插图

但是如何构建演化树的争论却一直持续到现在，下面仅仅是我个人认为比较有代表意义的三种观点。在20世纪40年代，以美国生物学家Ernst Mayr为代表的一批人提出了新系统学，他提出了生物学物种的概念，也就是大家最熟悉的”可以互相交配并产生可育后代“的概念，比起物种，新系统学更关注较小的种群的概念，而且随着当时对分子生物学的初步的认识，世界各地化石的发现与国际合作的增加，在古生物方面新系统学派填补了很多之前认识的空白，例如马的演化历史

根据我个人的理解，新系统学派尝试把传统的分类学和系统发育结合起来，但是一方面没有放弃”直系祖先“的概念，如上图中大量位于树干位置的物种，另一方面当时缺乏足够的数据（无论是分子学数据还是精细的形态学数据，CT扫描在近50年后才应用于古生物学！），同时也缺少合适的数学工具，新系统学派中的很多古生物学家依旧只能延续手工作坊式的研究，靠几十年累积的经验和个人的直觉来重建演化历史，以至于后来的学者出现了这样的评论

随着时间进入60年代，一群”数值分类学家“开始崭露头角，其核心观点在于将研究对象通过某种方式数值化，也就是现代古生物学研究中常用的特征矩阵。显然，数值分类学派不仅仅希望能够用一种通用的，尽量非主观的方法来研究生物演化，也希望能够通过某种方式在形态学数据和分子数据之间搭起桥梁。这里配图就放一张Sokal提出的一种想象用于数值分类实验的模式生物吧

数值分类学派被很多古生物学家批评在选取特征的时候不考虑演化意义，只是单纯的数学游戏，但是无论如何，这个学派的很多观点成为了现在大数据（或者仅仅是数据量较大的）分类研究的基础，其尽量舍弃主观判断的核心思想也让分类学能够走出小作坊，迈向大规模的更加工业化的研究。另一方面，如何选择特征，如何给特征编码，如何选择分类的算法，这些问题不仅当时没有被数值分类学派很好的回答，直到今天也没有广泛接受的答案。

与数值分类学几乎同时，甚至更早一些，德国昆虫学家Willi Hennig提出了支序系统学，但是早期出版物由德语发表，直到20世纪70年代才逐渐被学界知晓，因此顺序上放在数值分类学之后。支序系统学认为唯一可以用来将生物分类的只有共同衍征synapomorphy/shared derived character state，也就是后裔中都具有的与祖先不同的特征状态。例如四足动物具有附肢，相比鱼类（传统意义上的，非支序系统学意义的鱼类，否则包括了四足动物）是更加衍化的，所以这个特征状态可以把四足动物聚在一起。与共同衍征对应的还有独有衍征，独有祖征，共同祖征等概念，在建立演化树以后，可以划分单系类群monophyly，并系类群paraphyly，多系类群polyphyly等等，把这些概念理解透彻是学习支序系统学的基础。目前支序系统学在形态学和分子研究中都有广泛应用，论文专著汗牛充栋，在此就不展开了。

但是支序系统学的出现并不代表万事大吉，由于放弃了直系祖先的概念，所有能够观测到的样本在支序系统研究中都是演化树的叶节点，但是显然，直系祖先是必然存在的，如果说在化石记录中我们难以确定支系祖先关系的存在，那么在尺度更小的情景下，例如一个大家族内部的成员关系，放弃支系祖先的概念还是恰当的吗？更为麻烦的是，表面上看共同衍征作为分类的标准是非常理想的，但实际操作中，共同衍征与演化树很容易陷入循环论证的陷阱。例如一些非鸟兽脚类恐龙和鸟类都具有羽毛，这是一个共同衍征，推导出鸟类起源于恐龙；但恰恰是因为鸟类起源于恐龙，具有羽毛才成为了共同衍征，而不是独立起源造成的趋同演化。鸟类与恐龙例子可能没有太强的说服力，因为除了羽毛，骨骼解剖，生理，相对连续的化石记录等等都支持鸟类起源于恐龙的假说，但是面对生物演化中海量的趋同演化，大量类群中残缺的化石记录，缺少现代后裔的灭绝类群，如何在缺少先验知识的情况下判断支序系统学中的共同衍征是一件非常困难的事情。

小结一下，生物分类和系统发育的历史回顾：

18世纪，林奈时代，传统分类正规化，双名法;

19世纪，达尔文时代，传统分类日趋成熟，演化树的思想;

20世纪40年代，新系统学派neo-systematics，演化树，物种的概念，缺乏通用标准;

20世纪60年代，数值分类学派numerical taxonomy，通过算法将数值化的对象分类，尽量舍弃主观判断;

20世界70年代，支序系统学派cladistics，通过共同衍征分类。仅承认单系类群。

下面进入正题，为什么生物分类和系统发生是一个通信过程，如何在其中应用信息论与通信工程。

通信的历史与人类的历史一样久远，无论是口语，书信，烽火，电报，还是互联网，本质上都是某种形式的通信系统，用于将消息从一处时空传向另一处时空。但是对通信的完整的数学描述要等到1948年香农提出信息论，他指出通信过程中的两个极限，对信源的压缩无法超过信源的信息熵，消息传递速率的上限无法超过信道容量。另一方面，香农提出了即使在有噪音的情况下进行通信，通过合适的编码也可以逼近无损通信，这一点超出了当时绝大多数人的常识。

在香农1948年的著作"一种通信的数学原理A Mathematics theory of communication"中他提到，

”The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point. 通信的核心问题在于在一处精确或者近似地重建在另一处选择的消息“

那么与此对应的，我们也可以说生物分类和系统发生的核心问题在于在现代精确或者近似地重建过去的演化历史，正如下图所示：

自然地，我们首先应该讨论这个通信过程中最基本的单位是什么。实际操作中，分类的对象（operationl taxonomic unit, 简称OTU）可以是各种各样的标本，例如一具化石，一个DNA测序样本，一只野外采集的生物个体等等，有时候OTU仅仅代表它本身，有时候OTU代表一个物种，还有时候会代表更高阶的分类单元，要通过具体的情景来确定。在确定研究对象之后，还需要确定通过什么数据来进行分类研究。

分子研究的数据是非常容易数字化的，无论是DNA还是蛋白质，就像计算机二进制编码由0和1构成一样，有固定的字典（严格来说有例外，但绝大多数研究中可以忽略）。因此，分子数据的存储，对比，重建都是相对容易的。但是形态学明显更像模拟数据，必须要经过数字化才可以进行后续研究，这也是当年数值分类学派的观点。

但正如 @好大一盆绿萝所说

如果一个矩阵有1000个特征，研究二百个物种，就需要进行200000次观察......

在古生物中，形态学研究现在做不到几乎任何意义上的自动化，21世纪初的古生物学家的工作流程比起200年前古生物学萌芽阶段并没有高效多少，反而是CT扫描等技术带来的海量数据进一步减缓了研究。未来研究中的一个重点势必是数据收集的自动化，只有做到像现代测序技术那样在较短时间获得较多的数据，才有可能与分子数据竞争。

形态学数据的数字化本质上是一个将模拟信号转换为数字信号的采样过程，现在常用的手工选择形态学特征（例如在骨骼某处是否存在突起，两块骨骼长度之比是否大于1等等）是一种极端低效而且主观的过程，研究人员自己也不知道这些选择的特征在多大程度上描述了原标本的形态。另一种方法则是在标本上选择大量的标志点，把原标本的形态转换为一系列2维或者3维的坐标，然后再研究不同标本的坐标之前的关系。比较有代表性的可以参考UCL的Anjali Goswami课题组的工作

但是这样的方法在数据收集阶段的工作量是非常巨大的，不同机构对标本的共享程度也不一样，只能循序渐进日积月累。更重要的是，Goswami lab的成员尽管做过一些讨论如果选择标志点和标志点数量的研究，绝大部分结论还是经验性质的（例如 Watanabe 2018 PLoS one）而不是理论性的。

在信息论中，采样定理告诉我们如果要无损的重建一个信号，采样频率要至少达到重建最高频率的两倍。例如人耳的敏感频率范围大约是20-20kHz，这个频率之外的声音也许能够被听到，但是大部分人都不敏感，因此在制定音频标准的时候选择了略高于20kHz两倍的44.1 kHz的采样频率。显然，声音中更加高频的部分在采样中损失掉了，但由于人耳听力范围的上限，没有必要进行采样。现在在形态学研究中的问题是研究人员不知道这个上限在哪里，是形态上任何起伏大于一毫米的结构？是任意两块相邻骨骼之间的关节面？还是CT扫描能够达到最高精度？这个问题先放在一边，我在后面会谈我自己的想法。

另一个长期困扰形态学研究的问题是数据的不完整性，特别是化石数据。一个简单的例子就是，如果在一处发现了一具只有头的恐龙标本，另一处发现了一具只有脚的恐龙标本，怎么判断他们之前的系统发生关系？在古生物研究中这样的例子实在是不胜枚举，

Currently there are two sauropod taxa described from the Upper Cretaceous (Maastrichtian) Nemegt Formation in Gobi Desert, Mongolia: Nemegtosaurus mongoliensis, based on a skull found in Central Sayr at the Nemegt locality (Nowiński 1971) and Opisthocoelicaudia skarzynskii based on a skeleton lacking the skull and cervical vertebrae from Altan Uul IV locality (Borsuk-Białynicka 1977) Averianov & Lopatin (2019) Acta Palaeontol Pol.

即使不是这么极端的例子，不完整的化石也是形态学重建中很麻烦的问题，有时可以借鉴亲缘关系接近的标本和一些不太严格的限制条件（例如左右对称，身体构造的保守性），总体来说存在极大的不确定性。

在通信工程中，人们很早就观察到单纯增加信号发射的带宽并不能提高通信的效率，原因在于随着信号带宽的提高，噪声也会提高，如果没有合适的编码策略来对抗噪音，接收到的信号依然是充满噪音的。可以想象，如果我们对二百个化石物种的1000个特征进行编码，我们很可能会比 @好大一盆绿萝提到的进行200×1000=20万次观察要轻松一些，因为大量的特征会被编码成缺失状态。在这种情况下，无论如何增加特征数量，得到的结果可能都不会更好。

既然提到了编码的问题，就展开说一下。通信工程中的编码分为两部分，信源编码和信道编码。信源编码希望尽量逼近信源的信息熵，从而降低通信的成本；而信道编码希望能够逼近信道容量，从而尽量高效地通信。现在5G通信标准中使用的极化码Polar Code就是一种信道编码方案，而大家比较熟悉的利用不同长度的点和划组合编码英文字母的莫尔斯电码是一种信源编码方案。编码设计也是一个很有趣的话题，香农在他的论文中仅仅提到了逼近极限（信源熵与信道容量）的编码可能存在，但怎么设计这样的编码方案并没有通用的方案，很多优秀的编码设计方案都让人觉得精彩绝伦，这里就也不展开了。

短暂回到题目，我们之前已经讨论过系统发生phylogeny和分类taxonomy or classification的区别。在研究中，我们当然希望用尽可能低的成本来鉴定生物，无论是现生还是化石的，同时我们在研究生物演化历史的时候又希望综合考虑各个方面。在分子生物学中有DNA barcoding，也就是选取一小段有代表性的DNA片段作为鉴定标准，一旦检测到这样的片段就认为存在某个物种，就想超市货物的条形码barcode一样；对形态学物种，我们同样会挑选鉴定特征状态，例如小短手是暴龙，长脖子是蜥脚类恐龙，头上有角是角龙类恐龙等等，但是在系统发生研究的时候也会尽可能多地选取形态学特征。

做一个简单的数学题，如果有100万个不同的物种，理想情况下需要多少位的碱基作为DNA barcoding。DNA含有AGCT四种碱基，4^10=(2^10)^2=1024^2＞10^6，所以区区10位的DNA数据就已经可以区分超过100万个物种。形态学鉴定特征状态也类似，仅仅需要很少的几个特征就可以区分大量物种。到这里，我们就已经完成了信源编码的过程，或者说完成了分类的过程。接下来就是信道编码和系统发生了。

如果在通信中直接传输仅仅完成了信源编码的信号是危险的，任何的噪音或者信号丢失都会让接收方无法正确解码，因为逼近了信源熵的编码抛弃了信号中的冗余，是非常脆弱而容易收到干扰的。在古生物学的野外考察中，我们收集的大多数标本都很难被精确鉴定，例如下图中是6年以前的一次野外考察中我和同事找到的部分化石，我们知道其中很多来自某些兽脚类恐龙，但具体是哪一种就不得而知了。因为大多数恐龙的鉴定特征集中的头部，而这些散落的爪子，指节，椎体并没有保存相关的信息。

为了对抗来自保存环境的噪音（当然也有测序过程，化石鉴定的主观判断等等噪音来源），目前的无论分子还是形态学研究都不约而同的使用越来越多的数据来进行系统发生研究。前面已经提到，如果信噪比一定，单纯增加带宽并不能提高通信效率。

如上图所示，由于测序技术的进步和分子数据本身就有极高的拷贝数，目前基于分子的系统发生研究中的信噪比很高，整体可能还处在黄色曲线靠近原点的一侧，研究的效率会随着带宽（数据量）的增加而增加，而形态学研究，特别是基于化石的形态学研究面临着极低的信噪比，有可能已经处于黄色曲线右边的功率限制区域了。事实上，近年来我比较熟悉的古脊椎动物类群中变化较大的系统发生关系极少，一定要举例的话可能有龟鳖类划入主龙类（但有分子证据支持）和哺乳类中的贼兽的位置（依然争议很大）。

小结一下，现在基于分子或形态学的系统发生研究都没有关注信道编码。如果形态学本身就是分子数据编码的结果，那么形态学的编码再经过一次信道编码也应该是可以的，现成的成熟的信道编码方案有很多，值得一试。

然后一个老生常谈的话题，什么是物种？这是分类学和系统发生的研究基础，如果我们没有办法在物种划分的问题上达成比较统一的认识，后续的研究也就无从谈起。已经提出的物种的概念有很多，要么是适用范围有限（生物学物种），要么是使用中标准不确定（形态学物种），要么是极其难以验证（演化支物种），无一例外都有这样或者那样的问题。如果我们已经认同了系统发生研究等同于一个通信系统，那么也不妨用通信原理中的一些概念来尝试解决这个问题。

在一个通信系统中，由于存在信道编码的设计，多条可能收到的不同信号可能会被解码成相同的消息。例如当我们拼写恐龙的英语单词的时候，可能会错拼为dionsaur，信宿在收到之后依然可以知道原文对应的是恐龙这个中文词，因为dionsaur并不是一个存在于英语词汇表里的单词，而与它最相似的真正存在的单词是dinosaur。

在实际的研究中，分子空间和形态学空间都是非常空旷的。如果测序了一段1000bp的基因，那么可能的分子空间将能够容纳4^1000条消息/物种，但显然，现实中没有任何基因含有1000bp全部为A的DNA序列。同样，我们可以构建一个描述所有非鸟恐龙的形态学矩阵，但是现实中应该不会有哪种恐龙同时拥有三角龙的头，霸王龙的手脚，以及蜥脚类的躯干。无论是有意还是无意，空旷的形态学空间作为一种信道编码的手段，目的在于把原始消息从一个集合映射到另一个集合，这个映射使得每个原始消息在映射完成之后与其他的消息距离尽可能的远。参考经典的（7，4）汉明码，原始的消息之间的最近距离为1，例如0000和0001，编码完成之后的最近距离变成了3，例如0000→0000000，0001→1110001。这样即使编码后的信号受到一定噪声的影响，在编码空间中还会处于原始消息的附近，因此依然可以解码出原始的消息。更加直观和详细的解释可以参考David Tse的噪声球概念。如果按照通信原理的逻辑，每个物种就对应这形态空间中的一个个噪声球。甚至没有必要给出形态学物种的定义，因为是否属于一个物种取决于如何进行编码。

最后，如果还记得前面提到的关于采样的问题。我个人认为古生物学研究采样的精度取决于信道容量，而信道容量的大小由保存环境，野外考察情况等等因素影响。越靠近现代，保存情况越好的化石对应的信道容量会越大，能够被古生物学家提取的信息也就越多。在大多数情况下，化石的信道容量都不会太高，一般会远低于现生生物，在对信噪比进行估计后，也许可以确定采样频率。值得注意的是，采样定理也有自己的适用范围，2倍的最高采样频率针对的是在频谱上密集的信号，如果有关于信号频谱分布的先验的知识，有可能以低于2倍最高重建频率的采样频率来恢复原信号，具体的计算这里也不展开了。

最后的最后，分子研究在颠覆一部分形态学研究的同时，也支持了很多形态学研究的结论，二者目前依然是相辅相成。研究灭绝的久远支系只能依靠形态学，现生生物的分子学研究也常常与基于形态学的功能研究相结合，迷信任何一方都不是好事。然而，传统形态学的式微已经是大势所趋，应该尽早抛弃传统研究中经验主义的定义与浮光掠影的理论，信息论已经提供了坚实的理论基础，形态学研究需要做的只是把自己嵌入这个理论框架，而不是自己闭门造车一套连自圆其说都很困难的”理论“。

再次申明，以上内容并不算是研究进展，只是一个可能的方向。

li-xin-35-46 网友的相关建议:

珠玉在前，瓦石难当。即便如此，砖，还是要抛的。

前面的三位专业人士都对这个问题做出很好的回答，本来我是不应该硬蹭进来胡说八道的，但是想了想还是换个角度聊一下，希望读者诸君切莫怪罪。 @云子若点漆老师提到了栉水母和海绵的分子研究，我觉得这是一个特别好的例子，可以用来说明过度迷信生物大分子不一定会得到非常坚实的结果。有关于这个问题的研究历程，可以去看看老师回答里面的文章，当然我也写了一篇，写得非常烂，有兴趣的同学可以捏着鼻子翻翻看。

我今天想说的是这个研究中的一个小部分，但是这个部分很严重地影响到了结果的呈现，在一定程度上也显示出了当下大分子用于生物演化分析的困难，以管窥豹，也可以看到当下建立在分子上的系统发育研究的问题。这个小却严重影响研究可靠性的部分叫做“氨基酸重编码(amino acid recoding)”。什么意思呢？就是对20个氨基酸进行重新编码，用于对抗成分异质性（compositional heterogeneity ）和取代饱和度（substitution saturation ）。成分异质性是指，生物体内不同氨基酸所占的比例并非相同的，由于选择压力、核苷酸的突变以及翻译效率的差异，导致某些种类的氨基酸更容易在生物体内出现。在早先的rRNA研究当中，就因为会出现极端的AT或GC偏移而被认为不能可靠地构建演化关系，当时人们觉得蛋白质就不会有这样的困难，但是结果证明蛋白质也会有严重影响演化的偏移情况，如富AT的动物线粒体基因往往富含由富AT密码子编码的氨基酸（好多个富字），如苯丙氨酸、酪氨酸、甲硫氨酸、异亮氨酸、天冬酰胺和赖氨酸，这就导致有可能一些亲缘关系较远的物种会因为趋同而在演化树上靠在一起，呈现完全错误的结果（尤其是那些演化速率较快的蛋白，非常容易出现长支吸引）。

那什么是取代饱和度呢？这个就更好理解一点，比如某个位点非常容易突变，并出现了多个氨基酸的突变，将原先能用于演化分析的信号全部“洗掉”，那么这时候就出现了取代饱和，使得这一区段的氨基酸序列信息不再有价值。

为了解决以上两个问题，研究人员采用了氨基酸重编码，即将功能相近，或者相互替换程度相近的氨基酸放在一起，重新构建一套编码，从而减少异质性的影响。最原始的版本是RY编码，即嘌呤编码用R表示，嘧啶编码用Y表示，不过这只是用来研究颠换（transversion）时才有意义。后来使用较多的有SR4编码、SR6编码、Dayhoff6态编码等等，它们分别将20个氨基酸分为4或6组，以Dayhoff6态编码为例，它分为AGPST ，DENQ，HKR,，ILMV，FWY和 C 六组。不同的重编码手段往往会产生不同的结果，这导致结果的可靠性变成了一个难以确定的过程——任何一个编码手段都能够通过统计学检验，但是通过了统计学检验不代表符合事实。

谁更正确？结果还是要形态学来比对模型。

（就拿栉水母的est标签分析来说，几乎所有的研究都能把支持度拉到95%以上，99%也是家常便饭——但是如果问题出在模型上，这些问题是难以被验证的）

此外重编码的一个严重缺陷在于它简化了序列信息，如果几种氨基酸在编码上都是相同权重的，那么在其中出现的演化信息就会被我们丢掉。在极端情况下重编码无法获得有效的信息，导致构建出的演化树无法正确区分不同支系，这样虽然缓冲了异质性的影响，但模型本身的影响变得更加可怕。

因此，在我看来，形态学与分子生物学在系统演化当中都是必不可少的存在。生物大分子的研究在近些年确实为我们揭开了许多隐藏在性状之下的重要信息，但是不应因为这个原因而彻底丢去形态学。如果缺少形态学的信息，那我们很难在庞杂的分子生物学信息当中找到立足点。毕竟当下我们没有办法设计出一个不依赖于模型只依赖于数据本身的研究方法，而既然有模型的参与，就不可避免有人为因素的严重干扰，这个时候，形态学往往能为我们提供非常好的参考标准，帮助我们更加正确地对数据信息进行取舍。

内力外功，缺一不可。

参考

dr-hu-42 网友的相关建议:

现在的分子生物学证据已经将原来基于形态学的分类改变得面目全非了

这一条说的可能有点过，的确现在有许多新的基于分子序列的分类跟原本基于形态学的分类差了不少，但整体来看二者还是保持了相当的一致性的。

有人可以介绍一下现在的分类进展吗？

随着测序越来越便宜，隔三岔五就会发表一些全新的进化树，以至于有些年长学者开始感叹也许在他们有生之年，分类学就要走到尽头了 —— 过去局限于某些解剖特征做出的分类相对容易被推翻，现在这恨不得全基因组一齐上的分子分类则几乎不会再有什么差错，我们已经可以想象在将来的某一天我们会彻底的把整个生命之树都描述的清清楚楚。而一旦生命之树真的全整明白了，这门学科也就要寿终正寝了。

yun-zi-ruo-dian-qi 网友的相关建议:

没想到知乎上还有这么小众的问题，但刚好是我的专业。

基于形态学的分类已经面目全非了嘛？并没有。

反正我们现在的工作，就是拿分子数据来验证30年前基于纯形态构建的系统发生关系。结果发现大框架完全没有问题，分子结果修正了个别细节。也有一些奇葩类群（英文语境下，管他们叫流氓rogue），你会发现形态上很难搞定的它们，在分子上也不是个省油的灯。

经典教材《无脊椎动物》最新一版（Brusca et al., 2016）中，便有一个特别的章节叫做“四个神秘的原口动物（Four enigmatic protostome phyla）”，包括Dicyemida，Orthonectida，Chaetognatha和Gastrotricha。不同的证据指向不同的位置，目前，唯一能确定的是他们都属于螺旋卵裂动物。对于分类学家来说，这简直就跟没说一样。

形态和分子，谁厉害。

从短片段，到基因组，每一次分子技术的突破，都让人觉得形态可以下班了。

技术突破的确让人欣喜，但理性的想一想。你会发现，形态和分子，是看世界的两个不同角度。看到的分别是形态演化和分子演化。它们都在各自领域的技术迭代中无限逼近真相。形态经历了200年来的思考，成熟是一定的，但门槛太高。分子容易上手，分分钟出文章，但不得不面对，我们在分子手段上，尤其是算法上，还是嫩了点。很多数据其实我们是不知道该怎么用的，且先用老方法试试。接着，同样的数据，或者加一些关键代表种被人二刷三刷。有一个很经典的例子，就是海绵和栉水母，谁才是最原始的动物？（当然，我是很不喜欢用最原始这个称呼的）

所以分子系统变来变去。有些我们很确定的关系，分子跑错了，咱们就发现方法需要升级一下。有些我们也不能确定的关系，分子跑出来和形态一样，或者不一样，都只能说，前进了一步。

之前写过类似的回答。

放平心态，各有千秋

Hox基因的发现，让我们知道了形态上发生的天壤之别，实操起来可能并不那么困难。比如，蛇没有了腿，苍蝇没有了后翅。

近年来，分子手段让我们见识了一下你以为的不是你以为你以为的。形态学和表观形态学还是要细分一下的。故而在物种形成领域产生了不少有趣且引人深思的进展。

qin-zi-chuan 网友的相关建议:

好久没有在知乎上看到这么有趣而专业的问题了，前面两个答主也是我关注的演化生物学领域的专业学者，回答的都很详细，尤其是从基于分子方面的系统发育研究，他们是比较专业的。好问题，我要认真严肃的聊聊看法。

但我想从我自己的知识背景角度，聊一聊我对这个问题的看法。

可能和绝大部分演化生物学研究者的教育背景不同，我是地球科学本科背景，当然我本科时候在的学院自由度比较高，选课比较杂，但终究是没有接受过典型的生命科学的本科教育和训练的（有一说一的，没有就是没有，哈哈）。但我现在做的博士项目涉及到以化石为主的，涉及形态和功能的演化生物学项目，也在这边和有很好生物学背景的同行有大量的交流和合作。题主提的这个问题，基本上是布里斯托这边（布村LSB也就是生科楼，算是个欧洲的古生物，生物演化理论，研究方法批发市场）的日常问题了。大家有不同的教育背景，不同的研究项目，对基于分子和形态特征的系统发育就有不同的看法。欢迎讨论，跟我不同观点也再正常不过了，我可能和我办公室旁边哥们意见就不一样。

作为一个从本科就做中生代的大化石的人，兼顾了一些地球化学、地球生物学的本科教育背景的人而言。我首先说说我的看法，可能会有点“耸人听闻”。分子的系统发育研究一直离我是比较“遥远”的事情。

为什么会这么说呢？

这让我想到我选修的生物地球化学课程，教授在讲完关于古DNA的章节之后，半开玩笑地说了一句话：“这玩意好是好，保存不了一个百万年。哎，一个百万年，说实话的，够干啥的？”

地学背景的学生一般在大学四年就已经被Ma轰炸习惯了，一开口就是“几十个Ma的演化辐射云云”。而生科背景的学生早就领悟到了分子数据量大管饱的好处，可能看一眼形态的矩阵，就留下一句“20K? 就这？！”

但无论如何，无论研究人员的知识框架如何左右他们的认识，很多客观存在的问题都要面对。比如，地球生命演化历史的何其漫长，以及生物成因大分子的何其脆弱。一些类群，比如说兽脚类恐龙，还有尚存于现在的后裔鸟类。通过一些繁琐而复杂的操作，也许可以进行一些应用。但那些已经完全地消失在地球历史长河当中的，却又非常重要的生物类群呢？一个简单的例子，三叶虫。你们可以琢磨下，测啥的序能搞清楚三叶虫的演化。

更进一步的问题是，这些没有也很难会有分子记录的演化支系，并不是生命之树的小部，而是大部。我之前和一位搞生物成因大分子化石的朋友聊天的时候，打过一个比方。“用分子跑树有点像给前面这片林子拿手机拍张照片，如果你仅仅研究叶子的话，还是非常可以的。但你要问我根在哪，不进到林子里面是找不到的。因为林子里面有你手机拍不到的枝干，地下埋着看不到的根，甚至还有其他你根本拍不到的树。”

但回归到现实的科研生活当中，谈及演化研究，无论是在大学还是科研机构，九成五都是做基于分子数据演化的。反之，沉迷于形态数据的分类研究，及其基于上面的演化研究可能主要流行于古生物研究当中，确切的说，是新生代之前的古生物研究。

这是为什么呢？我相信题主提到这个问题的时候，自己也会持有或者至少听说一个观点，认为形态特征和分子特征在用起来是“两代产品”，自然是长江旧浪推前浪，把形态学的方法拍在了沙滩上。

真的是这样吗？最起码我的观点是不是的。基于宏观形态，及相关的系列特征的研究，不只是在演化研究方面，在其他方向上，这几十年也是式微已久。

我之前的项目找过如下的数据。脊椎动物的平均年龄、动物产蛋平均大小、陆生脊椎动物的体重综合估计。大家猜一下这些问题的主要数据都是出现在什么时候？答案是上世纪50-60年代。随着牛津的沃森和克拉克搞清楚双螺旋结构之后，分子数据不只是分类和系统学的应用上是碾压的，在其他方面也是。甚至包括算命，比如现在测个唾沫测个头发，送你一个“小册子”的娱乐活动，大有成为新时代相面的趋势。

但回到我们的问题，形态特征和分子特征在用起来是“两代产品”么？

就我浅薄的知识而言，答案是“否”。我认为两者应该是各有优劣的。

那为什么在应用领域，会出现现在这种情况呢？

以下内容就是我的一家之言了。我主要的思路，受到了我的导师，麦克本顿博士十年前几篇“神文”的启发。我在想法提过这些研究，简单来说就是研究了一下“研究恐龙的人和研究状况”，然后发现实际上我们以为的一些“恐龙的问题”实际上是“研究恐龙的人的问题”。比如说，为什么阿富汗没有多少恐龙？因为没有人能去那边挖化石，当然没有了。

所以，为什么分子数据会在系统研究中相对形态数据有这么大的优势呢？

第一点，我认为是基于DNA双螺旋结构发现之后的测序结果，从数据类型上与同时兴起的信息技术革命是相搭配的。分子的数据根本上是离散的，而计算机的基本也是0和1 构成。随着计算机技术的发展，一开始被发现时候令人望洋兴叹的分子数据庞大的量，在三代测序技术加持下变得不那么可怕。而这带来的是相对同时代形态数据，海量的数据和量级碾压的优势。

第二点，那为什么形态数据如此拉跨呢？其实倒不是形态数据拉跨，而是在相当长的一段时间，乃至到现在，计算机技术批量处理三维数据的能力非常有限。我们所有的生物都是三维的（压成板子也是）。这导致一个非常大的问题，就是时至今日，形态学数据的提取都伴随着巨量的“信息浪费”。我给大家举一个例子，我现在手头有一个CT扫描的鸽子的骨架，CT扫描是断层扫描，也就是三个轴上大约各1000张灰度分布图。一共有多大呢？30个G。如果我们按照兽脚类恐龙最大的形态学系统发育矩阵，对其进行形态学特征的标定，得到的数据多大？不到1K。

是不是非常离谱？为什么呢？我们随便来看一个特征“股骨的附转子不发育，是为0，不是为1”。股骨上大约有50个类似的特征，也就是说，股骨可以提供50比特的形态数据。那么股骨的CT扫描数据有多大？可能有1-3个G。

那为什么不增加形态学数据呢？搞这种高度概括的特征意义何在？答案是，这样已经搞不完了。可能看到前面，已经有朋友想到了，这些特征，是需要研究者一个一个去比对，去鉴定的。如果一个矩阵有1000个特征，研究二百个物种，就需要进行200000次观察，这样干的是人啊，人可受不了这个。

所以，问题回来了。分子数据和现在的计算机技术相性是好得多，如果现在搞测序，是不会有博士去A T G C的一个一个去数的。但是形态是需要你去一个一个的观察，判断和计数的。这其中还涉及到一大堆文献阅读，材料对比。很多标本不在你这，就要飞过去看，不像分子数据，下载下来就可以。所以，只要基于形态的数据的研究还是处于这种我称之为“意大利纯手工打造航天飞机座椅沙发”的奇葩状态下，是永远不能从方法论上胜过或者说与分子分类相提并论的。

如果，我是说如果，可以预见的如果。我们的计算机技术，可以使得我们批量的，快速的处理大量的形态学数据，可以从已经积攒很多的形态数据中挖掘出更多的信息的话，不需要追到分子的层次，只要到达一代测序的水平，我相信用纯形态进行大数据的系统分类，乃至基于此的各种研究就会多起来。但这种技术的发展肯定需要图像识别，深度学习等一系列技术的发展（有幸我和Congyu现在也有机会参与到一些推动工作）。其实目前，已经有很多很好的尝试了，比如说尚在襁褓当中的“形态钟”，前段时间在知乎上火了一段的“龙人”的论文就有所应用，也非常高兴能看到在人类演化这个分子占绝对统治地位的领域，有这种尝试，我是非常钦佩作者们的勇气的，不愧对Innovation杂志的名字。

最后，我想聊聊为什么我们要Make morphology great again 呢？

前面提到的，相对于漫长生物演化历史，生物大分子过短的保存年限，是一个原因。

第二个原因，我觉得是更本质的原因。就是我们要思考，自然选择真正落实在什么上面？我知道，在这个问题上，演化生物学家们不同意见很多。但对于以化石为主要研究材料的，绝大部分已经灭绝的史前生物而言，我们能够讨论的自然选择是落在“表型”上的。比如说，我们讨论在某个地质历史时期，因为某些特定的环境因素，出现一些“演化滤器”，那作用的能，也仅能是可以被观察的宏观特征。比如说岛屿化，导致了植食性动物体型小型化。都是看得到的东西。反之，基于形态做出来的系统关系，再在形态做出了的树上讨论形态的变化，一是好操作，而是逻辑上也更恰当。

以上就是我对这个问题的一些想法，可能写的比较多，也比较不好读。但我可以总结一下，就说生物的系统发育和分类的研究还远远没到"蓝天上只有两朵乌云"的状态，还有很多东西可以做。如果题主你未来想从事这方面的研究，不妨考虑一下“Make morphology great again”的队伍（邪神の邀请）。

生物系统发生和分类的研究进展怎么样了？的其他答案点击这里

生物系统发生和分类的研究进展怎么样了？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

生物系统发生和分类的研究进展怎么样了？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

生物系统发生和分类的研究进展怎么样了？第1页