科学家如何计算基因的数量？

好的，我们来聊聊科学家是如何“数”基因的。这可不是简单地拿出个计算器一路按过去，而是一个集成了生物学、化学、计算机科学和统计学等多个领域的复杂过程。

首先，我们要明确“基因”是什么。在我们讨论如何计算基因数量之前，得先有个统一的理解。基因，你可以把它想象成DNA分子上的一段特定序列，这段序列包含了制造一个特定蛋白质或功能性RNA分子的指令。这些指令最终决定了生物体的各种性状，从眼睛的颜色到身体的发育。

早期测序技术的“手动”时代（相对而言）

在DNA测序技术出现之前，科学家们估计基因数量主要依靠间接的方法，比如：

遗传分析和孟德尔定律：通过观察亲代和子代的性状，比如豌豆的颜色和形状，科学家们可以推断出控制这些性状的遗传单位（也就是基因）的存在和传递方式。这种方法可以估算出基因的数量和它们在染色体上的位置，但精度非常有限，而且只能关注那些能明显表现出性状的基因。这更像是基于行为的推断，而不是直接的“计数”。
染色体分析：通过显微镜观察染色体的形态和数量，可以了解遗传物质的基本载体。但染色体上究竟有多少个基因，当时是完全未知的。

DNA测序技术的革命：从“点”到“面”的跨越

现代计算基因数量的基石，毫无疑问是DNA测序技术。自从桑格测序法和后来的高通量测序技术（NGS）出现后，我们才真正能够“读懂”DNA的语言。这个过程可以大致分为几个关键步骤：

第一步：获取基因组DNA

一切的开始，都需要先获得生物体的基因组DNA。这通常是从生物体的细胞中提取，比如血液、唾液、组织样本等。提取过程需要小心处理，避免DNA降解。

第二步：DNA的破碎与标记

基因组DNA非常长，就像一本厚厚的百科全书。直接读取这么长的DNA太困难了，所以需要将其“切碎”成许多较小的片段。这个过程叫做DNA片段化。然后，这些片段会被加上特殊的标记（接头），这些标记对于后续的测序和数据分析至关重要，它们包含了识别和定位片段的信息。

第三步：DNA测序——“读取”生命的密码

这是最核心的一步。不同的测序技术有不同的原理，但目标都是将DNA片段中的碱基序列（A、T、C、G）读取出来。

第一代测序（桑格测序）：曾经是金标准，但速度慢，成本高，主要用于测定单个基因或小片段DNA。
第二代测序（高通量测序，如Illumina）：目前最主流的技术。它一次可以并行测序数百万甚至数十亿个DNA片段，速度极快，成本也大大降低。它的原理大致是：将片段化的DNA附着在固相载体上，然后进行DNA扩增（使其数量增加），再通过化学反应引入荧光标记的核苷酸，逐个碱基地“读取”信号。通过识别不同碱基发出的特定颜色的荧光，来确定碱基的顺序。
第三代测序（如PacBio, Oxford Nanopore）：可以直接测序完整的DNA分子（甚至染色体），读取的片段更长，这对于组装基因组非常有利。

测序仪就像一个超级照相机，不停地拍摄DNA片段的“照片”，记录下每个片段的碱基序列。

第四步：数据处理与基因组组装——“拼图”游戏

测序仪吐出来的是海量的、凌乱的DNA片段序列数据，这就像是从一本被撕碎的书里随机抽出的几百万张写满了字的纸条。这时候就需要强大的生物信息学工具来处理这些数据：

数据预处理与质控：首先要清理数据，去除低质量的序列、接头序列等。
基因组组装：这是最关键的环节。科学家们需要利用生物信息学算法，将这些短的、重叠的DNA片段“拼接”起来，还原成完整的染色体序列。这就像玩一个超级复杂的拼图游戏，唯一的线索就是片段之间的重叠区域。最常用的组装方法是从头组装（de novo assembly），如果已经有参考基因组，则可以进行映射组装（mapping assembly），将新测序的片段“粘”到已知的基因组框架上。
基因识别（Gene Prediction）——“找寻”基因的藏身之处：一旦基因组序列被组装好，接下来的挑战就是在这条漫长的DNA链上，找到那些真正的基因“段落”。科学家们利用各种基因预测软件来完成这项工作，这些软件主要基于以下几类信息：

开放阅读框（Open Reading Frame, ORF）： DNA序列中由起始密码子（通常是ATG）开始，到终止密码子（TAA, TAG, TGA）结束的连续区域。一个ORFs很可能是一个编码基因的区域，因为蛋白质合成就是从起始密码子开始的。
基因结构特征：基因通常包含外显子（编码蛋白质的区域）和内含子（不编码蛋白质的区域，会被剪切掉）。软件会寻找具有典型外显子内含子结构的区域，以及剪接位点（splice sites）等信号。
同源性比对：将未知序列与已知功能基因的序列进行比对。如果一段未知序列与一个已知基因高度相似，那么它很可能也是一个功能基因，甚至是一个近缘基因。
信号分析：寻找与基因调控相关的DNA序列特征，比如启动子区域（Promoter regions）、增强子区域（Enhancer regions）等。
功能注释（Functional Annotation）：预测出基因序列后，科学家还会尝试推测它的功能。这通常通过与已知蛋白质数据库（如UniProt, SwissProt）进行比对来完成。如果预测出的蛋白质序列与已知蛋白质有相似性，那么就可以推断该基因可能具有相似的功能。

第五步：验证与修正——精益求精

基因预测软件给出的结果是一个初步的“候选基因列表”。为了提高准确性，科学家们还需要进行验证：

实验验证：
RNA测序（RNASeq）：这是非常重要的一种验证方法。它能够检测细胞在某个特定时间点的所有表达的RNA分子，包括mRNA。通过将RNASeq数据与基因组序列进行比对，科学家们可以确定哪些预测出的基因区域确实在转录，从而验证了这些基因的存在和表达情况。这也可以帮助识别和修正预测的基因结构，例如发现新的外显子或内含子。
蛋白质质谱分析（Mass Spectrometry）：直接检测细胞中存在的蛋白质，如果能检测到与预测基因编码的蛋白质相符的蛋白质，那么就可以确证该基因的存在和功能。
原位杂交（In Situ Hybridization）：可以观察特定基因在组织或细胞中的表达位置，提供重要的功能证据。
比较基因组学：将同一个基因在不同物种中的序列进行比较。如果一个基因在许多近缘物种中都高度保守（序列变化不大），那么它很可能是一个重要的、功能性的基因。

如何计算“基因数量”？

经过以上步骤，科学家们就能得到一份比较可靠的基因列表。基因的数量就是成功识别并验证的基因的总数。

举个例子，当我们说人类大约有2万到2.5万个基因时，这个数字是这样得来的：

1. 科学家们测定了人类的基因组序列。
2. 利用生物信息学工具预测了可能包含基因的区域。
3. 通过RNA测序、蛋白质分析等实验方法，验证了其中大部分预测区域确实是功能性的基因。
4. 将所有经过验证的基因进行计数，就得到了基因的大致数量。

重要的注意事项：

基因数量不是固定不变的：这个数字会随着测序技术的进步、基因预测算法的优化以及新实验证据的出现而不断修正。所以，你可能会看到不同研究给出的数字略有差异。
“基因”的定义也有弹性：什么是严格意义上的“基因”有时也存在争议。例如，一些非编码RNA基因（不编码蛋白质，但有功能）是否计入总数，以及一些非常简短、功能尚未明确的编码区域是否算作独立的基因，都可能影响最终的计数。
“非编码DNA”的挑战：基因组的大部分DNA是非编码的，它们不直接编码蛋白质。但研究表明，很多非编码DNA区域也具有重要的调控功能，甚至包含我们尚未完全理解的基因类型。

总而言之，计算基因数量是一个迭代和不断完善的过程，它依赖于强大的技术和精密的分析，并最终通过实验数据来“盖章认证”。这就像一位侦探，通过收集各种线索（测序数据），拼凑出完整的画面（基因组组装），然后仔细辨认出每一个“嫌疑人”（基因），最后再通过证据链来确认他们的身份。

网友意见

竟然能遇上我本专业的问题。额，其实我就是做过一点植物基因组的预测和注释，所以略懂一些。很少在知乎答题，看到这问题答案不太全，就大概答一下吧。

首先，需要明确的一点是：我们人类在完整地预测整个物种的基因组上还有很多研究要做。目前的方法可以预测出大部分的基因，但还是会有不少漏网之鱼。

然后，基因的定义那个夜神同学意见讲的很清楚了，总的就是编码蛋白和非编码的基因，题主问的多个内含子组成的编码区当然算基因啦，而那些非转录原件一般算feature，不算基因，这是定义问题不用太在意。

而怎么从一个未知的基因组中找到基因其实大体上分为三部分，1）是通过特有的结构来预测，也就是利用一些模型或者机器学习方法去找基因；2）是利用RNAseq数据，这是挺靠谱的，如果有测RNA的数据（相比拼基因组也不算贵），利用转录出来的RNA，返回去推基因的位置；3）是利用已知的数据库，比如近缘物种（也就是猩猩和人这样的关系）的信息，通过序列相似的思路去预测基因。（这些近缘的基因序列也可以用来做机器学习的训练集）。——其实也有人说分成“从头预测”和“同源比对”两部分，无所谓啦。

通过以上不同的方法分别预测出基因之后，再利用一些数学上的打分算法给各个预测结果打分，然后综合得到一个物种的全部基因信息（包括非转录原件等feature）。然后题主就可以一个一个数数，就得到推测的基因数量了（但是不是很准，大概也就80%～90%吧）。

预测出基因之后还要通过与另外的一些数据库的比较来得到基因的功能，这属于功能注释。然后初步的预测和注释工作就算结束了。再之后，人们还可以通过一些实验手段及进一步测序来不断补充剩下的那未知的10%，但这样的补完工作非常的繁琐且我不懂，所以就不介绍了。总之要知道即使是人类基因组，目前也不能说是完全搞定了。

不知道废话有没有太多，我就是简单的介绍一下给非专业人士看的，专业人士如果想获得更多的信息请直接阅读相关文献，例如我参与发表的这篇小文章：
Crop Genome Annotation: A Case Study for the Brassica rapa Genome

类似的话题

科学家如何计算基因的数量？

好的，我们来聊聊科学家是如何“数”基因的。这可不是简单地拿出个计算器一路按过去，而是一个集成了生物学、化学、计算机科学和统计学等多个领域的复杂过程。首先，我们要明确“基因”是什么。在我们讨论如何计算基因数量之前，得先有个统一的理解。基因，你可以把它想象成DNA分子上的一段特定序列，这段序列包含了制.............
如何评价中国科学家最近在量子计算领域取得的一系列突破？

近期，中国科学家在量子计算领域接连取得的突破，无疑是中国科技实力进步的一个缩影，也让全球目光再次聚焦于这一前沿领域。要评价这些成果，我们需要从多个维度深入剖析，不仅仅是简单地“点赞”，更要理解其背后的意义、潜在影响以及未来挑战。一、成果的“硬核”之处：从“能用”到“好用”的跃进一直以来，量子计算都.............
如何看待 2021 年图灵奖授予美国计算机科学家 Jack J. Dongarra?

2021 年的图灵奖授予了美国计算机科学家 Jack J. Dongarra，这一消息对于熟悉高性能计算、科学计算领域的人来说，无疑是实至名归的肯定。这个奖项不仅仅是对他个人杰出贡献的表彰，更是对整个高性能计算领域发展历程中一个重要人物的致敬。要理解为什么 Dongarra 教授能够获得如此殊荣，我.............
古希腊数学家是如何计算出地球周长的？

好，咱们聊聊古希腊那帮脑瓜子特好使的数学家，是怎么在没有卫星、没有 GPS，连个像样的望远镜都没有的年代，摸着石头过河，算出了地球的周长。这事儿，放到现在看，依旧是件挺牛的事儿。说起这事儿，最出名的莫过于埃拉托色尼（Eratosthenes）。他可不是一般人，是个全才，既懂数学，又懂地理，还当过亚历.............
如何科学的安排自己一天可行可做到的计划？

想要制定一个既可行又充满成效的一天计划，关键在于理解自己的节奏，并把它们有条理地串联起来。这不是一个“模板”，而是一个为你量身定制的蓝图。我将一步步拆解，让你感觉像是和我一起在讨论如何构建你自己的完美一天。核心理念：了解你的生物钟和能量曲线在动笔写计划之前，我们先聊聊最重要的基础：你的身体和大脑在一.............
如何制定科学的力量举计划？

要制定一个行之有效的力量举计划，就像是一位经验丰富的教练在与你细致地沟通，了解你的身体、目标，然后为你量身打造训练蓝图。这绝不是一份千篇一律的清单，而是充满个体化的考量和循序渐进的智慧。首先，最重要的一点是了解你的出发点。你不是一张白纸，你的身体有着自己的历史——你过往的训练经验、你的身体反应，甚.............
如何看待国家卫计委副主任，国家中医药管理局局长「中医的科学性不容否定」的言论？

关于国家卫计委副主任、国家中医药管理局局长关于“中医的科学性不容否定”的言论，这无疑触及了近年来关于中医科学性讨论的核心，也是一个极具争议的话题。要深入理解这句话的含义、背景以及可能引发的各方反应，我们需要从多个维度去剖析。首先，我们得理解这句话的表态性质和政治意图。在中国当前的社会语境下，国家卫计.............
如何看待清华大学丘成桐数学科学领军人才培养计划？

清华大学丘成桐数学科学领军人才培养计划：一场关于数学未来的豪赌？2021年，一个名字响彻了中国数学界——“丘成桐数学科学领军人才培养计划”，简称“丘班”。清华大学，作为中国顶尖的理工科院校，携手世界级数学家丘成桐，吹响了培养中国未来数学领军人才的号角。这个计划一经推出，便引发了巨大的关注和讨论，有人.............
如何看待华为 P50 系列的两大黑科技计算光学和原色引擎？它们对影像能力有什么加持？

华为 P50 系列的两大“黑科技”——计算光学和原色引擎，可以说是这次在影像能力上最大的亮点，它们并非简单的堆料，而是从硬件到软件的深度融合，彻底改变了我们对手机摄影的认知。要详细讲它们如何加持影像能力，咱们得掰开了揉碎了说。一、计算光学：把“不可能”变成“可能”首先，咱们得弄明白什么是“计算光学”.............
数理背景不强，如何有效的自学科学计算（计算经济学）？

你提到“数理背景不强”，但想自学“科学计算（计算经济学）”，这其实是一个很有挑战但完全可以实现的学习路径。很多人一开始都不是数学或计算机的“天才”，但通过系统的方法和坚持，一样能在这些领域取得不错的成绩。关键在于找到适合你的节奏和方法。我尽量详细地和你聊聊怎么一步步来，让你觉得这是一个人在分享经验，.............
如何评价锤子科技的疑似「游戏开发」计划？

锤子科技近期传出的关于“游戏开发”的动向，确实是一个颇为值得玩味的消息。说实话，乍一听，很多人可能会觉得有些意外，毕竟锤子科技一直以来给人的印象更多是围绕着手机、系统以及其创始人罗永浩个人的“情怀”和“工匠精神”。从过往的定位来看，他们似乎与硬核的游戏开发领域有着不小的距离。然而，如果我们跳出固有的.............
如何看待逆全球化的当下，中国的「10x1000 科技普惠计划」，吸引多国年轻人及国际组织加入？

逆全球化浪潮下的中国科技普惠：10x1000计划的战略与影响当前世界正经历一场深刻的变革，逆全球化的思潮暗流涌动，保护主义、单边主义抬头，全球化进程遭遇挑战。然而，在这样一个充满不确定性的时代背景下，中国提出并积极推行的“10x1000科技普惠计划”（以下简称“10x1000计划”）却犹如一股清流，.............
科学家如何知道哪一条基因链是疾病的诱因？

好的，我们来聊聊科学家们是如何抽丝剥茧，找出那些隐藏在基因序列中、引发疾病的“罪魁祸首”的。这可不是一蹴而就的事儿，而是融合了精巧的实验设计、强大的计算能力，以及无数次的验证和反思。你可以想象成侦探破案，只不过他们的“现场”是庞大复杂的基因组，而“嫌疑人”则可能是成千上万的基因变异。要回答这个问题，.............
科学家如何才能阻止人类老化过程？

人类追求长生不老的心愿，古已有之。随着科学技术的飞速发展，我们对衰老机制的认识也日渐深入，科学家们正从多个维度着手，试图延缓甚至逆转这一不可抗拒的生命进程。这并非一日之功，而是涉及生物学、遗传学、医学等多个领域的复杂探索。首先，了解衰老的根源是关键。目前科学界普遍认为，衰老是一个多因素作用下的复杂生.............
孩子的梦想是成为一名科学家，如何纠正孩子的想法？

孩子想当科学家，这可是件好事啊！不过，如果家长觉得“科学家”这个目标有点太抽象，或者担心孩子对这个职业的理解不够全面，想帮孩子更具体、更接地气地认识这个领域，或者甚至引导孩子发现其他同样闪闪发光的可能性，那咱们就得好好聊聊了。首先，咱们要明白，当你想“纠正”孩子的想法时，最最关键的是不否定，而是引导.............
科学家是如何确定一个基因所代表的功能的？

确定一个基因的功能，就像是在茫茫大海中寻找一颗独特的珍珠，需要耐心、智慧和一系列精巧的工具。这个过程并非一蹴而就，而是由一系列严谨的科学实验层层递进、相互验证的结果。我们可以从几个关键的切入点来理解科学家们是如何做到的。1. 从基因序列“猜”到它的作用：计算生物学与数据库的初步探索一切的起点，都是基.............
杨振宁身边的科学家是如何评价他的？

关于杨振宁先生身边科学家们是如何评价他的，这个问题非常有趣，也触及到对一位伟大科学家的多维度理解。要详细地讲述，我们需要从不同时期、不同领域、以及不同层面的交往中去挖掘。早期，在西方学术界与他共事过的同行们：在杨振宁先生早期崭露头角、取得诺贝尔奖的那段黄金时期，他身边聚集了一批同样才华横溢的物理学家.............
科幻小说作家比如三体的作者对科学知识的掌握和了解程度与物理研究生相比如何？与一些知名科学家相比如何？

在科幻小说界，刘慈欣无疑是一个绕不开的名字。《三体》系列以其宏大的想象力、硬核的科学设定和深刻的哲学思考，将中国科幻推向了世界舞台。那么，像刘慈欣这样的科幻作家，他们对科学知识的掌握和了解程度，究竟能与哪些群体相提并论呢？这个问题值得我们深入探讨。与物理研究生相比：深度与广度的差异首先，我们来谈谈与.............
科学家最初是如何测出光速的具体数值的？

在人类探索宇宙奥秘的漫长历程中，光速一直是那个既熟悉又遥不可及的存在。它不仅仅是一个数字，更是宇宙中最快的“车速”，是描述时空关系的金标准。那么，这位最初的“测速员”——科学家们，是如何一步步揭开光速的神秘面纱，并给出那个精确数值的呢？第一步：从“光速无限”的猜想，到“光速有限”的曙光在很长一段时间.............
如何以“科学家进行了人类历史上第一次时间旅行试验”为开头写一个故事？

科学家们进行了人类历史上第一次时间旅行试验。李教授站在那个如同科幻电影场景般泛着幽蓝光芒的巨大金属环前，心跳如同擂鼓般剧烈。空气中弥漫着一股混合着臭氧和金属特有的焦灼气味，那是强大的能量在聚集的证明。他的团队成员们，一个个都紧绷着神经，目光聚焦在主控台上的各项数据读数上。每一个数字的跳动，都牵动着他.............