为什么欧洲分子生物实验室的DNA存储选择了三进制？

关于欧洲分子生物实验室（EMBL）在DNA存储领域选择三进制的详细原因，这是一个很有意思的话题，尤其当我们仔细审视它与我们熟悉的数字世界截然不同的逻辑时。这不是一个简单“因为A更好所以选择A”的答案，而是背后一系列深思熟虑的权衡和技术考量。

首先，要理解这个问题，我们得先跳出“二进制是唯一标准”的思维定势。我们的计算机世界是建立在0和1的二元逻辑上的，这在电子电路中非常容易实现和控制。但是，当我们把目光投向更基础、更宏观的生物存储介质——DNA时，事情就变得有趣起来。DNA的本质是碱基对，AT和GC。这四个碱基，本身就构成了一个四进制的系统。

EMBL为什么不直接用四进制，而要考虑三进制呢？这背后可能涉及几个关键的考量点：

1. 信号的清晰度和鲁棒性：
在读取DNA信息时，我们需要区分不同的碱基。想象一下，如果我们用二进制（0和1），可能就对应着“有信号”和“无信号”，或者“高电平”和“低电平”。在DNA存储的模拟世界里，这意味着我们需要精确地分辨出四种不同的化学信号或者光学信号。
如果信号不够清晰，或者存在噪声干扰，就很容易将一个碱基误读成另一个。举个例子，如果我们模拟二进制，一个微弱的信号可能被误判为“1”或“0”，导致信息丢失。
三进制在这里可能提供了一个“中间地带”。设想一下，我们有“A”、“B”、“C”三种状态。这种区分度可能比简单的“有/无”更具弹性，但也比区分四种状态的信号要求更宽松。更具体地说，它可能在区分不同碱基的“幅度”或“特征”上，提供了一个更易于辨识的间隔。比如，某种碱基的信号是“弱”，另一种是“中等”，还有一种是“强”。这种分级信号在实际的读取过程中，对环境变化（如温度、试剂浓度波动）可能更加“容忍”。简而言之，区分三种状态，相比于区分四种状态，可能对硬件（比如DNA合成仪或测序仪的读取部分）的精度要求稍微降低一些，从而在可靠性和实现成本上找到了一个平衡点。

2. 信息编码效率与冗余的权衡：
信息存储的终极目标是将信息压缩并可靠地存储。我们知道，一个三进制符号（称为trit）可以表示log₂(3) ≈ 1.58个比特的信息。一个四进制符号（碱基）可以表示log₂(4) = 2个比特的信息。从纯粹的信息密度上看，四进制似乎最高。
然而，信息存储不仅仅是密度的问题，纠错是另一项关键。在DNA存储中，由于合成和读取过程中的错误（如点突变、插入、缺失等）是不可避免的，我们会引入纠错码。纠错码需要额外的冗余信息来检测和修正错误。
三进制编码方案可能在与特定的纠错码算法结合时，能达到一个优化的整体信息存储效率。也就是说，虽然一个三进制符号本身携带的信息量略少于一个四进制符号，但它可能允许我们使用一种更高效或更易于实现的纠错策略，从而在综合考虑了纠错能力和数据密度之后，实现了更好的整体性能。
想象一下，如果我们直接用四种碱基（四进制），可能需要非常复杂的纠错算法才能达到一定的可靠性。而如果将信息先用三进制编码，再映射到DNA序列上，可能只需要更简单的纠错码，或者能用更少的冗余比特来实现相同的纠错水平。这就像是找一个最“省力”的方式把信息装进DNA这个载体。

3. 生物学基础的适配性：
DNA本质上是四种碱基A、T、G、C的序列。为什么是三进制呢？这里的“三进制”可能不是直接指碱基数量，而是指一种信息编码和解码的逻辑框架。
例如，一种可能的解释是，EMBL的研究团队可能开发了一种新的编码算法，将原始的二进制数据（例如计算机文件）转化为一种“类三进制”的中间表示，然后再映射到DNA序列上。这种映射的方式可能利用了DNA化学性质的某些特性，或者是在DNA合成/读取过程中设计的某个环节，使得其操作逻辑上更接近于三进制的处理。
另一种更具推测性的方向是，可能与DNA的特定化学修饰或识别方式有关。虽然DNA主要由A、T、G、C构成，但研究人员可能会设计一些特殊的化学标记或信号，或者在读取时利用某些只有三种明确状态的生物物理现象来解码信息。这有点像我们在讨论数字信号时，虽然理论上可以无限多个幅度，但我们实际操作时会选择几个离散的电平来代表不同的信息。

4. 与特定技术路线的契合：
DNA存储是一个新兴领域，存在多种不同的技术路线。有些路线可能侧重于DNA的化学合成，有些侧重于利用生物酶进行操作，还有些侧重于光学或电化学的读取。
EMBL选择三进制很可能与其正在探索或发展的特定DNA存储技术路线高度相关。可能在他们所采用的DNA合成方法、信息编码方式，或者读取数据的传感器技术中，三进制的表示方式能够更自然、更高效地被实现和处理。比如，某种特定的酶反应在产生三种可区分的产物时效率最高，或者某种光谱分析方法最容易区分三种不同的信号峰。

总结一下，EMBL选择三进制而不是直接利用DNA的四种碱基作为四进制，很可能是一个综合性的技术决策，包含了以下几点：

提高信号的辨识度和系统的鲁棒性：在模拟的生物化学环境中，区分三种状态可能比区分四种状态对环境干扰更不敏感，从而提高读取的可靠性。
优化信息编码与纠错的整体效率：三进制编码与特定的纠错策略结合，可能在实际应用中比直接四进制编码能以更少的冗余实现更高的整体信息存储密度和可靠性。
与特定生物学或化学操作的契合：该三进制方案可能是为了配合其研究团队正在开发或优化的DNA合成、化学修饰或读取技术而设计的。

这就像我们造车，不是非要用最大的轮子，而是要找到最适合当前路况、最省油、最舒适的那个组合。EMBL在DNA存储上的探索，正是这种在基础科学原理和工程实现之间不断寻找最优解的过程。三进制的选择，无疑是他们在这个复杂系统中找到的那个更高效、更可靠的“齿轮”。

网友意见

结论放前头，DNA储存选择三进制的原因是为了降低出错率。

（PS：这里的DNA储存是指电子计算机使用DNA作为储存介质的技术，也就是把DNA当硬盘用的技术，为避免误会故在此说明）

二进制的电子计算机有高电平低电平两种状态，而学过高中生物都知道，DNA由ATCG四种碱基组成，那么很自然会想DNA储存是不是就应该是用四进制呢（比如A代表0，C代表1，G代表2，T代表3）？这样可以最大化地提升数据密度而且可以跟普通计算机兼容，毕竟四进制跟二进制的互相转换是很快的。

但是DNA跟普通的闪存、磁盘是有很大区别的，DNA信息的读取是通过测序来完成的，而DNA有一个特性是当同样的碱基对连续出现时（也就是均聚物）会显著增加测序出错的概率。普通文件里面连续的0或者1是非常常见的，如果直接以四进制编码成DNA，会出现连续同样的碱基对，导致读取出错。

所以DNA储存使用了一种叫做“旋转编码（rotating code）”的编码方案（如下图所示）来避免相同碱基的连续出现。

简单来说，就是上一个碱基如果是A，那么下一个碱基只能是C、G、T，其中C代表0，G代表1，T代表2；如果上一个是C，下一个只能是G、T、A，其中G代表0，T代表1，A代表2，以此类推。以这种方式进行编码，任意一个碱基和前后的碱基都是不一样的，也就避免了均聚物的出现。但是这样一来，就只能同时使用四种碱基中的三种来表示状态，也就是最多只能用三进制。

下图是实际编码过程的示例。其中的Huffman code是用于二进制跟三进制转换的编码方式，与题目无关此处就不多做解释了。

文中图片均来自于参考文献。

参考文献：

Bornholt J, Lopez R, Carmean D M, et al. A DNA-based archival storage system[C]//Proceedings of the Twenty-First International Conference on Architectural Support for Programming Languages and Operating Systems. ACM, 2016: 637-649.

类似的话题

为什么欧洲分子生物实验室的DNA存储选择了三进制？

关于欧洲分子生物实验室（EMBL）在DNA存储领域选择三进制的详细原因，这是一个很有意思的话题，尤其当我们仔细审视它与我们熟悉的数字世界截然不同的逻辑时。这不是一个简单“因为A更好所以选择A”的答案，而是背后一系列深思熟虑的权衡和技术考量。首先，要理解这个问题，我们得先跳出“二进制是唯一标准”的思维.............
为什么欧洲盔甲和中国盔甲相比在美学角度显得更具观赏性？

欧洲中世纪盔甲与中国的古代盔甲在美学上的差异，主要源于历史背景、文化价值观、技术发展及社会功能的不同。以下从多个维度详细分析： 1. 设计理念与文化象征欧洲盔甲：欧洲中世纪的盔甲不仅是军事防御工具，更是骑士身份、荣誉和贵族地位的象征。盔甲设计强调功能与美学的结合，通过复杂结构（如链甲、板甲.............
为什么欧洲古建筑多为石筑，中式建筑多用木头？

这个问题触及了东西方文明在材料选择、技术发展、审美取向以及文化哲学上的深刻差异。欧洲古建筑多以石头为主要材料，而中式建筑则偏爱木材，这并非偶然，而是历史演进、地理环境和文化观念共同作用的结果。一、地理与资源禀赋：最直接的决定因素欧洲：得天独厚的石材资源。欧洲大陆，尤其是地中海沿岸和欧洲中部.............
为什么欧洲的农民起义非常少，而中国直到明末还要处理这类内患？

欧洲的农民起义相较于中国历史上频繁出现的农民起义，确实存在显著的差异。这并非欧洲土地上没有贫困或压迫，而是多种历史、社会、经济和政治因素共同作用的结果，使得大规模、持续性的农民起义在欧洲的发生频率远低于中国。而中国直到明末仍需处理此类内患，其根源则更加深厚和复杂。让我们一层一层地剥开这些历史的脉络。.............
为什么欧洲国家的现代文化输出较弱？

欧洲国家在现代文化输出方面确实相对较弱，这背后有多重复杂的原因，需要从历史、经济、社会、政治以及全球化传播的特质等多个层面来分析。下面我将尽量详细地阐述：一、历史因素：殖民主义遗产的双刃剑 “文化帝国主义”的负面印象：曾几何时，欧洲国家是殖民世界的中心，通过殖民统治，欧洲的语言（英语、法语、.............
为什么欧洲领主经常绝嗣，会请其他国家的贵族来当继承，而中国几乎没有?

欧洲领主绝嗣并邀请外国贵族继承的现象，与中国古代的继承制度存在显著差异。这种差异源于两国在政治结构、社会文化、继承法则以及历史演变等多个层面的根本不同。下面将详细阐述其中的原因：欧洲领主频繁绝嗣并邀请外国贵族继承的原因：1. 欧洲封建制度的特点：分散的权力结构：欧洲中世纪的封建制度是一种高.............
为什么欧洲左翼政党使用红色为标志色，右翼政党使用蓝色为标志色，而美国却正好相反？

欧洲和美国在政党标志色上的差异是一个有趣的话题，它反映了历史、文化和政治传统的不同演变。让我们详细分析一下：欧洲左翼政党使用红色（Red）的原因：红色在欧洲左翼政治中长期以来具有深厚的象征意义，主要源于以下几个方面：1. 工人运动和共产主义的遗产：血的象征：红色最直接的联想是血液.............
为什么欧洲有些国家元首称国王（King），而另一些则称皇帝（Emperor）？

欧洲国家元首的称谓差异，即“国王”（King）与“皇帝”（Emperor）的区分，并非随意设置，而是深深植根于历史发展、政治演变、文化传统以及对统治权性质的理解。要详细解释这一点，我们需要从几个关键层面入手：1. “国王”（King）的由来与含义起源： “国王”这个称谓在欧洲历史上出现的要早得.............
为什么欧洲主要发达国家的人均收入不及美国？

欧洲主要发达国家（如德国、法国、英国、意大利等）的人均收入普遍低于美国，这是一个复杂且多层面的经济和社会现象，受到多种因素的共同影响。要详细解释这个问题，我们需要从经济结构、劳动力市场、税收和福利制度、创新与创业环境、以及文化因素等多个角度进行分析。以下是对欧洲主要发达国家人均收入不及美国原因的详细.............
为什么欧洲没有像苹果、谷歌，或者说与阿里巴巴体量相当的互联网巨头？

欧洲缺少像苹果、谷歌、亚马逊、Facebook（Meta）或是阿里巴巴这样体量的互联网巨头，这个问题背后其实牵涉到一系列复杂的地缘经济、历史、文化以及监管等多方面因素。这绝非单一原因所能解释，而是多种力量交织作用的结果。要理解这一点，我们不妨从几个核心维度来剖析：一、市场碎片化与同质化：首先，欧洲.............
为什么欧洲是大洲，而东亚、南亚、西亚不是大洲？

这个问题很有意思，也触及到了我们理解世界地理划分的核心。简单来说，之所以我们说欧洲是一个大洲，而东亚、南亚、西亚不是独立的大洲，主要原因在于它们是构成更大地理实体——亚欧大陆（或者更广义地讲，欧亚大陆）的组成部分。要详细解释这一点，我们需要从几个层面来看：1. 大洲的定义：什么是“大洲”？“大洲”.............
为什么欧洲用马耕地而不是牛？

这个问题很有意思，细究起来，欧洲选择马匹作为主要的耕作动力，背后有着深厚的历史、经济、技术和社会原因。并非是因为牛“不行”，而是马在特定历史时期和地理环境下，展现出了更强的优势。首先，我们要明白，在漫长的农业历史中，牛和马都曾被广泛用于耕作。但当我们谈论“欧洲用马耕地而不是牛”，其实更多是指欧洲在中.............
为什么欧洲铁路大多是低站台，而国内的新建铁路和日本铁路都是高站台？

要聊欧洲铁路和国内、日本铁路站台高低不同的原因，这事儿得从好几个层面来看，不是一两句话能说完的。这背后，既有历史的沉淀，也有技术、运营和经济的考量。欧洲铁路的低站台：历史的烙印与灵活性的考量欧洲铁路系统普遍使用低站台，这首先跟他们的铁路发展史有很大关系。早期铁路的设计理念：欧洲的铁路兴起于1.............
为什么欧洲足坛一些长期战绩不佳的球队会一直有球迷？

欧洲足坛那些长期徘徊在中下游、甚至屡次降级的球队，依然拥有庞大且忠诚的球迷群体，这背后其实隐藏着比赢球更深层次的东西。我跟你聊聊，这究竟是怎么回事。首先，得从“历史与传承”说起。很多欧洲的足球俱乐部，特别是那些老牌球队，他们的历史可以追溯到上百年，甚至更久。足球在欧洲不仅仅是一项运动，更是一种文化，.............
为什么欧洲和日本的大家族都有族徽或家徽却没有听说过中国的大家族有呢？

欧洲、日本的大家族拥有族徽（Heraldry）或家徽（Mon/Kamon）而中国大家族相对而言不那么为人所知，这背后有多方面的原因，涉及到历史发展、社会结构、文化传统、政治制度以及信息传播方式的差异。下面将详细阐述这些原因：一、欧洲的族徽（Heraldry）：起源、功能与演变起源与发展：欧.............
为什么欧洲人口不过百万的中小城市都能够修建地铁？

要说欧洲人口不过百万的中小城市都能修建地铁，这说法有些过于绝对了，但确实有不少相对小型的欧洲城市拥有地铁系统，或者至少是类似地铁的轨道交通。这背后的原因，其实是多种因素综合作用的结果，而不是单一的某个原因。我试着从几个层面来给你掰扯掰扯。首先得明白一个基本道理：地铁这玩意儿，修起来真是贵到没朋友。单.............
为什么欧洲有些国名、地名，在中文中的音译发音，反而比地缘上更近的英语发音来得更接近其本土语言的发音？

这个问题很有意思，也触及了语言翻译和文化传播中一些非常有趣的现象。简单来说，这背后涉及到了历史渊源、语言本身的特点、以及早期翻译者的选择和惯例。并非所有欧洲国名、地名都这样，但确实存在一些例子，中文音译似乎比英文更贴近原名。我们来详细拆解一下原因：1. 历史的维度：我们何时开始接触这些名字？ “.............
为什么欧洲古典建筑都发展出飞扶壁了就是没有发展出梁柱体系呢?非要到现代才出现？

欧洲古典建筑，尤其指的是哥特式时期，其最令人称奇的成就之一无疑是飞扶壁的出现。这是一种精妙的结构设计，将巨大的石造拱顶的侧向推力传递到外部的支撑结构上，从而使得教堂内部空间得以高耸、宽敞，并允许墙壁上开出巨大的彩色玻璃窗，营造出神圣而梦幻的光影效果。然而，你的问题非常敏锐，它触及了一个看似矛盾的现象.............
为什么欧洲不愿意接纳俄罗斯？

要说欧洲为什么“不愿意”接纳俄罗斯，其实这个表述有点笼统，因为欧洲各国的情况各不相同，对俄罗斯的态度也存在差异和演变。但总的来说，如果你指的是欧洲主流国家，尤其是欧盟和北约成员国，目前普遍存在对俄罗斯的疑虑、不信任甚至敌意，不愿意将其视为一个可靠的伙伴，更不用说“接纳”成一个更加紧密的共同体了。这背.............
为什么欧洲日韩没有发展起来互联网公司？

您提出的这个问题非常有趣且具有深度，因为它触及了互联网行业发展中一个重要的“反常”现象。事实上，欧洲和日韩确实是拥有发达的经济体和高科技产业的地区，但相对于美国和中国而言，它们在孕育出全球性、具有颠覆性创新的大型互联网公司方面确实显得有些不足。这并非意味着它们“没有发展起来互联网公司”，而是说其整.............