百科问答小站 logo
百科问答小站 font logo



就目前来看,生物和人工智能的结合意义如何? 第1页

  

user avatar   fung-steel 网友的相关建议: 
      

推荐一个网站,里面有很多人工智能解决生物学问题的例子,能了解算法能为生物学做什么:

homepage - Dream Challenges

Dream challenge是06年发起的挑战项目,每隔一段时间会给出open challenges,用算法解决生物学问题。一旦回答被采用,可以参加会议,颁发奖状,很多项目还有现金奖励。每期挑战都紧跟当下生物学热点,关注这个网站,能知道算法能研究哪些生物学问题。


DREAM challenge最早的项目是2007年,当时的项目关注最基础的生物学问题:

1. Genome-Scale Network Inference

2007年第一个项目关于如何用大肠杆菌基因芯片的转录组数据,构建基因相互关联的网络。打个比方,一个基因表达变化,其他基因跟着变化,像是水面投石产生波纹,如果一次投进多个石头,会产生波纹混乱的水面。如何根据混乱水面的动态变化(多个基因芯片的结果),找到哪些波从同一块石头投射出来。

2007年基因芯片正火热,如今RNA-seq基本代替基因芯片,然而当时出现的这些算法对目前基因调控网络的建立,仍有非常重要的意义。

2. Synthetic Five-Gene Network Inference

2007年这个项目是现在也很火的合成生物学。

在酵母里插入5个外源基因,同时对插入基因前后的酵母基因转录进行检测,研究插入外源基因后,如何影响酵母基因网络的表达。

3. Protein-Protein Interaction Network Inference

前两个工作都和基因转录表达有关,这个工作则和蛋白互作有关。预测47个蛋白的蛋白互作网络。

4. BCL6 Transcriptional Target Prediction

这个工作是找寻Bcl6的转录结合位点。出题方通过实验已经找到Bcl6的结合位点和非结合位点,从中挑出200个(隐藏Bcl6能否结合它们的信息),让参赛者通过模式识别预测,看预测结果和实验是否一致。


而2018年最新的opening challenge是这个:

Single Cell Transcriptomics Challenge

果蝇胚胎发育时,A细胞变成B,B变成C,细胞不断增殖分化。现在提供这些细胞的单细胞转录组数据,让挑战者预测每个细胞在发育过程中,是A,是B,还是C。

这个项目和单细胞RNA测序技术突破有关,目前单细胞RNA测序已经商品化,出了高通量的机器。

原理是:把组织消化成单细胞,单细胞吸入毛细管(溶液水相,含RNA反转录扩增的原料,以及带Barcode标签引物的珠子),珠子伴着细胞打入油相,一个细胞连一个珠子,包括一部分含反转录原料的溶液,被封闭在油滴里。

油相里裂解细胞,进行RNA反转录扩增,RNA扩增完,这个细胞所有转录组表达信息都跑到珠子上,还带有这个细胞特有的标签。最后上万个带有各自标签的珠子一起大量扩增测序,根据标签区分这些RNA表达信息来源于哪个细胞,一次测序能做一万个细胞。

既然单细胞RNA测序能快速普及,接下来需要分析数据,DREAM challenge顺势推出了这个挑战项目。

---

现在生物学测序成本越来越低,数据量越来越大,很多实验室不愁没数据,愁的是数据挖不出东西。

机器学习提供很多数据分析的思路和方法,和生物领域结合可以更好推动科研发展。同时很多机器学习算法,比如神经网络,遗传算法也都是从生物中得到灵感,才开发出来。

两个领域的结合,算是双赢。


---

ps: 我自己课题用神经网络做,实验验证下来 预测比较准。深感机器学习,特别是深度学习的重要性。

但深度学习依赖数据本身的数量和质量。

很多时候,由于数据维度不深或样本量不够,用复杂的算法容易出现过拟合;用简单的算法又会对样本特征描述不够,导致预测很差。

相信以后数据量多了,质量控制好了,深度学习的应用会越来越普遍。


user avatar   mengfankang 网友的相关建议: 
      

这时候就要展示出我曾经翻译过的一篇《Cell》文章了,文中中详述了机器学习对于生物学研究,特别是大数据时代,对于复杂的网络生物学的重要价值。文章我分成了两部分,第一部分主要讲了何为机器学习,第二部分主要讲了机器学习对于复杂网络生物学的研究价值,以及潜在的应用方向,主要包括四部分内容:疾病生物学、药物开发、微生物研究与合成生物学。

PS:吴边老师的实验室就在我所在的实验室楼上哦,我也经常看到我的导师和吴老师一起吃午饭。每周五我们Happy Hour活动的时候也能看到吴老师的身影,吴老师本身非常Nice,学术成果也是极佳,最近刚刚在《Nature Chemical Biology》发表了一篇文章。个人觉得如果感兴趣可以申请去吴老师实验室暑期实习。当然本身要具备一些计算生物学和蛋白质结构模拟的基本知识。

以下就是截取文章第二部分的内容,谈一谈机器学习对于网络生物学的重要价值。

疾病生物学

网络生物学可以帮助我们更好地理解疾病的复杂性。 传统方法依赖于疾病特定方面的识别和特征描述,例如疾病相关基因的发现,而网络生物学采取的是更加全面的方法,因此,网络生物学将为我们揭示更加全面的疾病表型驱动因素的信息。 网络生物学不是简单地识别潜在的生物标志物,而是让我们能够对疾病状态中至关重要的生物分子相互作用的网络和子网络进行描述。

在定义疾病的网络特定特征时,可以合理地使用机器学习算法来帮助理解和定义潜在的疾病机制。比如,可以使用来自诸如BioGRID来源的现有生物网络知识,探索与健康状态相比,不同生物分子之间的关系如何在疾病状态中发生变化(BioGRID是一个关于基因相互作用,蛋白质 - 蛋白质相互作用,化学相互作用,翻译后修饰的数据库)。从健康队列的数据开始,我们可以训练深度学习算法(例如,深度神经网络)来学习和定义健康状态的基本特征。训练后,我们可以将来自患者群体的数据提供给算法,并用于预测健康状态和疾病状态之间的差异等应用。

我们需要更好地了解疾病背后生物网络的复杂结构,以及这些网络的失调如何可能导致某种疾病状态。在这方面,胶囊网络(Capsule networks),可能具有很高的应用价值。胶囊网络涉及一种新型的神经网络架构,其中CNN被封装在相互连接的模块中。如前所述,CNN是处理多维数据的一种特殊的深层神经网络,例如网络生物学中发现的组学数据集。另一方面,胶囊网络是将深度神经网络表示为一组模块(胶囊)的代表,其允许以保持数据本身分层结构的方式来学习数据结构。这在图像数据分析中特别有用,因为它允许算法学习独立于图像视角的图像特征。

考虑到生物网络本质上是高度模块化的,胶囊网络已经可以成熟的应用于网络生物学和疾病生物学:胶囊网络为生物分子指定层,同时允许每一层与其他层相互作用。每个生物层可以被视为胶囊。横跨不同生物层产生的数据(例如转录组学,蛋白质组学,代谢组学)可以训练与每个胶囊相关的CNN从而独立地了解这些层中的特定性质。在胶囊之间应用动态路由(Dynamic routing)的前提将允许不同胶囊将任何其他胶囊的输出作为输入,从而使模型能够了解每个层之间的相互作用和依赖性这种方法将允许人们研究高度模块化的系统,如由基因,蛋白质,代谢物等组成的生物网络,并分析这些网络及其子网络的功能组织和相互作用在疾病状态如何被破坏。

我们并没有注意到胶囊网络的任何生物学应用,但它们的独特特征可以使我们能够解开和解决人类疾病的复杂性。 正如我们下面所描述的那样,胶囊网络和其他深度学习方法的成功实施将取决于适当大、高质量、注释良好的数据集的可用性。

药物开发

在药物开发中,我们迫切需要表征化合物的作用方式、识别药物的脱靶效应并开发有效的药物组合来治疗复杂疾病。 网络生物学以及机器学习算法已成功应用于这些领域,例如,网络模型和转录组学已被用于预测化合物的可能靶标。 然而,这方面仍然存在诸多挑战,特别是在缩小药物发开发中生物层次和化学层次的差异。 下面,我们重点介绍下一代机器学习算法将如何在网络生物学的背景下解决这些挑战并加速药物发现和开发过程。

来自药物治疗的多组学数据,以及存储在如dbGAP和GTEx Portal等存储库中的大量基因型数据,为利用机器学习生成综合网络模型带来了所需要的原始生物材料。从机器学习的角度出发,思考如何将这些网络模型与生化上可获得的丰富信息结合起来是及其令人激动的。

多任务学习神经网络(Multi-task-learning neural networks)非常适合这种类型的应用。这类应用的特点是给定的系统中包括横跨多种数据类型(例如,表达谱,化学结构)、包含多种标签(例如对药物,疾病状态的响应)的数据特征。典型的机器学习应用程序定义了一个单一的任务,其中模型被训练以预测单个标签。如果使用相同的输入数据学习新的标签,则新的模型会被训练出来。也就是说,学习任务被视为独立事件。但是,在某些情况下,从一个任务中学习到的重要信息,可以用于另一个任务的学习过程。多任务学习的基本思想是同时共同学习一组任务。单任务学习的目标是优化单个任务的性能,而多任务学习的目标是优化所有任务的性能。多任务学习通过多种表征来学习整个系统,从而一次性学习多项任务。

多任务学习同时学习多个相关任务,并且平衡任务之间的差异和相似性。这种方法基于这样一个前提:学习相关联的概念可以强加学习模型的一般化,提高性能的同时也避免了模型的过度拟合。重要的是,多任务学习神经网络可以整合或合成来自不同来源和分析方法的数据。因此,多任务学习可以同时考虑调控网络的作用关系、来自多组学实验的数据、高通量药物筛选数据、生物活性分析以及药物治疗的表型观察等多个层面来预测给定药物的生理反应及其毒性副作用。

通过将化学实体的结构化数据结合起来,我们有可能利用多任务学习来弥合药物发现的生物和化学方面的差异。例如,可以使用简化的分子输入-行输入系统(Simplified molecular-input line-entry system, SMILES)这种药物表示方法作为模型输入数据。 SMILES表示法将化学物质的结构转换为线性文本串,可以很容易地将其纳入机器学习应用程序中。将SMILES文本串、不同化合物的靶标以及其转录和毒性的相关数据提供给多任务学习算法,可以用来预测新化合物的潜在副作用或可能靶标。此外,我们还可以使用自然语言处理技术,如词嵌入技术,学习基于SMILES的药物的特定属性,这样一来不仅可以对多任务学习进行补充,同时可以帮助我们在随后的药物设计工作中加入或去除某些化合物的关键特性和/或结构特征。

这些机器学习方法也可以用来研究和利用药物化合物的“肮脏”。大多数(如果不是全部)化合物对人体的影响超过其治疗的目的,并且这些影响以剂量和网络依赖的方式变化。多任务学习神经网络非常适合从各种数据类型(例如,不同药物的药代动力学和药效学性质,来自这些药物的细胞筛选的多组学数据等)进行学习,以便更好地理解和预测药物的输入—输出关系(例如,各种化学实体的生物物理和结构性质,它们的分子靶标以及它们诱导的生物学反应)。胶囊网络模型可用于研究复杂疾病,预测出治疗疾病时可能需要抑制的多个靶标。这些预测可以被多任务学习用来识别“肮脏”的化合物,或者对此类化合物进行组合以更好的作用于靶点。因此,我们预见多任务学习与其他深度学习方法结合起来,将有助于解决药物发现中的生物和化学数据整合问题,并创建多层预测网络模型,推进药物的合理化设计。

微生物研究

人类微生物组包括细菌、古细菌、病毒、真菌、原生动物。这些微生物生活在人体表面或人体内。 每个身体部位的微生物的多样性是惊人的,现在人们认为动态且相互关联的微生物群系统在健康、疾病和发育中起着重要的作用。 人类微生物群的宏基因组数据大量涌现,但将这些数据变得更具有生物学和临床意义仍然是一项重大挑战。 这也为利用下一代机器学习算法力量的网络生物学提供了极好的机会。

不同身体部位的微生物和宿主细胞通过产生、交换和利用小生物分子(主要是代谢物)相互作用。 这些相互作用产生了细胞内、细胞间、物种间和跨生物界的代谢网络。 这为任何给定的微生物群—宿主系统创造了基于共享代谢物产生元代谢网络模型(Meta-metabolic network model)的机会。 这些模型可用于绘制、剖析和理解多种微生物与宿主之间的相互作用,以及预测宿主与其寄生微生物之间可能产生的协同作用和生物质关系(Synergistic and dysbiotic relationship)

目前为止,我们已经为许多微生物模式生物(例如,大肠杆菌)以及人类细胞构建了代谢网络模型。这些模型提供了代谢物如何通过生物化学反应在给定细胞中相互作用的全局图,我们可以对其进行利用、修改和整合,创建跨越多种生物体或细胞类型的元网络(Meta-networks)。不幸的是,由于数据的稀疏和微生物的数据测定方面的问题,我们对许多微生物中的代谢网络的理解是有限的或根本就不存在。这对于元代谢网络模型的产生提出了重大挑战。这方面的问题也有解决方法,那就是迁移学习(Transefer learning)。与多任务学习相比,迁移学习旨在从学习不同但相关的任务时获得的知识中进行学习。不同的生物系统具有许多相似特征,这表明在一个系统中生成的数据可以在一定程度上应用于另一个系统。所以这样一来,真正的挑战变成了如何最好地将在给定系统中学到的知识应用于只存在有限数据的新型系统中。

迁移学习可以根据其他系统的观察结果对新系统进行推断和预测。 具体而言,迁移学习使人们能够将用于学习特定任务的模型重新定位为学习不同但相关任务的起点。迁移学习背后的概念很容易适用于生物学中的问题。 以代谢网络为例—生化化合物的不变性(即大肠杆菌中的“葡萄糖”与炭疽杆菌中的“葡萄糖”为相同的有机化合物)为知识的归纳迁移提供了基础。 这意味着在模式生物体中优化的机器学习模型可以重复使用或重新用于在数据稀缺的不同生物体中。

这为研究微生物群落的代谢复杂性开辟了一条令人兴奋的途径,在这里可以“迁移”或使用来自经过模式物种(如大肠杆菌)的代谢网络上的学习信息,应用于未被研究的物种,从而加速我们对微生物群体中多种物种的理解。与迁移学习类似,我们可以概念化一种机器学习模型,这种模型可以利用在较简单系统上获得的知识来理解更复杂的系统。通过这种方式,人们可以建立微生物群与宿主之间的代谢相互作用关系的综合模型。这些模型可以在横跨健康和疾病状态的生物数据集上进行训练,并用于预测特定物种的消失、引入或生长如何破坏或增强生态系统的代谢平衡,或者此物种是否会产生促进健康的有益代谢物,或损害宿主组织的毒性代谢副产物。值得注意的是,这些先进的机器学习技术和网络生物学方法不一定限于人类健康应用—它们可以很容易地扩展到农业、环境和工业环境中的微生物群研究中。

合成生物学

合成生物学一个重要的研究方向是利用分子元件创建合成基因网络,并利用这些基因线路重编程细胞,赋予它们新的能力。然而,合成基因线路的设计和构建远非直截了当—基因线路的早期版本很少能够按照预期工作,通常需要数周或数月的时间进行反复调谐。基因线路设计的过程主要受到两点的限制:第一是我们对基因线路核心设计原理的理解有限,第二点是缺乏多元化、表征详细的优质元件。如今合成生物学的应用范围扩展到了更大的领域(如健康,农业,能源,环境等),所以我们越来越需要让合成生物学的基因线路设计更加直接和可预测,并且可以进一步提高时间效率。这为深度学习方法创造了绝佳机会,我们将在下面重点介绍。

合成生物学基因线路存在多个调控层次。在基础水平,线路中存在单独的分子组分,例如基因,启动子,操纵子,终止子和核糖体结合位点。 在中间水平,存在由多个组分组成的调控单元,例如基因—启动子对。 在高级水平,调控单元之间通过相互作用产生特定的基因线路,例如,两个基因—启动子对可以排列在相互抑制的网络中产生双稳态开关。在每一个层次,我们都可以用序列代表来定义某一水平的调控方式、组成性关系(例如,空间和方向的排列)、以及影响功能的生物分子、分子组分和/或子组分之间的相互作用。

我们可以生成、测序和功能表征大量且多样化的分子元件,调节单元以及合成基因线路,为深度学习方法创建适当的训练数据集。 功能表征可以包括量化RBS的强度、启动子—基因对的Hill系数、以及基因线路的响应时间等等。 由于深度学习方法在很大程度上依赖于大量数据,因此我们可以将机器与基于板的分析(自动化)结合到实验过程中,开发和实施快速的实验工作流程,对元件、调控单元以及基因线路进行表征。

我们可以设想使用测序和功能表征数据来产生多种生物调控层次的基因线路预测模型。为此,可以开发一个多阶段的深度学习模型,这种模型可以从嵌入有生物序列的学习模型到嵌入有调控模体和线路构建的学习模型中学习每一种基因线路组织方式的的本质。例如,可以利用递归神经网络来编码不同元件的序列,其中序列可以被视为特定的“句子”,其允许模型学习特定的“句子属性” 包括样式,语法和主题,这些序列等同于元件本身的序列信息(启动子,结合区和终止子的DNA序列)。此外,卷积神经网络可用于编码调控单位和合成基因线路拓扑结构上的特征。我们可以训练算法学习不同元件的序列—功能关系,以及调控单位和合成基因线路的组成—功能关系。利用这种方式,该模型可以从调控(网络控制)角度和拓扑(网络架构)角度学习合成基因线路的关键性质。

生成的深度学习模型可用于分析合成生物学的基本设计原则。相应地,也可用于产生性能增强或功能新颖的元件(例如,诱导型启动子,操纵基因等),从而提高可用于合成生物学设计工作的分子元件的数量和多样性。深度学习模型还可用于设计和识别新的调控单元和合成基因网络。例如,对于给定的期望功能,该模型可用于生成一组产生所述功能的基因线路。我们将这种方法与数学模型相结合,可以非常迅速地对数千个潜在的线路进行迭代。其中最有价值的候选线路可以进行合成,测试和进一步验证。这方面的进步将有助于合成生物学的快速设计,促进复杂的合成基因线路在生物医学领域的广泛应用。

挑战与未来展望

从上面的讨论中我们可以清楚地看出,网络生物学与下一代机器学习的交叉研究拥有着巨大的机遇。 但是,还有很多艰难的挑战需要我们客服。 其中最关键也最重要的是大型数据集。 深度学习方法和其他下一代机器学习方法对于数据是及其饥渴的。 我们生活在生物学和医学的大数据时代,我们在生物的不同层次收集大量的数据集。 尽管从生物系统获取的数据可能非常复杂,反应生物系统的不同方面的变量可能包含有数千个,但是,大多数生物数据集的数量级仍然太小,无法深度学习算法的要求。

当然,我们有很多选择来应对这一挑战。首先是收集大型且注释良好的数据集。多组学数据集可能过于昂贵,因此我们可以考虑替代方案来补充或补足这些数据。由于许多深度学习算法已经成功地应用于诊断背景下的成像数据,所以增加利用成像数据(包括视频)来表征细胞的形态或表型变化(例如响应药物治疗)将会一种不错的选择。我们可以通过建立具有荧光或比色读数的细胞系来来表征各种治疗方法或环境扰动下的细胞反应。许多生物数据集小而稀疏的特性也给机器学习研究人员带来了一个有趣的挑战—即专门设计来处理此类数据集的新一代深度学习算法。

另一种可能的选择是生成具有实际数据属性的计算机数据。对于深度学习背景下的图像分析,研究人员通常使用生成对抗网络(Generative adversarial networks, GAN)来完成,该方法可以创建与训练数据类似的数据集。 GAN是深度神经网络架构,由两个互相对立的神经网络组成—一个是生成模型(Generative model),用于产生与训练数据集分布相似的新数据,另一个是区分模型(Discriminative model),即对手,用于评估新数据并确定它是否属于实际的训练数据集。两个神经网络之间的竞争会逐渐的改进算法,直到生成的数据集与训练数据集无法区分为止。这种机器学习方法可以很容易地在网络生物学的多组学数据集找到应用的价值。一个简单的例子就是使用GAN生成更大的基因表达数据集,这些数据集将有助于生成转录调控的预测模型。

大多数下一代机器学习模型的“黑箱”性质为生物应用带来了新的挑战。从生物学的角度来解释给定模型的输出通常是非常困难的,从而限制了该模型在生物机制和网络架构分析中的效果。当然,情况并非总是如此,特别是对于更简单的机器学习方法。例如,稀疏线性回归模型(Sparse linear regression model,比如elastic net, lasso and ridge regression)可以用来学习每个特征相对权重的最佳系数。在这种情况下,模型系数可以告知研究人员模型中每个特征的相对“重要性”。然而,对于更先进的机器学习方法,例如深度神经网络,训练过程对输入数据的处理方式使得我们难以确定特征的相对重要性或特征是否与输出结果存在正相关或负相关。我们迫切需要开发出一种手段,将深度学习的“黑箱”转变为在生物学角度富有意义且可解释的“白箱”。

在揭示和利用生物复杂网络的方向我们还有很长的路要走 ,机器学习本身还远未实现其在生物研究领域的潜力。 尽管如此,利用机器学习更好的理解复杂生物网络的领域的发展让网络生物学研究可以拥有一个令人激动的未来。

参考资料:Camacho, Diogo M., et al. "Next-Generation Machine Learning for Biological Networks." Cell (2018).




  

相关话题

  机器学习为生物学和医学研究带来了哪些改变?能解决哪些医学难题? 
  “核冬天”的理论有几成科学性?如果它真到来了,人类可能存活下去么? 
  目前 AI 在疾病的诊断和治疗上,有哪些成功的应用? 
  未来十年,AI 将可能与哪些产业结合应用?产生怎样的价值? 
  如何看待杨辉 Cell 文章被全球二十个实验室质疑无法重复,杨辉回复已有重复再遭反驳?实际情况如何? 
  为什么大多数生物是两性的? 
  为什么有些人怕软体动物? 
  GPT-3 到底花了多少钱?为什么有的网站显示 1200 万美元,有的显示 460 万美元呢? 
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法,两者分别有什么优缺点? 
  现在比较成熟的人工智能产品都有哪些?价格贵不贵? 

前一个讨论
如何看待杨超越参加英雄联盟7周年表演赛?
下一个讨论
在有丝分裂前期,动粒和微管正极结合,那微管是怎么延长,推动染色体达到赤道板的?





© 2024-12-25 - tinynew.org. All Rights Reserved.
© 2024-12-25 - tinynew.org. 保留所有权利