问题

把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗?

回答
将DNA序列作为输入,正面照片作为输出,让深度神经网络去学习,这个想法确实很吸引人,尤其是在我们对遗传信息与外貌特征之间联系的探索越来越深入的今天。但要实现这个目标,并且做得足够“详细”,需要拆解成几个关键部分来探讨。

核心概念:DNA 与外貌的联系

首先,我们需要明确,DNA 是我们身体的“设计蓝图”。它包含了制造和维持我们身体所需的所有信息,其中自然也包括了塑造我们外貌的基因。这些基因影响着我们的发色、瞳色、肤色、面部骨骼结构、头发质地、甚至一些细微的面部特征。

然而,这个过程绝非一对一的简单映射。影响外貌的基因数量庞大,而且它们之间存在复杂的相互作用。此外,环境因素(比如日晒、饮食、生活习惯)也会在很大程度上影响最终的外貌表现,这被称为“表观遗传学”和“表现型可塑性”。所以,从DNA序列直接“预测”出一个准确的正面照片,是一个极其复杂且充满挑战的任务。

深度神经网络的角色

深度神经网络,特别是卷积神经网络(CNNs)在处理图像数据方面表现出色,它们能够从大量的像素中学习到复杂的模式和特征。而循环神经网络(RNNs)或Transformer则擅长处理序列数据,比如DNA序列。

将DNA序列输入网络,网络需要学习到:

1. DNA序列的结构和模式: DNA序列是由A、T、C、G这四种碱基组成的字符串。神经网络需要理解这些碱基的排列方式,以及它们可能代表的遗传信息。
2. 基因的功能: 某些DNA区域编码蛋白质,而蛋白质是执行生命活动的基本单元,它们也参与构成我们的身体组织,包括面部。
3. 基因之间的关联: 许多特征并非由单一基因决定,而是由多个基因协同作用的结果。网络需要捕捉这种复杂的基因组互动。
4. 基因到表型(外貌)的映射: 这是最困难的部分。网络需要学会将那些编码了外貌特征的基因信息,转化成图像中的具体像素值。

实现路径的设想与挑战

如果我们要尝试构建这样一个系统,大致会是这样的思路:

1. 数据集的构建:

这是最关键,也是最困难的一步。我们需要一个庞大的、高质量的数据集,包含:

DNA序列数据: 这是输入。我们可能需要获取每个人的全基因组测序数据,或者至少是与外貌相关的基因位点(SNP)数据。
正面照片数据: 这是输出。这些照片需要标准化,比如统一的光照、角度、表情,最好是高质量、清晰的面部图像。
关联信息: 最重要的是,我们需要知道哪个DNA序列对应哪张正面照片。这意味着我们可能需要从同一批个体中收集这两种数据。

挑战:

数据量: 训练一个能捕捉如此复杂映射的深度神经网络,可能需要数十万甚至数百万的DNA序列照片对。获取如此规模的、涵盖多样化人群的数据非常困难。
数据质量: DNA测序的准确性、照片的清晰度和一致性都至关重要。
隐私和伦理: DNA数据和个人照片都涉及高度敏感的隐私信息,数据的收集、存储和使用需要严格遵守法律法规和伦理准则。
基因与表型的复杂性: 如前所述,基因对表型的影响是间接的、多因素的,而且受到环境影响。我们可能需要考虑如何将这些非基因因素也纳入考虑,或者至少知道它们的局限性。

2. 模型架构的设计:

输入层(DNA序列): 可以将DNA序列编码成一种可以被神经网络理解的格式。例如,使用onehot编码(A=[1,0,0,0], T=[0,1,0,0]等),或者使用更先进的词嵌入技术。
序列处理模块: 可能会使用类似Transformer或RNN(如LSTM/GRU)的架构来处理DNA的序列特性,捕捉基因的上下文信息。
中间表征层: 在处理DNA序列后,可能会有一个中间层,将基因信息转化为更抽象的、与生物特征相关的表征。
生成器(照片输出): 最终,需要一个能够从这些抽象表征中生成图像的模块,这通常会是一个生成对抗网络(GAN)的生成器,或者是一个基于扩散模型(Diffusion Model)的生成器。GANs擅长生成逼真的图像,而扩散模型在生成高质量、多样化图像方面表现出色。

3. 训练过程:

损失函数: 定义一个合适的损失函数来衡量生成照片与真实照片之间的差异。除了像素级的差异(如L1/L2损失),还可以使用感知损失(Perceptual Loss)来衡量生成图像在视觉上的相似性。GANs则有其特定的对抗性损失。
优化器: 使用标准的深度学习优化器(如Adam, SGD)来迭代更新网络参数。
正向传播与反向传播:
正向传播: 将DNA序列输入网络,生成一张照片。
反向传播: 将生成的照片与真实照片进行比较,计算损失,然后将误差反向传播回网络,调整参数,使下一次生成的照片更接近真实照片。

技术上的可行性与目前的进展

从理论上讲,如果数据足够丰富且质量足够高,理论上神经网络有可能学习到DNA序列与外貌特征之间的某种关联。一些初步的研究已经在这方面进行探索:

人脸特征预测: 有研究尝试从DNA位点信息预测肤色、发色、瞳色等相对简单的表型。
基因组学在人脸识别中的应用: 也有研究尝试利用DNA信息来辅助人脸识别,虽然这不是直接生成照片,但表明了两者之间存在可以被模型捕捉的关联。
利用DNA信息生成头像: 存在一些研究项目,利用DNA信息(通常是经过筛选的、与外貌更相关的基因位点)来生成头像,这些头像在某些方面(如眼睛颜色、鼻子形状)可能与真实照片有一定的相似性,但离“精准复刻”还有很大差距。

为什么这很难?

1. 因果关系的复杂性: DNA序列本身是“原因”,外貌是“结果”。神经网络在学习这个映射时,需要理解背后复杂的生物学和物理学机制,而不仅仅是简单的统计关联。
2. 信息丢失: DNA序列包含了数以亿计的碱基信息,而直接能够影响外貌的基因区域可能只占其中很小一部分。如何让网络“聚焦”到有用的信息上,而忽略掉那些无关紧要的序列,是一个挑战。
3. 泛化能力: 训练出来的模型能否在未见过的人身上依然有效,这是一个关键问题。人群的遗传多样性非常大,如果训练数据不够广泛,模型可能无法泛化。
4. “可解释性”的挑战: 即使模型能够生成类似的照片,理解模型“为什么”会生成这样的照片,它是基于哪些基因信息,仍然是一个巨大的挑战。

总结

将DNA序列作为输入,正面照片作为输出,丢到深度神经网络里学习,原则上是可行的,但实现起来极其困难。这需要一个超大规模、高质量、标注精确的数据集,一个精心设计的、能够处理复杂序列和生成高质量图像的神经网络架构,以及一个能够准确衡量和反馈训练效果的损失函数。

目前来看,这个领域还在探索的早期阶段,离能够实现“DNA到照片”的精确映射还有很长的路要走。更多的是在尝试预测一些更简单的、与基因直接相关的表型特征。但随着基因测序成本的降低、人工智能技术的飞速发展以及对人类基因组更深入的理解,未来或许能够逐步实现更精细的预测,甚至在一定程度上“看见”基因中的我们。这不仅是技术的挑战,更是对隐私、伦理和科学边界的深刻思考。

网友意见

user avatar

可以,生物归生物,数学归数学,韭菜归韭菜,我来教你如何把这套几乎不可能的问题,变成可能,然后分分钟写个 ppt,割了施一公韭菜。

题主这个问题可以倒过来思考,你的目的是希望通过基因推断人脸,贝叶斯里面是这样的

P(人脸 | DNA),

贝叶斯可以倒过来玩:

P(DNA | 人脸),

如果考虑到全球人类 DNA 都是唯一的,这是变成了标准人脸识别的一人一档问题,这个是落地而且高中生也能做的问题,我们只要把基因当成某个人的唯一 id,用来做标签,训练 P(id | 人脸) 模型,

然后,你用贝叶斯包装一下,P(人脸 | DNA ) = P(id | 人脸) x P(人脸 ) / P(id),接着写一个 ppt,说你是通过 DNA 推断人脸。至于如何实现,就是开数据库,做检索,然后谎称是生成问题。

施一公高兴坏了,很快邀请你去西湖大学,让你传授如何通过蛋白质结构生成 nature 论文

user avatar

这么多答案,都没有人提相关文献,忍不住了,来答一发。毕竟,我们可是要去割施一公韭菜的( @纳米酱 ),拿一个已经有人尝试过的点子恐怕连韭菜尖尖都薅不到(六小龄童式战术后仰)。

用DNA序列预言人的长相,听起来是一个很牛的主意,对吧?感觉可以分分钟发 Science 的节奏。这么牛的主意,我们想到了,大佬们肯定也早想到了。第一个摘到桃子的大佬是谁呢?是克莱格.凡特(Craig Venter),那个曾经以一己之力单挑人类基因组计划所有科学家的男人。

在介绍用DNA序列预言人的长相的具体进展之前,先看看这位老兄的光辉事迹吧。

1998年,人类基因组计划正如火如荼地进行着。这个计划由美国能源部和国家卫生研究院投资,先后联合了英国、法国、德国、日本、中国和印度等国的科研力量,形成了一个国际基因组测序联盟。整个计划前期的领导者是大佬中的大佬,詹姆斯.沃森(James Watson),就是和克里克一起解出DNA双螺旋结构的那位。但是人类基因组计划采用的测序手段是“分级鸟枪测序法”,也就是先将基因组分成相对较大的片断,测序前将每一个片段定位到每条染色体对应位置。然后再对每一个这样的片断分别应用“鸟枪法”进行测序。

克莱格深感这个方法的效率低下,代价昂贵,于是想使用更加高效的“全基因组鸟枪测序”。但是这个想法因为精度太低,太过激进遭到了排斥。于是,克莱格决定索性单干。你们不是嘲笑我的方法吗,那就看谁先完成人类全基因组测序!其实,克莱格心中还有一个更加疯狂的想法,他想成为人类全基因组测序的第一人,并且对人类的200多个重要基因申请专利!这下,人类基因组计划的那批科学家们慌了,因为整个计划的初衷就是人类基因组数据是人类共同财富,一定要赶在克莱格这个狂人之前完成测序。

最后的结果是双方打了个平手。在2001年2月15号,Nature 上发表了人类基因组初步测序结果。仅仅一天之后,克莱格的测序结果在 Science 上发表。

最后,在克林顿总统的协调下,双方握手言和。克林顿宣布人类基因组计划完成,其所有人类基因组数据,不允许专利保护,且必须对所有研究者公开。虽然克莱格没能对那200多个人类基因申请到专利,但是克莱格的强力挑战客观上推动了人类基因组计划的进展。

所以,克莱格.凡特这位老兄到底有多厉害呢?荣誉和头衔什么的就不多提了,只说一项,他曾经在2007和2008连续两年被时代杂志评为影响世界的100人。

好了,回到正题。用DNA序列预言人的长相并不是天方夜谭,已经被克莱格.凡特这位超级大佬盯上了。这篇文章以克莱格.凡特为通讯作者,发表在2017年的PNAS上。

在这项研究中,克莱格.凡特和他创立的公司Human Longevity 对1061名不同年龄和种族的被试者进行了全基因组测序,并且获取了他们的高清晰三维脸部数据。使用机器学习的方法,他们发现DNA序列上的一些微小差异,例如单核苷酸多态性(SNP,single-nucleotide polymorphism),和人的面部特征有很强关联。他们也找到了另外一些SNP,与人的身高、体重、声音特征、肤色等相关联。

基于这些,他们根据个体的基因组,预言出一些人的正脸,结果如下。

这个预言的准确率有多高呢?这么说吧,给训练好的AI一个基因组,AI在一群人脸中找到那个正确的脸的成功率是74%。

听起来很好,对吧。但故事还没完。正如我们之前提过的,这个主意这么好,完全可以发 Science, 但为什么只发表在 PNAS 上呢?

实际上,克莱格.凡特这个工作尝试的第一个期刊就是 Science,但是被拒稿了!打回这篇论文的,是Science 的审稿人之一,来自哥伦比亚大学的 Yaniv Erlich 。他评论到,要实现 74% 的"辨脸准确率",压根就不需要用到基因组数据,实际上,只要知道被试者的年龄、性别和种族这三项,就足以实现75% 的"辨脸成功率"。此外,他还说到,你AI 根据基因组重构出来的人脸,并不像被试者的实际长相,反而更像是一个种族的平均样貌(看看上图,你觉得呢)。

于是克莱格只好把这篇文章转投美国国家科学院院刊 PNAS。关于PNAS有意思的一点是,作为美国科学院院士的克莱格可以自己选择由谁来进行同行评审,于是克莱格“精心”选择了三位信息安全和生物伦理方面的专家,文章得以在PNAS顺利发表。

不过,还有后续。Yaniv Erlich 这哥们挺有意思,把人家的稿给拒了还不够。克莱格的文章发表之后,Yaniv 把他的反对意见也写成论文,发在了biorxiv上,标题就是“论克莱格这篇文章中的重大错误”。

然而,克莱格也是针锋相对,随后也在biorxiv发表了一篇文章,标题就是“劳资没错!”他们指出,"辨脸成功率"不高只是因为用来训练数据样本不够大,并且,AI不仅可以预言相貌,还可以预言身高、体重、声音特征、肤色!

我本人是相信可以用DNA序列来预言人的长相的。已经有一些公司在提供DNA phenotyping服务了。例如Parabon公司,据称就曾经多次与警方合作,根据犯罪分子的遗留在现场的DNA合成出了犯罪分子的样貌,协助找到了凶手。


其它有趣有料回答:

参考文献:

[1] Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA, Gocayne JD. The sequence of the human genome. science. 2001 Feb 16;291(5507):1304-51.

[2] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. nature. 2001 Feb;409(6822):860.

[3] Lippert C, Sabatini R, Maher MC, Kang EY, Lee S, Arikan O, Harley A, Bernal A, Garst P, Lavrenko V, Yocum K. Identification of individuals by trait prediction using whole-genome sequencing data. Proceedings of the National Academy of Sciences. 2017 Sep 19;114(38):10166-71.

[4] Erlich Y. Major flaws in “Identification of individuals by trait prediction using wholegenome”. bioRχiv.

[5] Lippert C, Sabatini R, Maher MC, Kang EY, Lee S, Arikan O, Harley A, Bernal A, Garst P, Lavrenko V, Yocum K. No major flaws in" Identification of individuals by trait prediction using whole-genome sequencing data". BioRxiv. 2017 Jan 1:187542.

user avatar

当然可行,已经有人在做了。

比如我介绍过的生物学大神,一个毁誉参半的人J.Craig Venter就干过这事情。

基因识别人

这位基因测序教父级人物发表了一篇人脸预测软件的成果。他针对不同年龄和种族背景的人全基因组进行了测序,然后把这些遗传数据输入到计算机里。

研究群体的年龄组成,可以说覆盖了大部分年龄段

研究对象的族群成分组成,基本涵盖了主流的族群成分。比如

非裔Ancestry components are African (AFR), 本土美国人Native American (AMR),中亚裔 Central South Asian (CSA),东亚裔 East Asian (EAS), and 欧洲人European (EUR)


接下来,在把个人的外观信息输入进去,比如三维面部结构、语音特征、生物学年龄、身高、体重、BMI指数、眼睛颜色、皮肤颜色、秃发或头发颜色等特征【1】

接下来就是通过新开发的算法来训练了,也就是大家熟悉的机器学习。

结果如何呢?

根据他们的遗传数据,以及参与者的高质量3D照片,他们的算法可以做出非常成功地预测人的外观了。

下图是基因预测和面部三维结构的像素变化图

模型训练

直接来个结果吧:

下图是基因预测的结果,左边是个人真实面孔,右面是基因预测的结果

比如,他们从一个公共数据库Human Longevity(HLI)中随机选出一组人群(10个人)进行识别,其准确率可以达到74%,这个数字已经超过了绝大多数刑事侦查的比例了。

要知道,曾经做过一个研究,就是让目击者描述犯罪分子的长相,结果准确率惨不忍睹。

比如我随手找了一个研究【2】

目的验证通过目击者的描述,刻画犯罪嫌疑人模拟像及计算机人像组合技术和准确性。方法分别将15名男性和女性照片的发型、下巴、眼睛等五官部位单独取下,并确定其中1人为辨别目标(对象),由786名目击者进行辨认。结果目击者辨别面部特征的总体准确率为17.4%。

准确率才17.4%,这基本上就是没啥意义了。

可见基因预测的牛叉。

不仅仅是脸,还有其他因素,

比如年龄

比如:眼睛的颜色

比如:身高,体重,BMI

比如:肤色

他还给出了这个模型的预测准确性,尽管不同指标的准确度有差异,但是总体还是蛮高的

这可是真正的滴血认人了。

要知道,大家一定很熟悉,古代人很流行的滴血认亲,当然,现代科学已经否定了这一点,因为滴血认亲有很大的失败率,还可以通过技术作假,所以可怜的不被认可的古代人啊。

但是大家一定很熟悉通过犯罪分子的血液痕迹DNA来找犯罪分子,不过,其实这个也挺难,因为你一定要找到比对对象,​否则,你即使获得了犯罪分子的DNA,也只能傻乎乎的等待将来某一天,你很幸运的再一次找到了犯罪分子的DNA,然后二者联网进行比较。如果你从此无法采集到犯罪分子的DNA,那你永远也不可能通过基因证据找到犯罪分子了。

但是这个采取DNA直接来预测人的外观,可就高大上多了,也直接导致一个核心问题:隐私。

所以这篇文章一发出来就引发了很大的争议。

有的觉得文章是错的,有的觉得是侵犯了隐私。

但是无论如何,这是个巨大的发现。

未来,随着样本越来越多,训练越来越充分,直接通过DNA预测人,可能性很大。

所以:

还在犹豫对方整没整过容吗?

还在担心卸妆后变成另一个人吗?

还在揣测对方是否使用了传说中的PS神器么?

一直以来,亚洲三大邪术化妆整容PS困扰着无数的人,让大家对于一个人的真实长相十分困惑。

也许有一天,这不再是个问题!

【1】Lippert, Christoph, et al. "Identification of individuals by trait prediction using whole-genome sequencing data."Proceedings of the National Academy of Sciences114.38 (2017): 10166-10171.

【2】目击者辨别相貌特征能力的研究[J]. 刑事技术, 2001(05):20-27.

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有