百科问答小站 logo
百科问答小站 font logo



把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗? 第1页

  

user avatar   lykquitphy 网友的相关建议: 
      

可以,生物归生物,数学归数学,韭菜归韭菜,我来教你如何把这套几乎不可能的问题,变成可能,然后分分钟写个 ppt,割了施一公韭菜。

题主这个问题可以倒过来思考,你的目的是希望通过基因推断人脸,贝叶斯里面是这样的

P(人脸 | DNA),

贝叶斯可以倒过来玩:

P(DNA | 人脸),

如果考虑到全球人类 DNA 都是唯一的,这是变成了标准人脸识别的一人一档问题,这个是落地而且高中生也能做的问题,我们只要把基因当成某个人的唯一 id,用来做标签,训练 P(id | 人脸) 模型,

然后,你用贝叶斯包装一下,P(人脸 | DNA ) = P(id | 人脸) x P(人脸 ) / P(id),接着写一个 ppt,说你是通过 DNA 推断人脸。至于如何实现,就是开数据库,做检索,然后谎称是生成问题。

施一公高兴坏了,很快邀请你去西湖大学,让你传授如何通过蛋白质结构生成 nature 论文


user avatar   wang-teng-15-9 网友的相关建议: 
      

这么多答案,都没有人提相关文献,忍不住了,来答一发。毕竟,我们可是要去割施一公韭菜的( @纳米酱 ),拿一个已经有人尝试过的点子恐怕连韭菜尖尖都薅不到(六小龄童式战术后仰)。

用DNA序列预言人的长相,听起来是一个很牛的主意,对吧?感觉可以分分钟发 Science 的节奏。这么牛的主意,我们想到了,大佬们肯定也早想到了。第一个摘到桃子的大佬是谁呢?是克莱格.凡特(Craig Venter),那个曾经以一己之力单挑人类基因组计划所有科学家的男人。

在介绍用DNA序列预言人的长相的具体进展之前,先看看这位老兄的光辉事迹吧。

1998年,人类基因组计划正如火如荼地进行着。这个计划由美国能源部和国家卫生研究院投资,先后联合了英国、法国、德国、日本、中国和印度等国的科研力量,形成了一个国际基因组测序联盟。整个计划前期的领导者是大佬中的大佬,詹姆斯.沃森(James Watson),就是和克里克一起解出DNA双螺旋结构的那位。但是人类基因组计划采用的测序手段是“分级鸟枪测序法”,也就是先将基因组分成相对较大的片断,测序前将每一个片段定位到每条染色体对应位置。然后再对每一个这样的片断分别应用“鸟枪法”进行测序。

克莱格深感这个方法的效率低下,代价昂贵,于是想使用更加高效的“全基因组鸟枪测序”。但是这个想法因为精度太低,太过激进遭到了排斥。于是,克莱格决定索性单干。你们不是嘲笑我的方法吗,那就看谁先完成人类全基因组测序!其实,克莱格心中还有一个更加疯狂的想法,他想成为人类全基因组测序的第一人,并且对人类的200多个重要基因申请专利!这下,人类基因组计划的那批科学家们慌了,因为整个计划的初衷就是人类基因组数据是人类共同财富,一定要赶在克莱格这个狂人之前完成测序。

最后的结果是双方打了个平手。在2001年2月15号,Nature 上发表了人类基因组初步测序结果。仅仅一天之后,克莱格的测序结果在 Science 上发表。

最后,在克林顿总统的协调下,双方握手言和。克林顿宣布人类基因组计划完成,其所有人类基因组数据,不允许专利保护,且必须对所有研究者公开。虽然克莱格没能对那200多个人类基因申请到专利,但是克莱格的强力挑战客观上推动了人类基因组计划的进展。

所以,克莱格.凡特这位老兄到底有多厉害呢?荣誉和头衔什么的就不多提了,只说一项,他曾经在2007和2008连续两年被时代杂志评为影响世界的100人。

好了,回到正题。用DNA序列预言人的长相并不是天方夜谭,已经被克莱格.凡特这位超级大佬盯上了。这篇文章以克莱格.凡特为通讯作者,发表在2017年的PNAS上。

在这项研究中,克莱格.凡特和他创立的公司Human Longevity 对1061名不同年龄和种族的被试者进行了全基因组测序,并且获取了他们的高清晰三维脸部数据。使用机器学习的方法,他们发现DNA序列上的一些微小差异,例如单核苷酸多态性(SNP,single-nucleotide polymorphism),和人的面部特征有很强关联。他们也找到了另外一些SNP,与人的身高、体重、声音特征、肤色等相关联。

基于这些,他们根据个体的基因组,预言出一些人的正脸,结果如下。

这个预言的准确率有多高呢?这么说吧,给训练好的AI一个基因组,AI在一群人脸中找到那个正确的脸的成功率是74%。

听起来很好,对吧。但故事还没完。正如我们之前提过的,这个主意这么好,完全可以发 Science, 但为什么只发表在 PNAS 上呢?

实际上,克莱格.凡特这个工作尝试的第一个期刊就是 Science,但是被拒稿了!打回这篇论文的,是Science 的审稿人之一,来自哥伦比亚大学的 Yaniv Erlich 。他评论到,要实现 74% 的"辨脸准确率",压根就不需要用到基因组数据,实际上,只要知道被试者的年龄、性别和种族这三项,就足以实现75% 的"辨脸成功率"。此外,他还说到,你AI 根据基因组重构出来的人脸,并不像被试者的实际长相,反而更像是一个种族的平均样貌(看看上图,你觉得呢)。

于是克莱格只好把这篇文章转投美国国家科学院院刊 PNAS。关于PNAS有意思的一点是,作为美国科学院院士的克莱格可以自己选择由谁来进行同行评审,于是克莱格“精心”选择了三位信息安全和生物伦理方面的专家,文章得以在PNAS顺利发表。

不过,还有后续。Yaniv Erlich 这哥们挺有意思,把人家的稿给拒了还不够。克莱格的文章发表之后,Yaniv 把他的反对意见也写成论文,发在了biorxiv上,标题就是“论克莱格这篇文章中的重大错误”。

然而,克莱格也是针锋相对,随后也在biorxiv发表了一篇文章,标题就是“劳资没错!”他们指出,"辨脸成功率"不高只是因为用来训练数据样本不够大,并且,AI不仅可以预言相貌,还可以预言身高、体重、声音特征、肤色!

我本人是相信可以用DNA序列来预言人的长相的。已经有一些公司在提供DNA phenotyping服务了。例如Parabon公司,据称就曾经多次与警方合作,根据犯罪分子的遗留在现场的DNA合成出了犯罪分子的样貌,协助找到了凶手。


其它有趣有料回答:

参考文献:

[1] Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA, Gocayne JD. The sequence of the human genome. science. 2001 Feb 16;291(5507):1304-51.

[2] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. nature. 2001 Feb;409(6822):860.

[3] Lippert C, Sabatini R, Maher MC, Kang EY, Lee S, Arikan O, Harley A, Bernal A, Garst P, Lavrenko V, Yocum K. Identification of individuals by trait prediction using whole-genome sequencing data. Proceedings of the National Academy of Sciences. 2017 Sep 19;114(38):10166-71.

[4] Erlich Y. Major flaws in “Identification of individuals by trait prediction using wholegenome”. bioRχiv.

[5] Lippert C, Sabatini R, Maher MC, Kang EY, Lee S, Arikan O, Harley A, Bernal A, Garst P, Lavrenko V, Yocum K. No major flaws in" Identification of individuals by trait prediction using whole-genome sequencing data". BioRxiv. 2017 Jan 1:187542.


user avatar   li-lei-up 网友的相关建议: 
      

当然可行,已经有人在做了。

比如我介绍过的生物学大神,一个毁誉参半的人J.Craig Venter就干过这事情。

基因识别人

这位基因测序教父级人物发表了一篇人脸预测软件的成果。他针对不同年龄和种族背景的人全基因组进行了测序,然后把这些遗传数据输入到计算机里。

研究群体的年龄组成,可以说覆盖了大部分年龄段

研究对象的族群成分组成,基本涵盖了主流的族群成分。比如

非裔Ancestry components are African (AFR), 本土美国人Native American (AMR),中亚裔 Central South Asian (CSA),东亚裔 East Asian (EAS), and 欧洲人European (EUR)


接下来,在把个人的外观信息输入进去,比如三维面部结构、语音特征、生物学年龄、身高、体重、BMI指数、眼睛颜色、皮肤颜色、秃发或头发颜色等特征【1】

接下来就是通过新开发的算法来训练了,也就是大家熟悉的机器学习。

结果如何呢?

根据他们的遗传数据,以及参与者的高质量3D照片,他们的算法可以做出非常成功地预测人的外观了。

下图是基因预测和面部三维结构的像素变化图

模型训练

直接来个结果吧:

下图是基因预测的结果,左边是个人真实面孔,右面是基因预测的结果

比如,他们从一个公共数据库Human Longevity(HLI)中随机选出一组人群(10个人)进行识别,其准确率可以达到74%,这个数字已经超过了绝大多数刑事侦查的比例了。

要知道,曾经做过一个研究,就是让目击者描述犯罪分子的长相,结果准确率惨不忍睹。

比如我随手找了一个研究【2】

目的验证通过目击者的描述,刻画犯罪嫌疑人模拟像及计算机人像组合技术和准确性。方法分别将15名男性和女性照片的发型、下巴、眼睛等五官部位单独取下,并确定其中1人为辨别目标(对象),由786名目击者进行辨认。结果目击者辨别面部特征的总体准确率为17.4%。

准确率才17.4%,这基本上就是没啥意义了。

可见基因预测的牛叉。

不仅仅是脸,还有其他因素,

比如年龄

比如:眼睛的颜色

比如:身高,体重,BMI

比如:肤色

他还给出了这个模型的预测准确性,尽管不同指标的准确度有差异,但是总体还是蛮高的

这可是真正的滴血认人了。

要知道,大家一定很熟悉,古代人很流行的滴血认亲,当然,现代科学已经否定了这一点,因为滴血认亲有很大的失败率,还可以通过技术作假,所以可怜的不被认可的古代人啊。

但是大家一定很熟悉通过犯罪分子的血液痕迹DNA来找犯罪分子,不过,其实这个也挺难,因为你一定要找到比对对象,​否则,你即使获得了犯罪分子的DNA,也只能傻乎乎的等待将来某一天,你很幸运的再一次找到了犯罪分子的DNA,然后二者联网进行比较。如果你从此无法采集到犯罪分子的DNA,那你永远也不可能通过基因证据找到犯罪分子了。

但是这个采取DNA直接来预测人的外观,可就高大上多了,也直接导致一个核心问题:隐私。

所以这篇文章一发出来就引发了很大的争议。

有的觉得文章是错的,有的觉得是侵犯了隐私。

但是无论如何,这是个巨大的发现。

未来,随着样本越来越多,训练越来越充分,直接通过DNA预测人,可能性很大。

所以:

还在犹豫对方整没整过容吗?

还在担心卸妆后变成另一个人吗?

还在揣测对方是否使用了传说中的PS神器么?

一直以来,亚洲三大邪术化妆整容PS困扰着无数的人,让大家对于一个人的真实长相十分困惑。

也许有一天,这不再是个问题!

【1】Lippert, Christoph, et al. "Identification of individuals by trait prediction using whole-genome sequencing data."Proceedings of the National Academy of Sciences114.38 (2017): 10166-10171.

【2】目击者辨别相貌特征能力的研究[J]. 刑事技术, 2001(05):20-27.




  

相关话题

  有谁给解释一下流形以及流形正则化? 
  如何评价 DeepMind 的新工作 AlphaCode? 
  二次型的意义是什么?有什么应用? 
  在CV/NLP/DL领域中,有哪些修改一行代码或者几行代码提升性能的算法? 
  把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗? 
  验证集loss上升,准确率却上升该如何理解? 
  大四年级,完全没接触过高数,目前对机器学习产生浓厚兴趣,该如何学习数学? 
  如何评价阿里巴巴启动NASA计划? 
  PyTorch中在反向传播前为什么要手动将梯度清零? 
  mxnet的并行计算为什么这么牛,是什么原理? 

前一个讨论
为什么珠江新城的档次越来越低?
下一个讨论
复姓中国人在日本单看名字是否会被当做日本人?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利