百科问答小站 logo
百科问答小站 font logo



如何评价科学家重命名了多个人类基因,以避免被 Excel 自动纠正?没有别的方法吗? 第1页

  

user avatar   MarryMea 网友的相关建议: 
      

科学家们可能是觉得改基因的名字比改Excel单元格设置更容易叭。

可以整行、整列地改动单元格格式,可以成片改动,你觉得有必要的话也可以全选:

你也可以使用格式刷:

操作一下都觉得烦?那你还可以录制宏。

你就想直接输入?那你输入'MARCH1这样的格式就可以了。

有人觉得科学家们忙得要死、没空去改Excel格式,那你是真没看过这类领域的科学家是怎么工作的。

总之,你用Excel直接打开RNA序列实验的基因表达矩阵,它大体是下面这样的:

基因名字被自动变换了,然后你保存了,砰!科学家们抱怨的不是“有一一对应关系的变换导致数据混进去一些看起来很囧的玩意”。他们抱怨的是混淆,例如MARCH1和MARC1都会被自动变换成3月1日、造成混乱。

你可以不直接在Excel里打开CSV/TSV文件,而是通过Excel的Import Wizard功能提前处理数据:在操作的第三步选中含有基因名字的列,改动数据格式为文本型。

你可以用Oct4th[1]等转换CSV/TSV文件的格式,而不产生自动变换。

参考

  1. ^ https://oct4th.sandbox.bio/

user avatar   li-lei-up 网友的相关建议: 
      

生信研究人员表示,改得好,其实这套落后命名系统早就该被废掉了。

这也不单纯是excel的锅,这套系统本身就有很大缺陷,已经有其他命名系统了。

我以前就受到过困扰,比如这次被改的SEPT1基因,我就遇到过好几次,由于处理数据过程中一般都会vcf文件,结果只要用excel打开,就自动变更成了9月1号,这不是玩我吗,现在改为 SEPTIN1,很合适。不过我更喜欢用另一套命名系统,这个基因的名字变成了:ENSG0000018009,简单明了,省时省力。

大家也别担心,因为现在我们做组学研究,正在走向尽量少用这种基因名。

为什么?因为不合理啊。

估计大家在理解人名字的时候就遇到这种事情,

李世民、澹台灭明,孛儿只斤·铁木真,はなさき,고미남,Francis Bacon,Henri Rene Albert Guy de Maupassant……

还有重名,别名一堆。

————不合理的基因命名系统————

一个基因名,其实有多种命名系统,比如symbol,entrez,ensembl等。

这次改名是SYMBOL系统,不过是修修补补,因为这个SYMBOL系统本身不合理。

——SYMBOL——

第一种是SYMBOL系统,就是大家常说的基因名gene name系统,这是一套非常原始非常落后的系统,就是大家常说的基因名。它的命名其实就是根据最早研究的命名的那个人的兴趣决定的,或者他当时关注到的点决定的

比如有个基因叫BRCA1,因为在遗传性乳腺癌中发现,被叫做breast cancer 1,也就是乳腺癌基因1.类似的还有BRCA2

当时这只是因为当初观察到了它和乳腺癌有关。如果你关注的不是乳腺癌,就会有其他命名。在互联网不发达的时候,大家也没法沟通,于是各自命名。于是基因还有了别名,服不服气~

比如BRCA2基因,就有BRCC2, FACD, FAD, FAD1, FANCD, FANCD1, XRCC11等多种命名,它们代表同一个基因。你说要是做基因的人,会不会崩溃?

搜索引擎可不会自动等同,这就等于你如果只认识BRCA2,你可能错过FAD, FAD1, FANCD其他一系列研究,其实都是同一个基因。

所以后来还出现了official symbol,尽管看似大一统,其实依然受制于语义的问题。

事实上,这个基因,并不是局限在乳腺癌上。这是一个很重要的基因组维持基因,用于保障基因组稳定性的。

This gene encodes a 190 kD nuclear phosphoprotein that plays a role in maintaining genomic stability

它的功能可不是局限在乳腺癌上,在许多癌症,甚至非癌症中也有体现啊。既然是维持基因组稳定性的,那么如果基因组稳定性受到了破坏,并且该基因发生突变没来得及维持,所以就会引发后续的癌变之类的。

以至于现在数据库在标注基因名的时候,还要额外加注释,指明是DNA repair associated,累不累啊。

再比如Fox基因,名字是叉头框基因(forkhead box FOX)等等

这种命名可以说是严重取决于早期命名人的个人认知和经历,所以这种命名已经严重不适合当今的研究了

假如当初有个人发现某基因和杠精有关,命名为杠精基因,后来发现错了,但是已经命名就麻烦了。

更别提这种命名会干扰研究人员,尤其是会让很多人默认了它和xx有关,这是不合理的。

所以,我们迫切需要一套新的命名系统。

于是就有了ENTREZID

———ENTREZID———

是生物学数据库NCBI的命名系统,适应互联网时代。

Entrez is a molecular biology database system that provides integrated access to nucleotide and protein sequence data, gene-centered and genomic mapping information, 3D structure data, PubMed MEDLINE, and more. The system is produced by the National Center for Biotechnology Information (NCBI) and is available via the Internet.

这套命名系统是纯数字的,比如GeneID: 675,就是BRCA2。

9527呢,是GOSR1基因,和高尔基体有关。

这个命名的确是比较中性,管你三七二十一,按照发现顺序,以此排列。

所以现在不少分析软件都采用这种命名系统,毕竟这套系统中性,纯数字(除非迷信素质的人感觉不爽)

当然,这套系统也有个问题,就是难以区分物种。而且其实excel等处理还是可能会遇到问题(比如科学计数?)

大家知道,不同物种其实都有自己的基因,你用同一个名字表示,如果不表明物种的话,说不定就搞错了。

这就是大家说的同源基因概念之类的。

所以又有了一套新的系统,那就是ENSEMBL

————ENSEMBL—————

这套系统是伴随着ensembl出现的,是面对基因组时代,越来越多物种基因组出现的时候开始的新系统。

其命名方式更加科学

就是物种名+数字

比如ENSG00000139618,前面的ENSG表示人类基因,后面的数字表示具体的基因。

这个基因事实上就是BRCA2

而这个基因如果到了小鼠上呢,就变成了ENSMUSG00000041147

ENSMUSG是小鼠的意思。

可见这套系统可以成功的区分不同物种的差异,因此事实上现在这套系统正在逐步的取得更多的认可。

————未来系统————

其实未来情况下,可能基因命名系统还会革新。

毕竟如ENSG、ENSMUSG这种命名物种的方法,会累成狗。

自然界物种太多了,动物百万种,植物百万种,微生物更是可能有万亿种,按照这种命名,那到时候不得累死啊。

所以未来肯定会有一套更好的系统,但是这套系统长得什么样,我还想不出,但是肯定更加的中性,更加的合理。

—————一个误解—————

看了其他回答,感觉很多人有一个很大误解,就是做生物的人不用office???

喵喵喵,毫不夸张的说,对于大部分做生物的人来说,如果非要列出个使用软件排名,office绝对是遥遥领先。

为何?

1,发表文章需要office

各大投稿系统上传的基本上是word,excel,pdf

瞅瞅这是nature的附件,excel格式

2,汇报、基金也用office

比如做个PPT啊,写基金一样如此。

3,就是生信人员也用office啊

做生信的,除了上面两个,到了后期,也是要用excel。

最开始可能有几十万甚至几千万行数据,肯定用其他办法处理,但是处理归处理,又不是只做做处理的(技术员除外),最后也要形成结论,一般到了这一步,大概率也就是几个或几十个基因,几百个基因的估计都少,因为都结论了,还有那么多基因,说明分析的不透彻嘛。

所以office应用太广泛了,以至于你根本无法摆脱它。


user avatar   pansz 网友的相关建议: 
      

这波肯定是星巴克理亏,因为是一元的硬币。

硬币问题似乎是有个上限,说需要支付的金额超过币值乘多少,就可以要求顾客支付更大面额的货币。至于这个 币值乘多少的多少,究竟是 50 还是 100 还是更多,不记得了,这个问题以前可能讨论过,不知道有没有知友存在这方面知识。

星巴克的单人消费大致在50-100元以内,使用 1 元硬币支付的话,大概率不会达到允许拒收的额度,所以这波肯定星巴克理亏。


如果是支付 1 角 的硬币,购买100元的商品(需要一千枚),这个大概会是有相关法规存在的。而且真用一角硬币的情况下,舆论也不会支持顾客了。


user avatar   lancelu 网友的相关建议: 
      

商场运营方的本质是物业公司,

想各种办法吸引人流过来,接着招商,目的是收取租金,然后涨租金。



所以这个问题的本质,是来福士想要吸引的大批顾客群体,他们是不是在意棒棒入内。

如果他们其实希望棒棒不入内,那么来福士不过是个手套防火墙而已,抵挡了来自网络和外界的骂名。

如果他们反对禁止棒棒不入内,那么就算没有这个报道一段时间后来福士自己也会被用脚投票的顾客教做人。

商场是否以为棒棒影响了形象不重要,最终用户怎么想的才重要,想想谁掏钱?



所以,到底是顾客有这样的需求而商场才这么去干?还是商场自以为是的猜测了顾客的需求呢?这只有顾客自己知道了。





  

相关话题

  嘲笑是人类的行为模式,这一行为模式的成因是什么? 
  爱因斯坦私生活如何? 
  在海里生活的哺乳动物如果受伤了,伤口如何恢复? 
  如果有一个伟大的科学家被曝光出轨了,该怎么评价? 
  生物学中有哪些好玩的知识? 
  坏人是天生的吗? 
  人类的肤色究竟是所谓的防护紫外线形成的还是和熊狐狸一样,是为了伪装? 
  如何看待美国军方收集俄罗斯人基因? 
  Stefano Baroni在凝聚态理论与计算方面做了哪些重要工作,影响力如何? 
  如何看待吃清真食品长寿的虚假广告? 

前一个讨论
知乎上的键政壬成为钢四中的领袖或顾问会怎样?
下一个讨论
如何看待网易云回应网抑云?





© 2024-11-05 - tinynew.org. All Rights Reserved.
© 2024-11-05 - tinynew.org. 保留所有权利