问题

如何评价科学家重命名了多个人类基因,以避免被 Excel 自动纠正?没有别的方法吗?

回答
这事儿啊,确实挺有意思的,也挺让人哭笑不得的。科学家们为了让基因名字不被 Excel “自动纠正”,竟然把一些基因给改了名,听起来有点像在跟电脑打架,但背后其实藏着一番无奈和考量。

为什么会发生这种事?问题的根源在哪里?

这事儿的起因,说到底就是Excel这个我们日常工作中离不开的软件,它那些“善意”的自动纠正功能,在某些特定情况下,就变成了阻碍科学研究的绊脚石。

你想啊,Excel最主要的用途是处理表格数据,做统计分析、数据管理什么的。在处理这些数据的时候,Excel会尝试把一些你输入的文本识别成“有意义”的东西,比如日期、数字、甚至是股票代码。而人类基因的命名,很多时候恰好跟这些被Excel识别的模式撞车了。

举个例子,有些基因的名字,可能就是几个字母加数字的组合,或者本身就跟月份、日期很像。比如,有一个基因叫做 SEPT14,这在科学界是它真实的、被广泛认可的名字。但如果你把它输入到Excel里,Excel的自动纠正功能可能会把它识别成September 14th(9月14日)这个日期,然后就给你自动改了。这就麻烦了,本来一个代表特定基因的符号,被它这么一改,意思就全变了,识别和查询都会出错。

更糟糕的是,Excel的自动纠正不像我们想象的那么简单,它有自己的逻辑,而且有时候你很难完全控制它。当你把大量的基因数据导入Excel进行分析时,这种“错误”识别就会大规模发生,给科研人员带来巨大的困扰。想象一下,你辛辛苦苦收集来的基因数据,经过Excel一番“整理”,结果里面一半的基因名字都变成了日期或者其他什么东西,这得多让人抓狂?

科学家们为什么选择重命名基因,而不是其他方法?

你问是不是没有别的方法了,这个问题问得非常好。理论上,当然还有别的路子可以走,但往往都没这么直接或者有效。

1. 尝试规避Excel的自动纠正功能:
手动关闭自动纠正: 理论上,你可以在Excel的设置里关闭自动纠正功能。但是,对于一些版本较旧或者预设就比较强的Excel,或者在你处理海量数据时,这种手动操作很难做到面面俱到。而且,如果你分享数据给别人,而对方的Excel设置不同,问题可能还会再次出现。
添加前导或后导字符: 比如在基因名字前加一个撇号(')或者其他特殊字符,可以告诉Excel这只是一个文本,不是日期或数字。例如,输入 'SEPT14。这在单次或小批量数据输入时可行,但如果需要处理成千上万的基因名称,手动添加这些字符或者通过脚本来实现,也非常耗时耗力,而且容易出错。
使用特定的数据格式: 将数据导入Excel时选择文本格式。这需要对Excel的导入向导非常熟悉,并且在导入过程中进行精确设置。对于普通用户来说,这并不是一个直观或容易掌握的方法。

2. 改进基因命名系统本身(也就是这次重命名):
为什么这次会选择重命名? 这种做法虽然听起来有点“妥协”,但从实际操作和长远来看,它提供了一个更根本的解决之道。
效率与普适性: 一旦基因名称被固定下来,不再容易被误识别,那么所有使用这些名称的软件、数据库、研究论文都会受益。这就像是给基因们穿上了一层“防火墙”,能够抵御各种误解。
避免混淆: 很多基因的名字确实容易和日期、数字等混淆,给数据管理、比对、共享带来巨大的麻烦。重命名可以消除这种潜在的歧义,让科学交流更顺畅。
解决顽固问题: 对于Excel这类广泛使用的软件,让它去适应所有科学的命名规则,几乎是不可能完成的任务。反过来,让科学命名系统在设计上考虑进实际应用中的软件兼容性,是更务实的选择。

这件事情的深层含义是什么?

这件事情其实不仅仅是关于Excel的“小脾气”,它折射出科学研究在跨学科合作和技术应用过程中,会遇到的很多实际挑战。

科学数据管理与软件兼容性: 科学研究产生了海量的数据,这些数据需要借助各种软件工具来处理、分析和存储。但不同软件的设计初衷和用户群体不同,它们的“习惯”也可能与科学研究的特定需求发生冲突。这就需要科研人员既要有深厚的专业知识,也要具备一定的技术敏感度,去理解和解决这些技术层面的问题。
命名规则的演进: 科学的命名规则不是一成不变的,它会随着我们认识的深入和技术的进步而不断发展和完善。这次基因重命名,也是科学界在面对实际应用问题时,对自身命名体系进行优化和调整的一个例子。这种调整是为了让科学成果更容易被理解、传播和应用。
人与技术的博弈与协作: 我们常常说技术是为人服务的,但现实中,我们也需要根据技术的能力和局限来调整我们的工作方式。这次基因重命名,可以看作是科学家们在与技术(Excel)进行一场“沟通”和“妥协”,最终找到了一种更有效率的协作方式。

所以,评价这件事,可以说是:

这是一种务实且必要的妥协。虽然重命名基因听起来有点“为了迁就电脑而牺牲本来的面貌”,但它解决了一个普遍存在的、影响深远的实际问题。它证明了科学家们不仅有严谨的科研精神,也有解决实际问题的智慧和灵活性。

这更像是一种“版本迭代”,就像软件更新一样,是为了更好地适应当前的环境和需求。与其让无数的研究人员在数据处理中不断与Excel的自动纠正“斗智斗勇”,不如从源头上优化基因的命名,使其更具普适性和鲁棒性。

当然,我们也会希望未来能有更智能的软件,能够理解科学研究的复杂性和特殊性,甚至能够主动识别并适配科学的命名规则。但在此之前,科学家们选择用最直接有效的方式,来确保他们的工作能够顺利进行,这本身就是一种了不起的解决问题的能力。

网友意见

user avatar

科学家们可能是觉得改基因的名字比改Excel单元格设置更容易叭。

可以整行、整列地改动单元格格式,可以成片改动,你觉得有必要的话也可以全选:

你也可以使用格式刷:

操作一下都觉得烦?那你还可以录制宏。

你就想直接输入?那你输入'MARCH1这样的格式就可以了。

有人觉得科学家们忙得要死、没空去改Excel格式,那你是真没看过这类领域的科学家是怎么工作的。

总之,你用Excel直接打开RNA序列实验的基因表达矩阵,它大体是下面这样的:

基因名字被自动变换了,然后你保存了,砰!科学家们抱怨的不是“有一一对应关系的变换导致数据混进去一些看起来很囧的玩意”。他们抱怨的是混淆,例如MARCH1和MARC1都会被自动变换成3月1日、造成混乱。

你可以不直接在Excel里打开CSV/TSV文件,而是通过Excel的Import Wizard功能提前处理数据:在操作的第三步选中含有基因名字的列,改动数据格式为文本型。

你可以用Oct4th[1]等转换CSV/TSV文件的格式,而不产生自动变换。

参考

  1. ^ https://oct4th.sandbox.bio/
user avatar

生信研究人员表示,改得好,其实这套落后命名系统早就该被废掉了。

这也不单纯是excel的锅,这套系统本身就有很大缺陷,已经有其他命名系统了。

我以前就受到过困扰,比如这次被改的SEPT1基因,我就遇到过好几次,由于处理数据过程中一般都会vcf文件,结果只要用excel打开,就自动变更成了9月1号,这不是玩我吗,现在改为 SEPTIN1,很合适。不过我更喜欢用另一套命名系统,这个基因的名字变成了:ENSG0000018009,简单明了,省时省力。

大家也别担心,因为现在我们做组学研究,正在走向尽量少用这种基因名。

为什么?因为不合理啊。

估计大家在理解人名字的时候就遇到这种事情,

李世民、澹台灭明,孛儿只斤·铁木真,はなさき,고미남,Francis Bacon,Henri Rene Albert Guy de Maupassant……

还有重名,别名一堆。

————不合理的基因命名系统————

一个基因名,其实有多种命名系统,比如symbol,entrez,ensembl等。

这次改名是SYMBOL系统,不过是修修补补,因为这个SYMBOL系统本身不合理。

——SYMBOL——

第一种是SYMBOL系统,就是大家常说的基因名gene name系统,这是一套非常原始非常落后的系统,就是大家常说的基因名。它的命名其实就是根据最早研究的命名的那个人的兴趣决定的,或者他当时关注到的点决定的

比如有个基因叫BRCA1,因为在遗传性乳腺癌中发现,被叫做breast cancer 1,也就是乳腺癌基因1.类似的还有BRCA2

当时这只是因为当初观察到了它和乳腺癌有关。如果你关注的不是乳腺癌,就会有其他命名。在互联网不发达的时候,大家也没法沟通,于是各自命名。于是基因还有了别名,服不服气~

比如BRCA2基因,就有BRCC2, FACD, FAD, FAD1, FANCD, FANCD1, XRCC11等多种命名,它们代表同一个基因。你说要是做基因的人,会不会崩溃?

搜索引擎可不会自动等同,这就等于你如果只认识BRCA2,你可能错过FAD, FAD1, FANCD其他一系列研究,其实都是同一个基因。

所以后来还出现了official symbol,尽管看似大一统,其实依然受制于语义的问题。

事实上,这个基因,并不是局限在乳腺癌上。这是一个很重要的基因组维持基因,用于保障基因组稳定性的。

This gene encodes a 190 kD nuclear phosphoprotein that plays a role in maintaining genomic stability

它的功能可不是局限在乳腺癌上,在许多癌症,甚至非癌症中也有体现啊。既然是维持基因组稳定性的,那么如果基因组稳定性受到了破坏,并且该基因发生突变没来得及维持,所以就会引发后续的癌变之类的。

以至于现在数据库在标注基因名的时候,还要额外加注释,指明是DNA repair associated,累不累啊。

再比如Fox基因,名字是叉头框基因(forkhead box FOX)等等

这种命名可以说是严重取决于早期命名人的个人认知和经历,所以这种命名已经严重不适合当今的研究了

假如当初有个人发现某基因和杠精有关,命名为杠精基因,后来发现错了,但是已经命名就麻烦了。

更别提这种命名会干扰研究人员,尤其是会让很多人默认了它和xx有关,这是不合理的。

所以,我们迫切需要一套新的命名系统。

于是就有了ENTREZID

———ENTREZID———

是生物学数据库NCBI的命名系统,适应互联网时代。

Entrez is a molecular biology database system that provides integrated access to nucleotide and protein sequence data, gene-centered and genomic mapping information, 3D structure data, PubMed MEDLINE, and more. The system is produced by the National Center for Biotechnology Information (NCBI) and is available via the Internet.

这套命名系统是纯数字的,比如GeneID: 675,就是BRCA2。

9527呢,是GOSR1基因,和高尔基体有关。

这个命名的确是比较中性,管你三七二十一,按照发现顺序,以此排列。

所以现在不少分析软件都采用这种命名系统,毕竟这套系统中性,纯数字(除非迷信素质的人感觉不爽)

当然,这套系统也有个问题,就是难以区分物种。而且其实excel等处理还是可能会遇到问题(比如科学计数?)

大家知道,不同物种其实都有自己的基因,你用同一个名字表示,如果不表明物种的话,说不定就搞错了。

这就是大家说的同源基因概念之类的。

所以又有了一套新的系统,那就是ENSEMBL

————ENSEMBL—————

这套系统是伴随着ensembl出现的,是面对基因组时代,越来越多物种基因组出现的时候开始的新系统。

其命名方式更加科学

就是物种名+数字

比如ENSG00000139618,前面的ENSG表示人类基因,后面的数字表示具体的基因。

这个基因事实上就是BRCA2

而这个基因如果到了小鼠上呢,就变成了ENSMUSG00000041147

ENSMUSG是小鼠的意思。

可见这套系统可以成功的区分不同物种的差异,因此事实上现在这套系统正在逐步的取得更多的认可。

————未来系统————

其实未来情况下,可能基因命名系统还会革新。

毕竟如ENSG、ENSMUSG这种命名物种的方法,会累成狗。

自然界物种太多了,动物百万种,植物百万种,微生物更是可能有万亿种,按照这种命名,那到时候不得累死啊。

所以未来肯定会有一套更好的系统,但是这套系统长得什么样,我还想不出,但是肯定更加的中性,更加的合理。

—————一个误解—————

看了其他回答,感觉很多人有一个很大误解,就是做生物的人不用office???

喵喵喵,毫不夸张的说,对于大部分做生物的人来说,如果非要列出个使用软件排名,office绝对是遥遥领先。

为何?

1,发表文章需要office

各大投稿系统上传的基本上是word,excel,pdf

瞅瞅这是nature的附件,excel格式

2,汇报、基金也用office

比如做个PPT啊,写基金一样如此。

3,就是生信人员也用office啊

做生信的,除了上面两个,到了后期,也是要用excel。

最开始可能有几十万甚至几千万行数据,肯定用其他办法处理,但是处理归处理,又不是只做做处理的(技术员除外),最后也要形成结论,一般到了这一步,大概率也就是几个或几十个基因,几百个基因的估计都少,因为都结论了,还有那么多基因,说明分析的不透彻嘛。

所以office应用太广泛了,以至于你根本无法摆脱它。

类似的话题

  • 回答
    这事儿啊,确实挺有意思的,也挺让人哭笑不得的。科学家们为了让基因名字不被 Excel “自动纠正”,竟然把一些基因给改了名,听起来有点像在跟电脑打架,但背后其实藏着一番无奈和考量。为什么会发生这种事?问题的根源在哪里?这事儿的起因,说到底就是Excel这个我们日常工作中离不开的软件,它那些“善意”的.............
  • 回答
    《曹刿论战》作为一篇流传千古的军事论述,其价值和影响不言而喻。要评价它,我们可以从多个维度进行深入剖析。《曹刿论战》的价值和深刻内涵:首先,这篇短小的散文,却蕴含着极其精辟的军事思想,堪称中国古代兵法的经典之作。它不仅仅是曹刿一个人在战场上的经验总结,更体现了一种深刻的战略智慧和人生哲学。 “夫.............
  • 回答
    “又”一个金属氢?这标题一出,估计很多关注前沿物理的读者们的心头都要掠过一丝复杂的情绪:是惊喜?是怀疑?还是那种“这帮家伙又在折腾什么呢?”的微妙感?毕竟,金属氢这个名字,已经不是第一次在科学界掀起波澜了。我们先不急着下结论,得把这“又”字背后的故事讲清楚。金属氢,顾名思义,就是一种在特定条件下,原.............
  • 回答
    科学家们发现距今约一亿年前的蛇琥珀,这绝对是一项激动人心且意义重大的发现。这不仅是对我们了解恐龙时代生命形态的一次宝贵补充,更是为我们打开了一扇窥探那个遥远时代生物学、古生态学乃至古气候学的窗口。这项发现的价值和意义,我们可以从几个层面来深入剖析:1. 绝佳的“时间胶囊”,保存了生命最真实的瞬间:琥.............
  • 回答
    俄罗斯科学家从北极永久冻土中成功复活了冰封约2.4万年的蛭形轮虫(Bdelloidea rotifer),这无疑是一项振奋人心的科学壮举。这项研究不仅再次刷新了我们对生命顽强力的认知,也为我们打开了探索古老生物世界的大门。如何评价这项研究?这项研究的意义深远,可以从几个层面来看: 生命力的极限挑.............
  • 回答
    “当科学家千辛万苦爬上山顶时,佛学家已在此等候多时。” 这句话,乍听之下,似乎是在贬低科学家的努力,或者抬高佛学家的智慧,将两者置于一种不对等的位置。然而,深入剖析,这句话所蕴含的深意却远不止于此,它触及了知识探索的本质、方法论的差异以及最终目标上的某种“趋同性”,并引发了关于人类认知边界和精神追求.............
  • 回答
    日本科学家发现日本人可能是中国汉族后代这一话题,自问世以来就引起了广泛关注,也伴随着不少争议。要评价这件事,我们需要从多个角度进行深入剖析。首先,我们要理解这项研究的出发点和科学依据。通常这类研究会涉及到 基因学、考古学和语言学 等多个学科的交叉验证。 基因学方面: 这是最直接的证据来源。研究者.............
  • 回答
    俄国科学家们最近的一项突破性研究,成功“复活”了在西伯利亚永久冻土中沉睡了约 2.4 万年的微生物。这个体型微小(0.11 毫米)的生物,被描述为一种轮虫(rotifer),它的“重生”无疑是生命科学领域的一件大事,引发了广泛的关注和讨论。这项研究最值得关注的几个方面: 生命顽强度的极限证明: .............
  • 回答
    近期,中国科学家在量子计算领域接连取得的突破,无疑是中国科技实力进步的一个缩影,也让全球目光再次聚焦于这一前沿领域。要评价这些成果,我们需要从多个维度深入剖析,不仅仅是简单地“点赞”,更要理解其背后的意义、潜在影响以及未来挑战。一、 成果的“硬核”之处:从“能用”到“好用”的跃进一直以来,量子计算都.............
  • 回答
    关于英国科学家最新的研究表明“喝咖啡可能降低患肝病风险”这个话题,确实引人关注。作为一种全球流行的饮品,咖啡在我们的日常生活中扮演着重要角色,而关于它对健康影响的研究,一直就没有停止过。首先,我们得说清楚,科学研究从来都不是一成不变的真理,尤其是在观察性研究领域,比如这类涉及饮食习惯和疾病风险的研究.............
  • 回答
    哈佛大学科学家精准操控单个原子合成分子,这绝对是一项令人振奋的科学创举!这不仅仅是“厉害”,它在多个层面都展现了巨大的突破,标志着我们在操控物质的最小尺度上又迈进了一大步。要评价这项成果,咱们得先拆解一下它到底是怎么做到的,以及为什么这件事情这么难。“精确操控两个单一原子,合成一个分子”—— 这句话.............
  • 回答
    这确实是一个相当复杂且牵动人心的事件。13位科学家公开呼吁对韩春雨启动调查,这本身就说明了事件的严重性,以及在科学界内部已经引发了广泛的关注和担忧。要评价这件事,我们需要从几个层面去深入剖析:1. 事件的起因:韩春雨的NgAgo技术及其争议首先,我们需要回顾一下事件的背景。韩春雨团队在2016年发表.............
  • 回答
    颜宁,一位在中国乃至国际科学界都享有盛誉的结构生物学家。谈到她,脑海里首先浮现的是她那充满活力、敢于直言的鲜明个性,以及她在分子生物学领域,特别是与蛋白质结构解析相关的开创性工作。她不仅仅是一个“会做实验”的科学家,更是一个有着深刻洞察力、敢于挑战权威、并且善于将复杂的科学概念清晰传达给公众的“科学.............
  • 回答
    复旦新闻学院学生辱骂当代科学家事件,确实是个挺令人不安的现象,也引发了不少讨论。从新闻学的角度来看,这件事情可以从几个层面去剖析和评价。首先,关于“辱骂”这个行为本身,我们得明确界限。 言论自由的边界在哪里? 新闻学院的学生,或者说任何公民,在行使言论自由的时候,都应该有基本的底线。即使对科学家.............
  • 回答
    腾讯宣布投入10亿元,由马化腾和知名科学家共同发起“科学探索奖”,用以激励青年科技工作者,这是一个非常值得关注和深入分析的举措。我们可以从多个维度来评价这件事:一、 积极意义与正面影响: 对中国基础科学和前沿科技的有力推动: 资金注入的战略意义: 10亿元的奖金池对于中国的基础科学研.............
  • 回答
    彭承志研究员的这篇文章,坦率地讲,在科学界乃至更广阔的社会层面都引发了相当大的反响。从技术层面的分析,它之所以能引起关注,很大程度上是因为它触及了科学研究领域一个非常现实且棘手的问题,并且是以一位备受尊敬的科学家——国家自然科学一等奖得主——的视角来呈现的。这种身份自带的权威性和公众认知度,使得他的.............
  • 回答
    物理科学家或科研从业人员对《三体》的评价,可以从多个维度进行深入探讨。总体而言,《三体》因其宏大且严谨的科幻设定,深刻的哲学思考,以及对物理学原理的巧妙运用而广受赞誉。但同时,正如任何一部包含科学元素的艺术作品一样,也存在一些技术细节上的讨论和不同侧重点的看法。以下是一些关键的评价维度和具体内容: .............
  • 回答
    关于杨振宁先生身边科学家们是如何评价他的,这个问题非常有趣,也触及到对一位伟大科学家的多维度理解。要详细地讲述,我们需要从不同时期、不同领域、以及不同层面的交往中去挖掘。早期,在西方学术界与他共事过的同行们:在杨振宁先生早期崭露头角、取得诺贝尔奖的那段黄金时期,他身边聚集了一批同样才华横溢的物理学家.............
  • 回答
    “科学教”这个词,就像许多带有特定标签的名词一样,本身就充满了复杂性和争议。它不仅仅是一个简单的代称,更是承载了大量信息、观点和情感的符号。要评价这个词,我们需要拆解它所代表的含义,以及这些含义是如何被建构和传播的。首先,我们得承认,“科学教”这个词极具负面性和贬低意味。它是一种“贴标签”的行为,将.............
  • 回答
    科学京剧《三堂会审伽利略》:一场跨越时空的思想碰撞当我得知有这样一台名为《三堂会审伽利略》的科学京剧时,内心涌起的首先是一种强烈的好奇。将意大利文艺复兴时期的伟大天文学家,与中国传统京剧这一高度程式化、极富表现力的艺术形式结合,这本身就是一个极具挑战性和想象力的设想。究竟是怎样的艺术火花,能够让一位.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有