百科问答小站 logo
百科问答小站 font logo



AI 都学会看论文了,科研工作者会被淘汰么? 第1页

  

user avatar   yestreet 网友的相关建议: 
      

@李翛然 邀。

好像从战胜围棋、国际象棋高手开始,AI替代这个淘汰那个之类「狼来了」的说法就日渐增多,如今终于喊到了自己家门口,科研工作者应该感到担忧吗?

的确,AI会以出乎人们意料之外的速度取代大量人类的重复性劳动和人类大量的重复劳动(前者多半基于社会选择,后者可能取决于个人意愿),当然也包括大量重复性脑力劳动,但创造性劳动(体力、脑力兼有)不在此列。从目前报导的所有上岗AI产品可以看出,其替代对象无一例外都是重复性劳动者;换句话说,这些岗位换成人类甲乙丙丁本来就没什么影响。在可以预见的未来,可以被AI取代的也主要是人类的这些重复性劳动,当然替代不适合人类从事的工作应该更具积极意义。

以工业体系庞大的制造业为例,几乎所有机器生产过程(包括生产管理)都会持续大批淘汰人工,但没有人担心机电设备维修或个性化产品设计会被AI取代。再比如弄一个阿尔法狗秀算法(不知能不能叫智商)也只能新鲜几天,没有人去设想棋类运动会消失、棋类比赛会取消、棋类高手不再受人尊敬等愚蠢问题,而现在国手拥趸减少和院士从来粉丝不多,恰是优秀脑力劳动者的正常待遇。

其实这个问题的用意与此间劝退硕博的论调基本一致,即科研民工潮可以休矣。只不过借名刊AI的梗说事,让一些自视颇高的人略有不适,鞭尸自榜秀见闻都是应该有的过场。因为大多数所谓科研工作者每天做的事情,实在连重复性劳动都不如,其主要存在价值是可以让那些做不了什么有价值事情的人群不至于出来搞事,顺便授以各种内斗秘笈以改善其劳动倦怠和社会认知,从而确保论文产业链原材料供货。


假如「科研」是科学研究的意思,则跟踪研究基本不属于科学研究(知而不跟很正常,尤其翻阅历史文献),假如没有足够的社群获益或明确的工程应用作为依托,充其量不过是略微高级的动物模仿秀,这方面AI的优越性已无需论述。所有这类从业人员(包括决定入行的学生)其工作性质与建筑工地劳工和制造业生产线操作工高度近似,却远不如普通厨师、裁缝、屠夫、画匠、营销、中小学教师技术(处理变数的能力)含量高,更无法和医生、律师、官员、实业家、设计师、艺术家和工程师相提并论。这些所谓的科研工作者就是某些人口口声声说的科研民工,即便多数劝退环化生材的新晋专业小牛,还不是在比较大的城市或者比较高的楼盘里做工略久的民工。

事实上,依赖大量或经常阅读相关研究论文决定研究方向的人,既缺乏科学研究的从容与专注,又完全不具备工程研究的基本常识,大约只能沦为民工性质的工作模式和思维习惯,甚而这种机械性劳动习惯已经左右到他们的日常行为。比如,经常看到无数生活话题、现实话题、工程话题、技术话题的回答中,充斥大量论文引录和原文图表,而其实那些问题通常有更合理描述、更多种可能、更准确应对、更妥善解决和更快速处理。他们甚至忘记了研究与应用、预测和达到之间多半有不小的距离这样的科研常识,他们甚至故意忽略所有试验性研究结论仅在非常有限条件下才能成立,他们甚至罔顾所有统计性研究结论都有样本不足或代表性不够而存在大量例外的基本事实。

于是连小孩几岁应该学习什么知识技能、恋爱中人得罪对方应该如何求原谅都必须引经据典外文当先;于是当朋友之间发生龃龉、家人超市遇到麻烦、上班交通出现故障、今天午后情绪低落的时候,也要四平八稳参照某某规则、某某效应、某某机制、某某模型、某某理论、某某顶刊最新成果出谋划策。这种所谓的专业回答真的十分搞笑(当然不能否认其娱乐性功能),就算是你们读文献习惯了读嗨了皮的,可也别出来秀本能啊,信不信有人告你们给出原文链接是在有意无意强调这里有墙!

总之,科学研究的魅力在于其未知性、不确定性和一部分排他性。没有人做过的事情和没有人实际解决的问题是科学研究的最低目标,而满足个人研究兴趣甚至独处的爱好,则是比较高级的目标。别人在做什么项目用什么仪器开什么会议聊什么方法结什么善缘等等,显然不是科学研究工作者应该经常操心的事情;别人做出东西并且公布之后,觉得有趣好玩就简单祝贺,觉得无聊枯燥就继续埋头玩自己的;哪天和别人撞题了,除了感慨果然有英雄所见略同,还是赶紧瞄准新目标才是正常科研态度。

因此,科研民工理当很快被淘汰,而且应该比产业民工还要快,但不是被AI。AI只不过是科研民工被淘汰之后一个可能替补,其他选项包括但不限于:周末中小学生、健康退休市民、各行各业科研服务志愿者,等等。


user avatar   ge-dan-ding 网友的相关建议: 
      

我没看到文章原文之前还想,这不就是Ceder风格的文章吗?一看作者,他果然在里面,还是通讯作者之一…

不过这篇文章完全靠AI扫摘要、“学习”关键词(化合物)的“知识”来“预测”热电材料,这还是和Ceder组借助物理/化学/材料学相关理论进行计算预测的传统路线差得比较远。(换句话说,就是更low一些。注意到本文的第一作者加通讯作者已经从LBN了去了Google)

本文其实是用更纯粹的“裸AI”来扫文献,号称不提前输入化学知识,希望AI能无监督“自主学会”一些化学理论,从而“预测”热电材料。作者的逻辑是即使摘要没有提到“thermoelectric”,但通过让化合物名称与摘要中其他关键词比如的“indirect bangap”、“chalcogenides” 等词汇建立联系,似乎这样AI就“知道”了这些就是热电材料的特点;似乎这样AI就自主“学会”了热电材料的知识(比如具有热电材料具有indirect bandgap,一般是chalcogenides),进而,AI就可以预测新一代热电材料。这其中的逻辑跳跃和漏洞还能再明显一点吗?

试问AI学到的这种“词汇联系” 是真正的“知识”吗?通过这样的关键词“学习”,AI能理解什么是indirect bandgap,什么是chalcogenides吗?更不要说理解为什么热电材料需要indirect bandgap等原理。仅仅机械地建立了一些符号之间的“关系”,就能靠这种所谓的“知识”一下子飞跃到预测新一代热电材料,也真是呵呵。

所以说Ceder教授一直以来基于物理/化学/材料学理论来预测未来材料的方法,还是比这篇“裸AI”文章的水平要高。他这类文章已经发表过很多,尤其是在锂电领域,他们课题组已经把元素周期表,更准确的说是无机晶体数据库翻了个底朝天。他们将几乎所有含锂的无机化合物,包括自然界存在、不存在,实验室里存在、不存在,甚至只是理论上可能存在的锂化合物都挖了个遍。通过计算,预测了不少“下一代最有希望或大有希望”的(正级)锂电材料。这些文章大都发表在IF很高的期刊上,从中也可以看出Ceder组学生巨大的工作量。Ceder现在一个主要项目就是HIGH-THROUGHPUT COMPUTING, DATA MINING, AND THE MATERIALS PROJECT 下面是他们的代表性文章:

所以说,这种“材料数据库挖矿—计算选矿”的科研方式,他们已经轻车熟路。以前没有用AI的时候,那是拼人力,靠学生和科研人员的人工;现在有了AI,也是件好事,最起码节省了一些辛苦。

至于他“挖矿-计算”出的东西到底如何,那就要仔细斟酌一下。首先,不可否认Ceder在计算材料界是高水平大牛,他的计算在理论的深度广度以及自洽方面都有目共睹,否则也不会发那么多高IF文章。读他的文章高山仰止当然可以,但不要入戏太深真得按照他们的“预测”去发掘下一代“革命性的新材料”。据我所知,掉进这个坑的人不少。比如Ceder那篇非常著名的关于磷酸锂盐的挖矿文章,遍历几乎所有存在不存在的含锂磷酸盐化合物,最后预测出几个下一代最有前途、甚至比磷酸铁锂还好的锂电正极材——其中一个就是“磷酸钼钒锂”。他们经过计算,得出结论说这种材料电压高、容量大,很可能比磷酸铁锂还好一点。结果有一些人就真信了,但是费了九牛二虎之力怎么也合成不出想要的“磷酸钼钒锂”。最后他们才知道,这种东西不但自然界不存在,还极有可能非常不稳定,实验室能否合成要打个大大的问号,即使能合成也很大可能得不到想要的价态、结构、化学计量比等。而那篇文章却一点也没有提及这些问题。作为预测者,只预测好的方面来吸引眼球,却忽略可能存在的各种问题和实际操作的困难,这在某种意义上也近似忽悠。

如果对Ceder组的文章有些了解,你就会知道他们这种“放大”自己成果的事情也不是第一次了。最有名的莫过于那篇发表在Nature上的“超级快速充电”文章,被包括锂电鼻祖Goodenough大牛在内很多人联名怼之。虽然这个事件后面变成了一场纠缠于技术细节的疑似口水战,但那个“超级快速充电”的吹牛本质却是跑不了的事实。(关于此事,可见 @土豆泥 此答zhihu.com/question/2383

其实用AI扫数据库,扫文章,从而得到了什么什么、会预测什么什么之类的文章已经发表了很多。Science和Nature最近也很喜欢收录这样的文章。但这些看看就好,靠AI、算法、神经网络来检索分析数据肯定对科研有所帮助。比如研究人员以后可能就不用花几个月时间手工折腾晶体数据库了;但真要到预测新材料到那一步,AI还是差得很远。因为这毕竟不是下围棋,有固定的规则、棋子数量和棋盘。很多新材料都是先发现、后理论,甚至是发现后突破甚至推翻原理论。比如超导材料,你靠AI能计算/预测出会有这种奇怪事物发生?而且铁基超导的发现也在相当程度上打破了原有的BCS理论。还有准晶,明明基于严格数学证明的晶体学理论不允许5次对称轴存在,但就是存在这种似晶非晶奇葩的材料,人家就有5次轴。如果换作AI,就算你把所有国际晶体学手册都输入AI来“深度学习”,肯定一万年都不会发现准晶。

目前各种理论对于材料的解释不是粗糙牵强,就是基于事实存在的前提下进行反推模拟。不同的课题组、甚至不同的期刊对于各种计算方法、门派都有不同的喜好。而且因为可以调参数,很多计算实质上就是为了符合事实而强行拟合实验结果(调参数)。结果就是对于同一物质,各种理论还会互相矛盾,看上去公说公有理婆说婆有理似乎都能自洽,你相信谁?比如磷酸铁锂的反应机理,Ceder一派就声称是单相固溶体反应;而另一传统派主张还是二相反应。最后没办法了只好互相妥协一下,纳米的固溶体,大尺度的两相…所以在严格完备的理论还没有建立起来之前甚至互相矛盾的前提下,靠AI来“预测”新材料,就是个噱头,附加忽悠一下容易轻信的人。

锂电这么多年了,真正取得突破的正极材料来回就是LCO,LFP,LMO,三元等这么几种。这些可以说大都是Goodenough老爷子的功劳。人家肯定没读过300万篇摘要,但每次都能找准最佳目标。你觉得这种人物AI可以取代吗?想知道Goodenough大师的传奇故事,请见本人此文:

zhuanlan.zhihu.com/p/45


user avatar   wei-jun-nian 网友的相关建议: 
      

1. AI会看论文不是新闻,这是十几年来许多人一直在做的事情,是自然语言识别(NLP)的重要分支,论文从来没有断过,重要成果也早就融入我们的日常科研生活,比如Scifinder。

2. 为什么要AI能看论文,并提取出数据?因为论文中蕴含了大量有价值的信息和图表,而目前的搜索引擎还只能基于简单的文本匹配,不能充分挖掘出强相关性论文,这对于科研工作者,是非常不友好的。科研论文领域的数据挖掘,任重而道远。

3. 科研论文的语义解析是非常非常困难的,在这个领域的任何突破,都将惠及全体科研工作者,这篇Nature文章也不例外。不过他们非常狡猾,他们发现了一个宝矿,那就是科研论文的摘要!

4. 科研论文摘要言简意赅,信息量极大,用词精准,长度适中,还只包含positive results...简直就是完美的语料库!

5. 这意味着可以考虑用无监督模型,不用人工标数据。

6. 通过经典词嵌入方法Word2vec,用skip-gram方法,得到每个词的权重向量,根据此向量,计算相似度,预测性质。

7. 这将是一个很不错的搜索引擎。之所以能预测(我更想叫“捡漏”)材料热电性,在于模型读了几百万篇文献,发现“热电性”总是和一些x, xx, xxx一起出现。而某个已报道材料恰好具备x, xx, xxx,但是没人测量过热电性能。所以模型可以提醒一句,小子,可以试一试热电性测试哦。

8. 到这里,文章都相当漂亮。可是后面拿模型预测的潜在热电材料和DFT理论计算结果对比那段,简直辣眼睛…

9. 没有可比性好么?您这个模型是捡漏,先得有人合成了对应材料,测了一大堆乱七八糟的性质,还要恰好忘了测热电性才行…基于DFT或者从头算的化学理论方法,才可以本质上指导化学家,应该去试试合成什么新材料…

10. 当然,能指导捡漏也是非常了不起的。毕竟源头上创新的工作也就那么多,为了恰饭,我们也没少干捡漏的活,不过一般美其名曰“超凡的洞察力,敏锐的科研直觉…”

11. 不管怎么样,期待类似工作越来越多,越来越好,这只会是科研好帮手。


user avatar   huo-hua-de-41 网友的相关建议: 
      

看完这篇paper后,我的内心久久不能平复,好久没看到这么烂的paper了!

先来讲讲,这篇paper讲了什么?

首先模仿mikolov的经典算法Word2vec skip-gram,把在上下文中的一个窗口内的材料相关词汇抽取出来,如

(['LiMn2O4', 'and', 'LiCoO2', 'are', 'battery', 'cathode', 'materials', '.']

然后用skip-gram在窗口内用LiMn2O4预测LiCoO2,来获得材料词的词向量。说到底是在统计两个词在一定窗口内的共现关系,这是word2vec的本质,你不用Word2vec用传统的统计方法,计算两个词的互信息,然后矩阵分解一样能得到词向量。

下面吐槽开始

  • 作者用t-SNE把词向量投影到二维空间,然后claim词向量学到了chemistry,同一族元素聚到了一起。学到个鬼!同一组元素当然在上下文中容易被同时提及,这就是共现关系而已!
  • 作者用词向量预测不用化合物的Formation Energy,然后claim你看我的预测的多准,和DFT(密度泛函理论)计算出来的多接近,平均绝对误差只有56 meV而已!马蛋,能用DFT算出来的东西,你用神经网络拟合有什么意义?完全就是瞎搞
  • 作者连神经网络适用的基本场景都弄不清,对于Formation Energy的计算有完善的量子力学理论做支撑,对于这样能够精准建模的问题,用传统的物理学第一性理论来计算更好,更加可靠!
  • 作者用余弦相似度计算了和thermoelectric最接近的单词,然后在其中的326位和345位发现了两种材料Li2CuSb和Cu3Nb2O8,然后宣称他们的算法能够预测潜在的新型热电材料。多么令人窒息的操作!
  • 作者这个算法能预测个鬼!thermoelectric和两种材料之所以余弦相似度接近,根本原因是有人在文章里同时提到过thermoelectric和Li2CuSb、Cu3Nb2O8,或者是异质图上的second order similarity关联到的,但也仅仅只是共现关系而已!

结论:

  • 能够预测潜在的新型热电材料完全是无稽之谈。
  • 生化环材小将的生存空间不会被挤压,科研工作者不会被淘汰。
  • 这篇论文也没有提出任何能让AI看懂论文的算法

user avatar   lykquitphy 网友的相关建议: 
      

谢邀,能用Embedding这种方式获取知识相关性,并做匹配推理,获取领域知识,只能说明该领域研究停留排列组合上,并不能够说明广大科研工作者会被AI淘汰。

在大部分涉及数理的符号计算和符号推理上,目前的AI是超级弱智。

反过来说,如果我们可以用目前的AI,把某个领域知识学习的七七八八,比如蛋白质结构,大家就要思考一下自己做的实验是真的有内涵吗?

希望大佬多多研究如何通过AI证明某个领域是不是排列组合。




  

相关话题

  deepmind发表的neural processes(神经过程),这个是怎么实现的呢? 
  苏联的科研力量为什么一直没能碾压美国科研? 
  从事基础科学研究,前景很惨淡吗? 
  如果人类的意识被科学家证明只是一种物质或者一种活动,那时候我们该怎么安置我们存在的意义? 
  NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷? 
  有哪些无用的论文、研究? 
  为什么说大模型训练很难? 
  人工智能被高估了吗? 
  如何看待南京大学新规:博士生发相关媒体平台科普论文且阅读量过万可参评国家奖学金?是否合理? 
  大家都是在哪些网站找数据? 

前一个讨论
想去乡村当教师,改变教育格局的那种,有什么方法经验可以借鉴?
下一个讨论
我主张让孩子在初中前就学习问题进行“放养”式教育,这有错么?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利