有人做过统计,并有图。
附:史上引用最多的100篇论文(截至2014年,仅供参考!)
来源:nature.com
这个是比较早的了。
众所周知,所谓的统计都是有局限的,比如上面的是统计Nature的一些文章,从相关的数据库里统计的。
一般认为引用最多的申农的一篇文章,是申农模型的那篇。
由于他过于基础性。很多人只提申农模型,而不引用具体的出处了。
按照这种标准,比如标书、课文等的引用都算上的话。一些人说有上亿次。
也有人对这个说法提出疑问。
比如牛顿第二定理等,如果算是引用,那应该比申农的那个还更多。
不管如何,申农的没有排在前列这是不科学的。
2020年1月底发表在《柳叶刀》的文章,一年时间不到超过两万次引用,应该是人类科学史上从发表到被引用超过两万次用时最短的文章。第一作者是武汉金银潭医院的副院长黄朝林,通讯作者是中日友好医院曹彬。文章报道了2019年底在武汉发现的一种能感染人类的新型乙类冠状病毒以及其临床特点。现在再阅读此文有种幻如隔世的不真实感。
更新于2022年02月22日。
机器学习领域泰斗级学者Geoffrey Hinton的文章引用次数超过15000次文章有8篇。
Geoffrey Hinton论文目前的引用数总计543696次,h-index为167。
在机器学习领域还有一个泰斗级的人物Jürgen Schmidhuber,他的一篇文章Long short-term memory目前的引用量是61472次,是深度学习-循环神经网络(Recurrent Neural Network, RNN)中的重要成果。但是LeCun Y,Bengio Y和Hinton G在2015年发表在Nature上的文章Deep learning作者中没有Jürgen Schmidhuber,不过Schmidhuber在2015也发表了一篇关于深度学习的综述文章Deep learning in neural networks: An overview,目前的引用量是15060。后来,“三巨头“获得了2018年的“图灵奖”,Schmidhuber和“三巨头“在网络上因为“成果引用”和“成果认定”发生了大量的口水战,这些都是后话了。
Jürgen Schmidhuber教授最近加入了KAUST(沙特的土豪大学),担任KAUST人工智能计划的负责人,看看后续有没有惊艳的成果。
机器学习领域还有一些重要的成果,对应的文章也有不俗的引用量。比如:
一直被对比,从未被超越的Adam优化器(Adam: A method for stochastic optimization),目前的引用量是99902次;
使神经网络训练更快、更稳定的Batch normalization(Batch normalization: Accelerating deep network training by reducing internal covariate shift),目前的引用量是34636次;
Zisserman在2014年发表的关于VGGNet的文章Very deep convolutional networks for large-scale image recognition,目前的引用量是73937次。Google在2015年发表的关于GoogLeNet的文章Going deeper with convolutions,目前的引用量是37596次。2016年提出的用于目标检测的Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,目前的引用量是39795次。何凯明2016年的文章Deep residual learning for image recognition,提出的多达152层ResNet,目前的引用量是107922次。用于生物医学图像分割的U-net: Convolutional networks for biomedical image segmentation引用量为38283次(感谢 @梦飞 的补充),U-net基于encoder-decoder ,具有优雅的对称结构,优异的性能,优雅即合理?
女神李飞飞构建的ImageNet是计算机视觉领域非常著名的大型数据集,关于ImageNet的论文ImageNet: A large-scale hierarchical image database发表时间是2009年,目前的引用量是36217次,AlexNet就是在2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上一举成名,自此点燃了深度学习的热潮,可见大规模数据对于深度学习的重要性。
经常被调侃“Money(GPU) Is All You Need”的文章Attention Is All You Need目前的引用量是36755次(感谢 @zhou yu 的补充),这篇文章提出的Transformer是自然语言处理(NLP)领域的重要成果,它的出现迅速取代了LSTM在NLP领域的霸主地位,像BERT(Bert: Pre-training of deep bidirectional transformers for language understanding,2018年发表,引用量34345次)、GPT-3(Language models are few-shot learners,2020年发表,引用量3043次)这样的SOTA模型均采用Transformer。NLP领域的另一个重量级成果是word2vec,作者是来自Google的Tomas Mikolov,关于word2vec的两篇文章Distributed representations of words and phrases and their compositionality和Efficient estimation of word representations in vector space目前的引用量分别是32172次和27330次(感谢 @ccking 的补充),其实我一直觉得NLP比图像处理问题复杂的多,最让人头疼的莫过于如何将语言数字化。
谷歌大神Ian Goodfellow的关于GAN的文章Generative adversarial nets,目前的引用量是41398次,关于GAN究竟是谁提出来的我就不得而知了,但是Schmidhuber在这个问题上肯定有很多话要说,至于Schmidhuber究竟说了些啥,参见:郑华滨:从PM到GAN——LSTM之父Schmidhuber横跨22年的怨念(文字版)。
LSTM的变体GRU,Learning phrase representations using RNN encoder-decoder for statistical machine translation发表于2014年,目前的引用量是17800次,使用seq2seq模型来解决机器翻译问题,同一年发表的Sequence to sequence learning with neural networks,目前的引用量是17876次。
深度学习能够走进千家万户离不开通用的框架,关于tensorflow的文章TensorFlow: A System for Large-Scale Machine Learning引用量为16764次(感谢@Mia的补充);关于pytorch的文章PyTorch: An Imperative Style, High-Performance Deep Learning Library引用量为13041。究竟是使用tensorflow还是pytorch是讨论比较热门的话题,我觉得各有千秋,都会一点儿总是好的,工欲善其事,必先利其器。
未来我认为机器学习领域的另一个方向将会有大量的文章引用次数超过15000,这个领域便是强化学习(Reinforcement learning,RL)。强化学习领域的奠基人之一是来自DeepMind的Richard S. Sutton,它的贡献主要在时序差分学习和策略梯度法,Sutton的专著Reinforcement learning: An Introduction, 2nd edition目前的引用量是48792次。强化学习与深度学习碰撞出的DQN方法(Human-level control through deep reinforcement learning)目前的引用量是18356;用于连续控制的DDPG方法(Continuous control with deep reinforcement learning)的引用量是8130。
David Silver是Sutton的徒弟,Silver最引人瞩目的成果就是AlphoGo & AlphoGo Zero,相关的两篇文章Mastering the game of Go with deep neural networks and tree search和Mastering the game of Go without human knowledge的引用量分别是12281次和6805次。
最近DeepMind开发AlphaFold利用AI技术解决生物学50年来的重大挑战-预测蛋白质折叠,可见AI技术在众多领域表现出惊人的生命力,期待AI成为人类扩展科学知识边界的“得力助手”。
其实近几年深度学习的大热使得一些非常著名的传统机器学习算法不被人们广知。
比如Vapnik在1995年基于统计学习理论提出的支持向量机(Support Vector Machine, SVM),代表性文章Support-vector networks目前的引用量是52088次,Vapnik的关于统计学习理论的专著The Nature of Statistical Learning Theory目前的引用量是97086次。
比如关于lasso回归的文章Regression shrinkage and selection via the lasso目前的引用量是45013次,lasso回归就是大名鼎鼎的 正则化,它可以产生更加稀疏的解;与之类似的还有 正则化,也就是ridge回归。这两种正则化方法在机器学习领域大量使用,即对神经网络的权重参数进行惩罚约束,该过程通常被称为权重衰减(weight delay)。
机器学习领域很多方向都是由外国学者主导的。很庆幸的是,我们在迁移学习(Transfer learning)这个方向占据了一席之地,迁移学习领域的发起人和带头人是香港科技大学的杨强教授。杨强教授的代表性文章A survey on transfer learning目前的引用量是15876次。吴恩达在NIPS 2016中说:Transfer learning will be the next driver of machine learning commercial success after supervised learning to highlight the importance of transfer learning,让我们拭目以待吧。
下面分享一下我对机器学习的认识和理解。
机器学习被普遍认为是一种最有希望实现人工智能(Artificial intelligence, AI)的方法,经几十年的发展,机器学习领域涌现了大量的成果,Pedro Domingos教授将机器学习总结为5大流派,分别是Symbolists、Connectionists、Evolutionaries、Bayesians和Analogizers。机器学习领域的最初成果是符号主义,它的优点在于学习的模型和结果很容易实现跨领域和跨任务的推广,但是由于知识获取和表示的困难,以及当时计算能力的限制,符号主义的主张没有得到大规模的应用。随着大规模数据量和高性能处理器的出现,联结主义(神经网络)得到了飞速的发展,2012年后,以深度学习为代表的联结主义迅速火爆全球,但是以数据驱动为基础的联结主义十分脆弱,推广能力也很差,这也是为什么人们并不信任深度学习模型决策的自动驾驶系统。
因此,很多学者对未来机器学习的发展方向提供了自己的见解,Geoffrey Hinto老爷子在NIPS2017发表了一篇题目为Dynamic routing between capsules的文章(目前的引用量为3037次),核心思想在于重视图像识别中主要特征的逻辑性(向量化),如果只关注主要特征而忽视特征之间的逻辑性,很容易出现一些非常低级的错误,比如一张图片中随机分布两个眼睛、一个鼻子和一张嘴,现有的深度学习模型会认为这是一张人脸,简直不可思议。张钹院士在文章"迈向第三代人工智能"中指出:当前需要将符号主义和联结主义这两种范式结合起来,去发展安全、可信、可靠和可扩展的 AI 技术,即第三代AI技术。
我非常认同张钹院士的观点,就机器学习技术在其他学科的应用来说,我认为,数据驱动技术应该建立在领域知识(控制方程)的框架内,去开发一些physics-based & physics-informed的方法,从而使得机器学习模型做出合理的决策,对其他学科的发展起到催化作用,成为其他学科飞跃的助力点。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有