谢邀。 作为论文参与者之一,我做的很有限,在这里擅自谈谈我个人对周老师gcForest的一点愚钝看法。这里声明:所有观点仅仅代表我个人。 先说几点个人的结论:
1. 这是一个Deep Model,只不过building blocks是决策树。 这篇工作不是来砸深度学习的场子的,深度学习蛮好,而基于神经网络的深度模型探索的差不多了,我们想探索一下基于树的深度模型的可能。 个人认为没有合理理由能够確認基于决策树的深度模型的尝试是徒劳,而决策树的集成本身具有很多神经网络所不具备的性质,所以花一些时间和精力进行研究是很值得的事情(至少比调参强)。 2. 这只是个开始。 决策树有很多蛮恐怖的性质,目前我只想说其实我们对森林的力量一无所知,里面的潜力巨大,有待开发。深度学习从06年提出到12年,中间花了差不多6年的时间不断发扬光大,如果指望一篇文章就能搞定这么多年,这么多学者,以及这么多资金的事情,这也是不可能的。 3. 性能 很抱歉,出于我个人的懒惰,没怎么调整这个森林的结构。因为我们注重的是通用性。。 前一阵又大致把森林复杂度做了一下,MNIST是99.39%(上升余地依然存在,因为我仅仅把森林double了一下。。),我知道很多做视觉的朋友觉得CIFAR/ImageNet应该跑,这里稍微说几句: a) 做视觉的朋友觉得CIFAR/ImageNet的模型性能是宇宙中心,但其实并不是做机器学习的人的中心,在这篇工作中,我们更关注一个通用的框架。
b) 也想跑来着,但是没有实现分布式算法,而我的单机内存有限,后来还是优化了一下程序,CIFAR10是能跑起来了,每加一块儿内存条,性能往上走4个点,目前单机能到70%。AlexNet是83%,相比之下有10%的差距。但是请注意:深度全链接神经网络(MLP)是47%,Alex用Deep Belief Network(这可是深度学习的第一个重要模型)在cifar10上是65%, 而其他所有非神经网络的模型都是55%以下(如果对输入不作任何变化的话)。我个人揣度作为deep forest的第一篇工作,这个结果也算是够了?(至少比深度限制玻尔兹曼机的性能和普适性强点儿?)
c) 这是第一篇工作,目的是提出一个较为通用的框架和方向,未来会有基于计算机视觉应用的专门优化。
d) 你们谁送我几块儿内存条使使? 其他的内容,请大家看周老师的论文原文就好了。 再回应一些评论: 1. “没有BP肯定不行。” 很抱歉,这个不大同意。BP是一个很棒的算法,也在我个人最喜欢的算法top5. BP在神经网络中很重要,但是,如果认为没有BP肯定不行,那就有些思维定势了,类似于没有翅膀就不能上天 这种论断。。飞上天的不仅仅有鸟和飞机,还有火箭。 举个栗子: 虽然不是做神经网络的,但是也清楚有不少现成的神经网络模型没有BP,比如大名鼎鼎的NEAT。(如果我没记错的话,有一个GAN 的工作就是用NEAT做的G?) 再举个稍微跑题的栗子: 上个月OpenAI的Evolution Strategies as a Scalable Alternative to Reinforcement Learning (这个标题很酷啊,偷笑) ...No need for backpropagation. ES only requires the forward pass of the policy and does not require backpropagation (or value function estimation), which makes the code shorter and between 2-3 times faster in practice. 所以其实BP在很多任务里并不是加分项,并不是说少了BP就玩儿不转了。。 有不少做神经网络的大神也一直在尝试做一些取代BP的事情,这个不是什么密事:连我都知道。 2. “无法feature transfer。” 抱歉,这个也大不同意。自己觉得没法做,和别人也没法做是两回事。。。这个现在还不能讲太多。 3. “无法End to End。” 这也算是深度学习从业者里面常见的一个cliché. 类似于BP,E2E不是模型能够work的必要条件。另外说句题外话,如果看机器学习的历史的话,有很多非神经网络的e2e模型并不work的。。 4. “希望在这个浮躁的年代,每个人尤其是研究者保持独立思考,不要人云亦云。不忘初心,方得始终。” 这句话本身说的很对。我很赞成。 需要商榷的是:什么是始,什么是终,什么又是初心呢? 为了准确度,在神经网络上反复调参的难言之隐,这,是初心吗? 两年前的Embedding + Everything, 一年前的GAN + Everything 而寫出来上千篇文章,这,是初心吗? 拿着榔头满世界找钉子而搞出来的上万篇应用,这,是初心吗? 把深度神经网络炒作成强人工智能时代的来临,用一些具有误导性的demo来“展示”机器已经具备了人类的情感,这,是初心吗? 个人认为,不同的群体,初心应该是不一样的: 作为计算机视觉/自然语言处理等做应用的人来说,抛弃了所有领域知识,只会用神经网络,个人觉得也算是忘记初心了吧。。个人比较怀疑样做是解决CV/NLP的终极途径。。我不是做应用的,这方面不好多谈,斗胆建议大家读一下UCLA教授,计算机视觉的大神之一朱松纯教授的访谈:“初探计算机视觉三个源头兼谈人工智能” http://it.sohu.com/20161129/n474464488.shtml 我猜,朱教授所提到的源头,大概应该算作是计算机视觉的“初心”吧。
作为机器学习这门学科的研究者,初心应该是不断推出有一些创新性的方向,从理论上有所启迪,或者提出的模型让下游的应用学科人有所收获。例如在别人不看好CNN的时候,Yann LeCun能默默的坚持下来,将神经网络的潜力发挥到极致,这算是不忘初心,这是真牛叉。
而拿几个demo刷刷分找找风投,水水文章,工作做的四平八稳之余,去嘲笑和否定真正啃硬骨头的人,似乎不是一件非常酷的事情。当然灌水没什么丢人的(弱菜如我,这事儿干起来无比来劲儿),为某一个理论添砖加瓦更是现代科学精神的体现。可是,你得允许世界上存在那么一小撮人,他们有尝试其他事情的权利。这就是价值观的不同了。 5. “如果有实习生来跟我讲这样一个idea,我绝对不会同意去做的工作。。” 这个。。。内心其实是有些庆幸。
我甚至觉得可以作为南大LAMDA组招生的宣传语:“在我们学科组,可以做一些以深度学习为技术核心的公司里绝对会被毙掉的好玩工作。” 那就宣传几句吧,其实LAMDA组的方向很全面,有专门做理论证明的高尉教授,他用了5年时间证明了一个boosting里面的一个悬而未决的大问题,是当年机器学习理论界的年度突破之一(很多人不认为能证出来),有专门做大规模分布式机器学习算法的李武军教授(每周5个小时马拉松式的组会雷打不动),有专门做深度学习的,同时也是MINIEYE的首席科学家吴建鑫教授(他的学生你们肯定知道,知乎大神 @魏秀参),有把人工智能技術引入軟件工程學科的黎銘教授,还有在所有人都不看好强化学习的时候就在该领域默默耕耘独树一帜的俞扬教授(现在RL火的一塌糊涂,真是风水轮流转。。)以及做优化的大神张利军教授,度量学习的詹德川教授(码力超群,又萌又胖),半监督学习的李宇峰教授,机器学习理论的王魏教授等等。。当然还有学术洞察力深刻到令人发指的周老师镇楼,这就不用多说了。鄙组教授们方向之全,颇具优势,共同点只有一个:不随波逐流,是严肃做研究的主。作为组里的学生,在机器学习的大部分领域遇到问题,直线距离30-50米之内就能找到正确的教授,面对面给予你真正专业的帮助与辅导,这在其他地方是很难做到的。本科生开放日就要到了,请学弟学妹们关注招生情况。比心。
第一次在知乎答题,点赞破五百就把代码在六一节前放上来,作为儿童节献礼。 至少拿去刷刷Kaggle竞赛还是挺好使的。。 最后,祝大家不忘初心,方得始终(这句片儿汤话实在是百搭啊。。。)算了,划掉。 你若安好,便是晴天。
轉載請註明來源
(點贊是玩笑話啦,敝組的工作code沒有不開源的,目前還在review,合適的時候肯定會放上來,據我了解是在6.1前。無關幾個讚)
===================================
请直接访问LAMDA官方主页 数据与代码 - LAMDA 搜索相应code即可(gcForest)
或者 https://github.com/kingfengji/gcforest
====================================
谢邀啊,现在流行在知乎上review paper哈。先说下面的观点只针对paper不对人(其实也算是认识作者),欢迎进行友好学术讨论。
先说我的结论:相比前两天引起了广泛讨论的ICLR best paper,这个paper其实更没有什么讨论的意义。当然作为一个research来说,paper还是可以中的,尤其是对于IJCAI。但是我完全不看好这个paper会有什么长远的影响力,以及有人说的可以启发大量后续研究。下面分别从这个idea,实现方法,以及实验结果三个方面分析。
1. Idea
不用多说,通过stacking weak learner来提升模型性能的想法已经非常常见。然而这样一个idea一定不会work,原罪就在于tree based model无法进行fine-tune。这会带来两个非常严重的问题:
A. 无法进行end to end learning,这会极大程度上影响到模型最终的结果。会使depth完全发挥不出威力。
B. 无法进行feature transfer,CNN最最最重要成功的秘诀就在于可以在ImageNet这样海量的数据上进行pretrain,然后再把学习到的(approximately) general feature 通过finetune transfer到其他任务中去。如果BP都没法做,这个就完全无从谈起了。
换句话说,如果这样的Idea能在大数据上work,那么其实相当于否定了BP存在的意义。以后大家都一层一层加就是了嘛。当然这样的好事是不存在的。。。
如何把tree based model可以做到e2e训练,以及拓展开来如何更高效地把更高效的base learner引入神经网络这又是另外一个故事。我们在这方面也做了一些尝试,但是所有的这一切的基础都是可以bp。
2. Method
这里使用了一个stacking random forest的方法来实现上述idea。从创新性上而言,在Kaggle比赛中不同种类模型之间的Stacking和Concatenation早就不是什么新想法。所以从实现层面上而言,仍旧乏善可陈。而且中间层只是把最终分类的结果concat在一起,都不是把每个tree生成的leaf对应的feature。个人觉得这样会严重影响stack的性能,好歹之前FB还是把GBDT的每个leaf当成一个feature才去train的logisitic regression。
3. Experiment
这是本文槽点最多的部分。看到还在跑MNIST和ORL就知道这完全是做ML的人的玩具。不熟悉别的应用,单就Vision而言,这个结果比ELM其实还没说服力,而且我相信会有更简单的模型同样可以达到类似的结果。比如随便开开脑洞train个SVM中间加个non-linear transformation什么的。现在在CVPR大家都知道Cifar都不能算是有信服力的数据集,更何况MNIST和ORL这种。
另外,比较的网络结构也都是拍拍脑袋想出来的,唯一比了一个经典结构LeNet5还没比过。。不过基于上述第一点的看法,我完全不相信这样的算法能在稍微大一些的数据集上取得还不错的结果。
另外我觉得非常不合适的claim:
1. Table1中画了很多问号,显得CNN要调整的参数有非常多。然而实际上,绝大部分参数都是有默认的设置的。剩下的参数也可以快速通过简单的试错得到一个还不错的初始值。对于这个问题,我的观点一直是每天在抱怨CNN调参困难,在用grid search的人,其实还没理解CNN。
2. 作者不停在claim说gcForest在小数据好,无需调参。然而这只是在不停强调一个low capacity model的好处,这个事情的另外一面在于low capacity model会很快饱和,喂进去再多数据也不会有性能增长。更进一步说,我丝毫不会奇怪tree based model在同等参数条件下比nn based model结果好。因为tree based model就是可以更好地利用参数,然而上限也很快会到来。
最后给大家罗列几个非常相似的idea和claim,最后都无法在大数据上取得令人信服结果的工作:
0. DSN:邓力老师的工作。基本完全一样的idea,除了是用NN不是forest。
1. ELM:这么多年了,仍然没有拿得出手的让人信服的结果。。。
2. PCANet:好在作者自己就认识到这是一个baseline的工作,尝试过大数据,并不work。
3. SARM:去年炒的沸沸扬扬的NIPS撤稿了的工作。其实单从方法本身来讲着paper并没啥太大问题。但是请大家注意,这个工作当初引起了诸多大牛的注意就是因为paper实验中讲在ImageNet上做出来很好的结果。不过最终也是证明是由于实验错误导致的。
这里有一个三年前做的survey,大家可以随手一看:http://winsty.net/talks/nonNN.pptx
综上,这个paper作为一个junior PhD练手的工作还好,但是要谈多大影响力实在差的还远。历史总是在重复上演,这个idea是属于那种如果有实习生来跟我讲这样一个idea,我绝对不会同意去做的工作。。。
最后吐槽,一个paper的影响力长期来看是会均值回归的,不会因为某个媒体或者某个人爆炒一波成就一个经典工作。希望在这个浮躁的年代,每个人尤其是研究者保持独立思考,不要人云亦云。不忘初心,方得始终。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有