DNN/CNN把cv往前推了一大步,与其说现在cv到了瓶颈期,不如说是DNN/CNN在cv这个领域到了个瓶颈期,接下来等新理论新算法出来,又能把cv往前推进一大截。有趣的是,因为NN在cv领域的成功引起了很多关注,现在NN的台风刮到了各行各业,在别的领域倒是有巨大的发展。
CNN在一定程度上模拟了假设的生物大脑的视觉处理过程,但远没能达到人脑的视觉处理能力,今年看了几本计算神经学入门的书,人脑与CNN比起来,粗略地说有这么几点差异:
1.人脑中有3D和2D两个认识部分,其中2D部分处理平面形状和平面组合,3D部分处理3D物体和空间关系,目前的CNN只是2D平面像素的处理。
2.人脑对物体认知有尺度一致性,是统一到物理尺度上的,不受分辨率、远近、角度影响,人脑有一个3D与2D之间的映射系统,能把肉眼看到的2D的物体图像投射到脑中的3D虚拟空间中尺度一致地进行识别,而CNN没有,CNN只比对2D像素特征,所以cnn需要海量的各个角度的图片,cnn并不是理解了物体的结构,cnn只是统计上能够对物体投影到2D平面上的图像的像素特征进行标签。
3.人脑内有一个raytrace光照模型,能够推测场景的光照方向和角度,这个光照模型是长时间对光照现象的知识积累出来的,所以人脑可以理解折射、反射、通过阴影推测物体相互关系。人脑还积累着一大堆各种材质BRDF的知识。
4.人脑有一个3D与2D之间的小孔成像模型,人脑能够通过尺度叛变距离,通过距离判别尺度,并在多个物体组成的场景中通过上下文推理从而理解整个场景的空间关系。
现阶段的CNN只比对2D像素特征,这只是人脑的视觉处理过程中很小的一部分,缺失了很多,所以一定不会好。而对于其它的关键部分,例如raytrace model ,一致性 model,3D-2D转化model这些如何用NN来做?数据如何编码?NN如何设计?如何训练?如何与其它模块串成pipeline?我没看到有影响力的论文出来,甚至都没听到有人在做。
我觉得现在很多做NN的都在钻牛角尖,换来换去各种网络,没有人从计算神经学角度看问题,在这些问题解决之前,纯靠微调model、堆网络规模和训练数据来实现对场景的理解我觉得是不可能的。一年前听andrew ng的演讲,他说他们解决NN效果不好的方法就是上更深的model和更多的数据,太简单粗暴了。
而计算神经学的那帮家伙,只会忙着用fMRI标记大脑活动。
我也是一脸懵逼。
update:
书单:
Medicine & Health Science Books @ Amazon.com
这3本我只是跳着看了几个章节,可能看完后会有不同的理解吧,自己胡乱在网上搜到的
谢邀, 其实这个问题也是我近段时间一直在思考的问题. 昨天刚在组里做了个ECCV'16 Recap, 整理一下思路, 来尝试抛砖引玉.
我的观点是:计算机视觉在人工智能和深度学习的大背景下方兴未艾.
这里进入瓶颈期的,可能是一些计算机视觉的经典问题,如物体识别和检测(人脸,行人,物体,场景 etc).但是如果能死磕这些经典问题,往往能带来质的突破,比如说对于ImageNet物体识别GoogLeNet之后,大部分人应该都不会想到还有ResNet这种牛逼网络的出现:).计算机视觉这个领域本身,我觉得是正在蓬勃发展, 经典问题得到了更好的解决, 新的问题也不断涌现.
如果把Deep Learning进入CV的2012年作为新时代的开始,我自己是从旧时代来的人.对于从旧时代过来的人,现在无疑是CV以及AI最好的时代.我自己当年是看着Dahua Lin的blog,以及
@Filestorm和
@田渊栋在SJTU饮水思源AI版的论战进入CV和AI研究圈子的(这里特别感谢三位师兄当年的分享),那时候大家讨论的东西都是graphical model, sparse coding, bag of SIFT, spatial pyramid 啥的,也没有工作抢着放arXiv的传统,也没有满大街的open source libraries. 每年CVPR接收的论文到现在的1/2都不到. 每次开会前proceeding放出来的时候都会沐浴更衣把大部分感兴趣的论文扫一遍.
现在的CV和AI研究其实是变得越来越扁平快了.随手可得的open source libraries和pretrained models, 互联网上各种分享的学习资料和经, 便宜的GPU计算资源, 以及百花齐放的研究方向,都使得新入行的生猛年轻人能很快倒腾出新东西. 发表CVPR, NIPS, AAAI等顶会文章也不再是难事. 论文数量和研究方向也是繁多. 已经很难follow.
现在很多时候, 我觉得做CV的研究更像是在拼工程能力, 而不是拼insight和积累了. 后来的人也许并没有多少动力和精力去学习和了解之前的经典. 这也是我担忧的地方. 但时代造人, 这些也是无可厚非的, 毕竟我们希望更多有闯劲的年轻人进入CV和AI圈子, 一起大炼钢:). 争先放arXiv, 开源code等无疑加速了研究的迭代速度, 有更大的可能性激发出新的研究方向和成果. 大公司们(Google, Facebook, Amazon)以及诸多startup们, 也都虎视眈眈地渴望着更多更好的研究工作出现.
另外, 如果硬要我说几个CV目前有肉容易啃的方向, 那我就大致提提(注:这些方向大致都偏纯学术,有什么商业价值我并不是怎么关心):
1. Robotics (or Simulation Graphics)+Vision. Robotics那边的人普遍比较保守, 更执着于传统template matching之类的传统方法. 这里有个段子, 我们MIT机械工程系robotics方向的大牛教授John Leonard很久以前评论Computer vision, 直接说你们'CVPR'里面的各种论文, 就是Computer Vision and Precision Recall. 什么意思大家应该能理解:). 不过在deep learning开始真正work的时代, 他这句话应该不太适用了(笑). 回到正题, Robitics本身是块非常大的饼, 很多问题和方法都可以用deep learning (CNN + Deep Reinforcement learning) 重新解决. 偏Robotics的话, 大家可以留意一下Berkeley的大红人Sergey Levine最近的工作(
Sergey Levine). 偏Vision的话,可以看看CMU的大红人Abinav Gupta的ECCV paper Curious Robot (
https:// arxiv.org/pdf/1604.0136 0v2.pdf). Jianxiong Xiao之前主打的3D deep learning (
http:// robots.princeton.edu/ta lks/2016_MIT/RobotPerception.pdf)也可以算在这个里面,他们团队和MIT团队最近搞了个Amazon Pick challenge, 模型和方法还有点意思(
MIT-Princeton Vision Dataset for the APC 2016). 不过Xiao已经下海经商, 不知道还会不会actively publish. 现在各大公司和startup猛搞的autonomous drive, 也可以放在这个方向之下.
最近我还留意到一个非常有潜力的方向Simulation+Vision. 我觉得有两个具体方向,一个是利用graphics里面的rendering仿真技术,生成大量数据.这些数据因为是生成出来的,任何ground-truth都有,而且要多少有多少, 是获取训练数据的一个捷径.CVPR'16有篇做synthetic image dataset for semantic segmentation of urban scene(
http://www. cv-foundation.org/opena ccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf).另外一个方向是结合graphics中的simulation,利用deep reinforcement learning等active learning的算法可以无监督/弱监督训练出agent model,这里就不仅限于纯CV了.DeepMind和OpenAI在猛搞这个方向.偏vision的话大家可以参考下Allen Institute这篇(
https:// arxiv.org/pdf/1609.0514 3v1.pdf).
2. Generative visual models. 目前大部分的模型都是discrminative model, 给定input, 然后识别label. 但这个故事的另外一半其实是generative model, 给定label, 然后生成图片. generative models是一个很有潜力的大方向. 这里的最新进展一方面是基于GAN (
https:// arxiv.org/pdf/1511.0643 4v2.pdf) 所带来的一种训练图片生成的新思路, 也包括一些基于传统image model, 如MRF和CRF在deep learning的新思路下面进行重新理解. DeepMind的这篇PixelCNN(
https:// arxiv.org/pdf/1606.0532 8v2.pdf), 最近Zhirong和Dahua的挺不错的ECCV论文(
http:// dahua.me/papers/dhlin_d eepmrf.pdf). 个人觉得Varionational Autoencoder也是个蛮漂亮的模型, 这里有篇关于VAE的最新的tutorial还不错(
https:// arxiv.org/pdf/1606.0590 8v2.pdf). 以后deep learning跟bayesian model的结合也会是个颇具潜力的方向.
3. Multimedia Computer Vision. 其实人的感知系统本身就是多模态的, 视频和声音共同结合.Video analysis不再局限于action recognition, 对内容本身有更深的理解. 比如说最近的MoiveQA (
MovieQA), Visual Anticipation prediction (
http:// web.mit.edu/vondrick/pr ediction.pdf). 另外, sound也是一个大家普遍忽略掉的一个东西. 大家可以看看我们组Andrew Owen的两个蛮有意思的工作ECCV'16 Ambient Sound Provides Supervision for Visual Learning (
https:// arxiv.org/pdf/1608.0701 7.pdf), CVPR'16 Visually Indicated Sounds (
Visually Indicated Sounds). 多模态来研究vision是个大趋势.
我认为计算机视觉最大的问题是:
它对标的是人类的眼睛。
因此上,他有一个无法回避的法律问题。
如果计算机视觉开的车,撞死了人。要不要赔钱。
如果是人开车撞死了人。这个非常简单。把这个人抓起来,让这个人赔钱就好了。
但是,计算机视觉开的车,撞死了人。怎么办。开发这个算法的人,使用这个算法的公司赔钱吗??要是这样,那可有的玩了。。
有一个上世纪90年代的笑话是这么说的。
别看,比尔盖茨是世界首富。如果Windows操作系统死机一次,就让比尔盖茨赔一美元。要不了三天。比尔盖茨就会破产。。
就好像P2P技术一样。十年前veryCD活到不行。。结果一纸禁令直接凉透。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有