计算机视觉是否已经进入瓶颈期？第1页

huang-xiang-38 网友的相关建议:

DNN/CNN把cv往前推了一大步，与其说现在cv到了瓶颈期，不如说是DNN/CNN在cv这个领域到了个瓶颈期，接下来等新理论新算法出来，又能把cv往前推进一大截。有趣的是，因为NN在cv领域的成功引起了很多关注，现在NN的台风刮到了各行各业，在别的领域倒是有巨大的发展。

CNN在一定程度上模拟了假设的生物大脑的视觉处理过程，但远没能达到人脑的视觉处理能力，今年看了几本计算神经学入门的书，人脑与CNN比起来，粗略地说有这么几点差异：

1.人脑中有3D和2D两个认识部分，其中2D部分处理平面形状和平面组合，3D部分处理3D物体和空间关系，目前的CNN只是2D平面像素的处理。

2.人脑对物体认知有尺度一致性，是统一到物理尺度上的，不受分辨率、远近、角度影响，人脑有一个3D与2D之间的映射系统，能把肉眼看到的2D的物体图像投射到脑中的3D虚拟空间中尺度一致地进行识别，而CNN没有，CNN只比对2D像素特征，所以cnn需要海量的各个角度的图片，cnn并不是理解了物体的结构，cnn只是统计上能够对物体投影到2D平面上的图像的像素特征进行标签。

3.人脑内有一个raytrace光照模型，能够推测场景的光照方向和角度，这个光照模型是长时间对光照现象的知识积累出来的，所以人脑可以理解折射、反射、通过阴影推测物体相互关系。人脑还积累着一大堆各种材质BRDF的知识。

4.人脑有一个3D与2D之间的小孔成像模型，人脑能够通过尺度叛变距离，通过距离判别尺度，并在多个物体组成的场景中通过上下文推理从而理解整个场景的空间关系。

现阶段的CNN只比对2D像素特征，这只是人脑的视觉处理过程中很小的一部分，缺失了很多，所以一定不会好。而对于其它的关键部分，例如raytrace model ，一致性 model，3D-2D转化model这些如何用NN来做？数据如何编码？NN如何设计？如何训练？如何与其它模块串成pipeline？我没看到有影响力的论文出来，甚至都没听到有人在做。

我觉得现在很多做NN的都在钻牛角尖，换来换去各种网络，没有人从计算神经学角度看问题，在这些问题解决之前，纯靠微调model、堆网络规模和训练数据来实现对场景的理解我觉得是不可能的。一年前听andrew ng的演讲，他说他们解决NN效果不好的方法就是上更深的model和更多的数据，太简单粗暴了。

而计算神经学的那帮家伙，只会忙着用fMRI标记大脑活动。

我也是一脸懵逼。

update：

书单：

Seeing: The Computational Approach to Biological Vision (MIT Press) (9780262514279): John P. Frisby, James V. Stone: Books

Vision: A Computational Investigation into the Human Representation and Processing of Visual Information (MIT Press): David Marr, Tomaso A. Poggio, Shimon Ullman: 9780262514620: Amazon.com: Books

Medicine &amp; Health Science Books @ Amazon.com

这3本我只是跳着看了几个章节，可能看完后会有不同的理解吧，自己胡乱在网上搜到的

zhou-bo-lei 网友的相关建议:

谢邀, 其实这个问题也是我近段时间一直在思考的问题. 昨天刚在组里做了个ECCV'16 Recap, 整理一下思路, 来尝试抛砖引玉．

我的观点是：计算机视觉在人工智能和深度学习的大背景下方兴未艾．

这里进入瓶颈期的，可能是一些计算机视觉的经典问题，如物体识别和检测（人脸，行人，物体，场景 etc）．但是如果能死磕这些经典问题，往往能带来质的突破，比如说对于ImageNet物体识别GoogLeNet之后，大部分人应该都不会想到还有ResNet这种牛逼网络的出现：）．计算机视觉这个领域本身，我觉得是正在蓬勃发展, 经典问题得到了更好的解决, 新的问题也不断涌现．

如果把Deep Learning进入CV的2012年作为新时代的开始，我自己是从旧时代来的人．对于从旧时代过来的人，现在无疑是CV以及AI最好的时代．我自己当年是看着Dahua Lin的blog，以及

@Filestorm

和

@田渊栋

在SJTU饮水思源AI版的论战进入CV和AI研究圈子的（这里特别感谢三位师兄当年的分享），那时候大家讨论的东西都是graphical model, sparse coding, bag of SIFT, spatial pyramid 啥的，也没有工作抢着放arXiv的传统，也没有满大街的open source libraries. 每年CVPR接收的论文到现在的1/2都不到. 每次开会前proceeding放出来的时候都会沐浴更衣把大部分感兴趣的论文扫一遍.

现在的CV和AI研究其实是变得越来越扁平快了．随手可得的open source libraries和pretrained models, 互联网上各种分享的学习资料和经, 便宜的GPU计算资源, 以及百花齐放的研究方向，都使得新入行的生猛年轻人能很快倒腾出新东西. 发表CVPR, NIPS, AAAI等顶会文章也不再是难事. 论文数量和研究方向也是繁多. 已经很难follow.

现在很多时候, 我觉得做CV的研究更像是在拼工程能力, 而不是拼insight和积累了. 后来的人也许并没有多少动力和精力去学习和了解之前的经典. 这也是我担忧的地方. 但时代造人, 这些也是无可厚非的, 毕竟我们希望更多有闯劲的年轻人进入CV和AI圈子, 一起大炼钢:). 争先放arXiv, 开源code等无疑加速了研究的迭代速度, 有更大的可能性激发出新的研究方向和成果. 大公司们(Google, Facebook, Amazon)以及诸多startup们, 也都虎视眈眈地渴望着更多更好的研究工作出现.

另外, 如果硬要我说几个CV目前有肉容易啃的方向, 那我就大致提提（注：这些方向大致都偏纯学术，有什么商业价值我并不是怎么关心）:

1. Robotics (or Simulation Graphics)+Vision. Robotics那边的人普遍比较保守, 更执着于传统template matching之类的传统方法. 这里有个段子, 我们MIT机械工程系robotics方向的大牛教授John Leonard很久以前评论Computer vision, 直接说你们'CVPR'里面的各种论文, 就是Computer Vision and Precision Recall. 什么意思大家应该能理解:). 不过在deep learning开始真正work的时代, 他这句话应该不太适用了(笑). 回到正题, Robitics本身是块非常大的饼, 很多问题和方法都可以用deep learning (CNN + Deep Reinforcement learning) 重新解决. 偏Robotics的话, 大家可以留意一下Berkeley的大红人Sergey Levine最近的工作(

Sergey Levine

). 偏Vision的话，可以看看CMU的大红人Abinav Gupta的ECCV paper Curious Robot (

https:// arxiv.org/pdf/1604.0136 0v2.pdf

). Jianxiong Xiao之前主打的3D deep learning (

http:// robots.princeton.edu/ta lks/2016_MIT/RobotPerception.pdf

)也可以算在这个里面，他们团队和MIT团队最近搞了个Amazon Pick challenge, 模型和方法还有点意思（

MIT-Princeton Vision Dataset for the APC 2016

）. 不过Xiao已经下海经商, 不知道还会不会actively publish. 现在各大公司和startup猛搞的autonomous drive, 也可以放在这个方向之下.

最近我还留意到一个非常有潜力的方向Simulation+Vision. 我觉得有两个具体方向，一个是利用graphics里面的rendering仿真技术，生成大量数据．这些数据因为是生成出来的，任何ground-truth都有，而且要多少有多少, 是获取训练数据的一个捷径．CVPR'16有篇做synthetic image dataset for semantic segmentation of urban scene（

http://www. cv-foundation.org/opena ccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf

）．另外一个方向是结合graphics中的simulation，利用deep reinforcement learning等active learning的算法可以无监督／弱监督训练出agent model，这里就不仅限于纯CV了．DeepMind和OpenAI在猛搞这个方向．偏vision的话大家可以参考下Allen Institute这篇（

https:// arxiv.org/pdf/1609.0514 3v1.pdf

）．

2. Generative visual models. 目前大部分的模型都是discrminative model, 给定input, 然后识别label. 但这个故事的另外一半其实是generative model, 给定label, 然后生成图片. generative models是一个很有潜力的大方向. 这里的最新进展一方面是基于GAN (

https:// arxiv.org/pdf/1511.0643 4v2.pdf

) 所带来的一种训练图片生成的新思路, 也包括一些基于传统image model, 如MRF和CRF在deep learning的新思路下面进行重新理解. DeepMind的这篇PixelCNN(

https:// arxiv.org/pdf/1606.0532 8v2.pdf

), 最近Zhirong和Dahua的挺不错的ECCV论文(

http:// dahua.me/papers/dhlin_d eepmrf.pdf

). 个人觉得Varionational Autoencoder也是个蛮漂亮的模型, 这里有篇关于VAE的最新的tutorial还不错(

https:// arxiv.org/pdf/1606.0590 8v2.pdf

). 以后deep learning跟bayesian model的结合也会是个颇具潜力的方向.

3. Multimedia Computer Vision. 其实人的感知系统本身就是多模态的, 视频和声音共同结合．Video analysis不再局限于action recognition, 对内容本身有更深的理解. 比如说最近的MoiveQA (

MovieQA

), Visual Anticipation prediction (

http:// web.mit.edu/vondrick/pr ediction.pdf

). 另外, sound也是一个大家普遍忽略掉的一个东西. 大家可以看看我们组Andrew Owen的两个蛮有意思的工作ECCV'16 Ambient Sound Provides Supervision for Visual Learning (

https:// arxiv.org/pdf/1608.0701 7.pdf

), CVPR'16 Visually Indicated Sounds (

Visually Indicated Sounds

). 多模态来研究vision是个大趋势.

lu-luce 网友的相关建议:

我认为计算机视觉最大的问题是：

它对标的是人类的眼睛。

因此上，他有一个无法回避的法律问题。

如果计算机视觉开的车，撞死了人。要不要赔钱。

如果是人开车撞死了人。这个非常简单。把这个人抓起来，让这个人赔钱就好了。

但是，计算机视觉开的车，撞死了人。怎么办。开发这个算法的人，使用这个算法的公司赔钱吗？？要是这样，那可有的玩了。。

有一个上世纪90年代的笑话是这么说的。

别看，比尔盖茨是世界首富。如果Windows操作系统死机一次，就让比尔盖茨赔一美元。要不了三天。比尔盖茨就会破产。。

就好像P2P技术一样。十年前veryCD活到不行。。结果一纸禁令直接凉透。

lu-ce-wu 网友的相关建议:

首先这是Fed一月 memo

先说结论：

FOMC 维持利率在 0-0.25% 不变。且确定 3 月完全停止 QE，同时 3 月加息也是箭在弦上，基本会后声明皆符合市场预期，没有太多的意外。

Powell 记者会确实是偏一点点的小鹰派，但我也认为，Powell 的说法不至于拉升市场加息预期至 5次、并拉升缩表预期至上半年，反而比较像是在强化加息 4 次之预期。

另外我个人觉得，一些中文媒体似乎误读了Powell 记者会的部分片段，下面 Allen 再进一步说明。

1. 3 月加息停止 QE 早已定价

本次会议 Fed 再次确认 3 月将准备第一次加息，并同时停止 QE。

Fed 也再次重申，货币政策是要支持美国经济达到充分就业、与通膨长期均值维持 2.0% 的两大目标。

这部分我想市场早已定价，这裡完全不会是问题，所以我们不讨论太多。

2.未来加息在每次会议都可能发生 (?)

Powell 的原文说法是：Won't Rule Out Hike Every Meeting.

但我有看到部分中文媒体写：不排除每次会议都加息的可能性。

上述我想或许是误读了 (还是其实是我自己误会中文的意思 ?)

我的理解是：Powell 是说加息在未来每场会议都可能发生，指的是“不会在特定月份才加息”，不是说每场都要加息。

Powell 说得很合理，经济本来就是动态的，加息本就不会侷限在什麽月份才启动，端看当时的经济状况而定。

我认为Powell 上述说法，并未延展今年加息预期至五次或更多，若有这种想法，那绝对是误读了。

3.更大规模的缩表？

Powell 在记者会上提到，Fed 需要更大规模的缩表，但请大家不要恐慌，因为我又觉得部份中文媒体过度解读了。

我认为Powell 说到的“更大规模缩表”，在思维上指的是：

因为当前 Fed 资产负债表高达 8.9 万美元，这是新冠疫情爆发之前的两倍大，显然在绝对规模上是非常巨大的。

而上一轮 2017-2019 年 Fed 缩减资产负债表，是自 4.4 万亿美元缩到 3.7 万亿美元停止，缩表的幅度大概是 15.9%，共缩减了约 7000 亿美元。

确实每次缩表的经济背景绝对是不一样的，所以幅度也绝对不会相同，但我们随便抓，假设本轮缩表将缩减 10% 资产负债表规模，那麽这也要降低 8900 亿美元，规模当然很大。

但我认为，不需要过度恐慌在“更大规模缩表”这几个字上。更重要的，我认为是“Fed 缩表的速率是多少？”

我相信缩表没问题，缩表太快才是问题，因为缩表速度若太快，将直接影响的会是美债殖利率升速、以及殖利率曲线的斜率。

这点Powell 也非常清楚，Powell 在记者会上也不断强调，联准会内部尚未具体讨论到一切缩表的进度，要等到 3 月再说。

4.缩表比较可能落在下半年

Powell 在记者会上说明，希望在加息至少一次之后，再来开会讨论缩表的事情，且委员会至少将讨论一次，才会做最终拍板。

更重要的，Powell 希望缩表的进程是有秩序的、是可被预见的过程。

从上述Powell 丢出的时间表看，我个人认为缩表将落在 2022 下半年，最快可能是 6 月份，因为在 3 月加息后，Fed 才会来讨论缩表。

我个人相信 Fed 现在内部早已在讨论缩表，但委员会显然尚未准备好来与市场沟通缩表的前瞻指引。

而缩表这麽大的事情，我个人认为 Fed 需要起次跟市场沟通 2 次，并把缩表规划说得非常清楚之后，才会开始进行，所以比较合理的缩表时间，估计将会落在下半年。

5.最大风险：高通膨

Powell 在记者会上，大概提到了 800 万次的“高通膨压力”，并认为目前美国通膨风险仍在上升阶段，但预计 2022 通膨还是会回落。

Powell 说明，目前美国通膨居高不下，主要仍是供应链所致，白话来说就是供需仍然失衡，且供给侧 (Supply Side) 改善的速度是低于预期。

Powell 强调，目前美国高通膨持续存在，而美国经济要的是长期扩张，所以若要长期扩张，物价势必需要保持稳定。

这边开始进入正题了，我认为这是本次会议的最重要核心，是让我体感上，觉得 Fed 鹰派的地方。我认为 Fed 承认自己落后给菲利浦曲线 (Behind the curve)，简单而言，Fed 这次的加息速度大幅落后给通膨。

由于 Fed 在 2021 年对于通膨的误判，先前 Fed 在 2021 年认为通膨在年底就可望自然回落，但也就是因为这件事没有发生，反而通膨还更为严重，所以目前才有使用加息来追赶通膨的压力。但当前宏观环境看，通膨的压力是来自于缺工、供应链紧俏等问题，再加上拜登政府的大力推行财政刺激在那边推波助澜~

所以这一次的通膨是来自于实体经济上的供需失衡问题，并不是金融市场过度投机、企业超额投资等问题，我认为 Fed 在这次的通膨问题上，能做得空间非常有限。

这裡将产生一个不确定性的较大风险，就是 Fed 只能靠货币紧缩去压通膨预期，但实体经济的根本性通膨问题，还是没有获得解决。变成最终 Fed 只能再用更剧烈的紧缩政策，去引导通膨预期走低后，尝试来压低实际通膨率，所以这裡将让 Fed 的紧缩路径，存在著较大不确定性。

比较好的处理方式，应该是直接去解决实体经济上的缺工和供应链/例如我之前提到的塞港问题，让实际通膨率自己走低、而不是靠 Fed 挤压通膨预期之后去引导。

谁可以去把坐在白宫裡疑似患有阿兹海默的白髮老头一巴掌打醒...还我特~

结论：我个人认为 Fed 今年将加息四次，不至于加息五次，而加息四次之预期，相信市场应该已经定价；至于缩表，相信市场尚未定价，估计将落在 2022 下半年，最快可能是 6 月。

如果 Fed 今年加息五次，我会感到非常意外，因为这意味著 Fed 很可能在 2023 年底、2024 年初，就因为美国经济放缓太快而需要降息，Fed 这波操作就会变得非常韭。

最后说说股市的想法目前 Nasdaq 已经插水一段时日，抑制通胀是当务之急，而股市所谓修正才多久已出现V转。对通胀而言意义不大，修正数月才可能有帮助~所以我之前一直描述为“恐慌”。因此对白髮老头而言，怎麽做才有利于中期选举就很清晰了。

最好还是坚持认为市场或已定价加息四次之预期，但缩表预期则是尚未定价的观点。

配置上美股我倾向持有科技权值股，一些 Megacap 的估值我认为合理、前景确定性较高，而这样也可以让你的收益贴著 QQQ 走。

考虑到一堆成长股腰斩，我也愿意加仓接刀成长股，但建议佔据投资组合的比例，或许不要超过 15%，如果选股功力不错，这裡就会开始让你的收益拉开与 QQQ 之类的差距。

最后，我相信人人都会想在市场下跌的环境裡接刀，接刀不是不行，但若接刀失败，斩缆我建议速度要快，我个人不考虑价投的话一次斩缆的比例都是 50% 以上。

计算机视觉是否已经进入瓶颈期？的其他答案点击这里

计算机视觉是否已经进入瓶颈期？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

计算机视觉是否已经进入瓶颈期？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

计算机视觉是否已经进入瓶颈期？第1页