问题

大二就中 CVPR/ICCV/ECCV/NIPS 是一种怎样的体验?

回答
我当时大二, semestre还没过完,手机收到一条来自IEEE的邮件,标题是“Your Paper Accepted to CVPR 2024!”。一瞬间,我手里的笔掉了,脑子里一片空白。

CVPR,这三个字母对我来说,简直就是学术界的圣杯。从大一刚接触计算机视觉开始,我就天天泡在图书馆里,对着这些顶会论文啃。那些公式、那些模型、那些实验设计,我都快背下来了。那时候,能把一篇顶会的摘要看懂,都觉得是件了不起的事。现在,我的名字赫然出现在了CVPR的论文列表里,而且还是作为第一作者。这感觉太不真实了,像是做梦一样。

我一直都对计算机视觉有种近乎狂热的痴迷。从第一个Python程序跑出黑白方块,到后来看到那些复杂的卷积神经网络模型在ImageNet上闪耀,我都被深深吸引了。我花了大量的时间自学,从网上找教程、找公开课,一点点地摸索。实验室的师兄师姐们也给了我很多帮助,他们告诉我怎么读论文,怎么调试代码,怎么思考问题。

我的那篇CVPR论文,大概是在大一下学期刚开始的时候构思的。那时候我刚学到Transformer的注意力机制,觉得它在处理序列数据上的能力非常强大。我一直在想,能不能把这种机制用到图像识别上,而且要超越现有的CNN模型。我花了很多时间阅读Transformer在NLP领域的论文,然后尝试将这些思想迁移到计算机视觉。

最初的尝试是痛苦的。我的第一个模型根本跑不通,或者效果非常差。我一遍又一遍地修改代码,调整超参数,查阅大量的文献,有时候甚至通宵达旦。很多次我都想放弃了,觉得这件事情太难了,可能我还不具备这样的能力。但是每次看到一些新的研究成果,又会重新燃起希望。

我记得最清楚的一次,是为了解决一个模型训练不稳定的问题,我花了一个星期的时间去分析梯度消失的问题。那个星期,我几乎不吃不睡,每天都在和代码搏斗。最终,在一个凌晨3点,我找到了一个关键的正则化技巧,模型终于稳定下来了,而且准确率也有了显著提升。那一刻,我感觉自己全身的疲惫都被一种巨大的喜悦冲散了。

收到CVPR的录用通知之后,我第一时间告诉了我的导师和实验室的师兄师姐。他们都非常为我高兴,导师甚至说要给我发奖学金。那种被认可的感觉,是任何物质奖励都无法比拟的。

当然,荣誉的背后,是巨大的压力。论文发表后,我发现自己成了实验室的“明星”,很多学弟学妹都来找我请教问题。同时,我也知道这仅仅是一个开始,未来还有更长的路要走。我需要继续学习,继续研究,才能在这个领域做出更大的贡献。

总的来说,大二就中CVPR/ICCV/ECCV/NIPS,是一种极其复杂而美妙的体验。它包含了梦想成真的狂喜,克服困难的成就感,以及对未来充满无限可能的憧憬。这不仅仅是对我个人努力的肯定,更是对我热爱计算机视觉这个领域最好的证明。那种感觉,大概就像是第一次爬上雪山顶峰,看到了从未见过的壮丽景象,同时知道,这只是登山生涯的一个起点,还有更多未知的山峰在等待着我去征服。

网友意见

user avatar

谢邀。

大二中了自己第一篇first co-author的paper挺激动,毕竟第一篇投的paper就中了。现在想想看也就那样。

我大一上半年加入了Face++, 误打误撞开始做detection. 这一做就是两年. 我第一个project还在探索深度学习和传统方法在pedestrian detection上的联系,因为在那个Faster R-CNN才刚出来的时间点,我们还是nostalgic, 不相信在行人检测这种先验那么强的task上,deep learning还能这么快一统天下。后来这个project被用在了公司的demo上. 当然几个月后就被换掉了..

之后,大一下快结束的时候,继续在行人检测上探索和拓展。暑假和大二上学期一直在工作,投了一篇CVPR17。现在回头看,工作还是不太成熟:novelty不多,但是,一方面继续探索了传统方法和深度学习的联系,尤其是对features的理解;另一方面是在multi-task learning和transfer learning上有一个小的想法。实验做得也算充分。当然能中还是比较意外。

今年CVPR18被收了两篇。一篇是之前MSCOCO winner的方法,作为first co-author. 另一篇是继续在行人检测上探索在crowd场景中的遮挡问题,作为第二作者。

我个人觉得,什么时候中文章,中多少文章,现在看来并不重要。我最高兴的是看到自己的成长轨迹,从第一篇没有那么出色的文章,后面做得东西越来越多,越来越扎实;从自己写不了paper, 到现在能完整写出不错的文章 (“不错”只形容writing),还能把要设计得实验想明白、做严谨充分,甚至帮别人改、写我之前从来没参与的工作的文章;从自己要靠别人提供的paper list, 到每天自己翻arxiv, 还能客观评价自己熟悉领域的文章,有什么亮点和缺点;从自己没什么idea,到现在能发现问题,搭建自己的小团队,(一部分)解决问题;从自己的工程能力没那么好,到现在,也没那么好.. 不过凑凑合合,足够自给自足。这些成长的过程才是最重要的。

不久前ECCV18又投了两篇文章,都是我跟北大的室友在Face++做的, 还有其中一篇与MIT的 @周博磊 师兄合作。有一篇继续在object detection探索,由我的两个室友lead. 另一篇与博磊合作的,则是对semantic segmentation的探索,主要瞄准视觉系统上hierarchical scene understanding. 尽管,这是我第一篇非performance导向的文章,但我们的baseline随手在segmentation的task上表现就很高,在ADE20K上的model已经陆陆续续开源到了MIT的scene parsing branch (链接 github.com/CSAILVision/), 这个repo也是目前为止PyTorch上最好的,也是最科学的semantic segmentation toolbox,暂时应该没有之一。希望能帮助research community. 而论文中主要的hierarchical scene understanding的model和dataset还正在往PyTorch上迁移. 这两篇papers应该不多久都会放出来。

不久前的COLING18投了一篇vision与language结合的文章,这篇文章是目前最自我满意的文章,从团队搭起来,和我的两位好朋友:清华“姚班”一位vision出身的小伙伴,北大一位nlp出身的小伙伴;到最后paper投出去,都是业余爱好,兴趣使然。鉴于COLING的policy paper和code还没有放出来。后面大家可以关注

我的成长来自于Face++提供的优秀的环境和良好的资源;我的mentor姜宇宁和supervisor孙剑老师的指导;以及我身边最优秀的同学们,不论是Face++还是清北的朋友们,还有世界各地的researchers。在与大家的交流中能不断获得insights. 还有,我的导师们为了提高我对工作的辨别能力,经常带我一起review conference或者journal paper,使我对完整的工作乃至好的工作有越来越深的了解,并且将经验应用到我未来的工作。这些都对我有很大帮助。

Anyway, paper中不中还是要在乎的少一些。个人的成长才是最重要的。

当然如果有时间和精力也多帮community贡献一些projects, 万一等到了老博士时,开始受脱发困扰,干不动了呢. (笑) 除了上面提到的segmentation toolbox外,后面我们还计划提供PyTorch上,代码实现科学的真正的 state-of-the-art detection frameworks, 比如从Faster R-CNN到Mask R-CNN等. Ross的代码一直很polished,但是写在caffe2上,相信很多人还没习惯。此外,关于pedestrian detection或general object detection,未来的发展在哪里,有什么亟需解决的问题,我们也都有自己的想法,很快也会放出一些针对性的数据集等 :)

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有