谢邀。
大二中了自己第一篇first co-author的paper挺激动,毕竟第一篇投的paper就中了。现在想想看也就那样。
我大一上半年加入了Face++, 误打误撞开始做detection. 这一做就是两年. 我第一个project还在探索深度学习和传统方法在pedestrian detection上的联系,因为在那个Faster R-CNN才刚出来的时间点,我们还是nostalgic, 不相信在行人检测这种先验那么强的task上,deep learning还能这么快一统天下。后来这个project被用在了公司的demo上. 当然几个月后就被换掉了..
之后,大一下快结束的时候,继续在行人检测上探索和拓展。暑假和大二上学期一直在工作,投了一篇CVPR17。现在回头看,工作还是不太成熟:novelty不多,但是,一方面继续探索了传统方法和深度学习的联系,尤其是对features的理解;另一方面是在multi-task learning和transfer learning上有一个小的想法。实验做得也算充分。当然能中还是比较意外。
今年CVPR18被收了两篇。一篇是之前MSCOCO winner的方法,作为first co-author. 另一篇是继续在行人检测上探索在crowd场景中的遮挡问题,作为第二作者。
我个人觉得,什么时候中文章,中多少文章,现在看来并不重要。我最高兴的是看到自己的成长轨迹,从第一篇没有那么出色的文章,后面做得东西越来越多,越来越扎实;从自己写不了paper, 到现在能完整写出不错的文章 (“不错”只形容writing),还能把要设计得实验想明白、做严谨充分,甚至帮别人改、写我之前从来没参与的工作的文章;从自己要靠别人提供的paper list, 到每天自己翻arxiv, 还能客观评价自己熟悉领域的文章,有什么亮点和缺点;从自己没什么idea,到现在能发现问题,搭建自己的小团队,(一部分)解决问题;从自己的工程能力没那么好,到现在,也没那么好.. 不过凑凑合合,足够自给自足。这些成长的过程才是最重要的。
不久前ECCV18又投了两篇文章,都是我跟北大的室友在Face++做的, 还有其中一篇与MIT的 @周博磊 师兄合作。有一篇继续在object detection探索,由我的两个室友lead. 另一篇与博磊合作的,则是对semantic segmentation的探索,主要瞄准视觉系统上hierarchical scene understanding. 尽管,这是我第一篇非performance导向的文章,但我们的baseline随手在segmentation的task上表现就很高,在ADE20K上的model已经陆陆续续开源到了MIT的scene parsing branch (链接 https://github.com/CSAILVision/semantic-segmentation-pytorch), 这个repo也是目前为止PyTorch上最好的,也是最科学的semantic segmentation toolbox,暂时应该没有之一。希望能帮助research community. 而论文中主要的hierarchical scene understanding的model和dataset还正在往PyTorch上迁移. 这两篇papers应该不多久都会放出来。
不久前的COLING18投了一篇vision与language结合的文章,这篇文章是目前最自我满意的文章,从团队搭起来,和我的两位好朋友:清华“姚班”一位vision出身的小伙伴,北大一位nlp出身的小伙伴;到最后paper投出去,都是业余爱好,兴趣使然。鉴于COLING的policy paper和code还没有放出来。后面大家可以关注
我的成长来自于Face++提供的优秀的环境和良好的资源;我的mentor姜宇宁和supervisor孙剑老师的指导;以及我身边最优秀的同学们,不论是Face++还是清北的朋友们,还有世界各地的researchers。在与大家的交流中能不断获得insights. 还有,我的导师们为了提高我对工作的辨别能力,经常带我一起review conference或者journal paper,使我对完整的工作乃至好的工作有越来越深的了解,并且将经验应用到我未来的工作。这些都对我有很大帮助。
Anyway, paper中不中还是要在乎的少一些。个人的成长才是最重要的。
当然如果有时间和精力也多帮community贡献一些projects, 万一等到了老博士时,开始受脱发困扰,干不动了呢. (笑) 除了上面提到的segmentation toolbox外,后面我们还计划提供PyTorch上,代码实现科学的,真正的 state-of-the-art detection frameworks, 比如从Faster R-CNN到Mask R-CNN等. Ross的代码一直很polished,但是写在caffe2上,相信很多人还没习惯。此外,关于pedestrian detection或general object detection,未来的发展在哪里,有什么亟需解决的问题,我们也都有自己的想法,很快也会放出一些针对性的数据集等 :)