自己读过的论文中,最惊艳的可以归为几类:
人脸识别方面,ECCV16的Center Loss和ICML16的Large Margin Softmax(是同一波人做的)。
个人认为这两篇文章最惊艳的地方并不在于方法,而在于分析问题的方式,尤其是这张图:
之前人们并不是没有研究过特征分布,但是用的方法都还是传统的一些降维手段如t-SNE,但t-SNE毕竟是个非线性降维方法,并不能真实地表现出原始特征分布。
实际上神经网络自己就是一个非常好的降维工具,直接将fc层的输出维度设置为2,那么每个样本的特征就只有两维,可以直接画在一个平面上,得到的可视化图像就是真正的特征分布。
有了这个可视化手段,人们发现原来softmax loss训练出来的特征是这样一个放射型分布,类与类之间是按角度分隔开的,于是才有了后续一系列工作关于角度的分析。
时至今日,这两个算法已经被更好的算法取代了,但分析问题的方式一直延续至今都还在被广泛使用。
说个估计没多少人熟悉的文章
《opening the black box of deep neural network via information》
信息瓶颈理论,在信息论的框架内解释了监督学习的训练过程原理,稍微扩展一下就能理解为什么需要使用mini batch,为什么需要激活函数,为什么drop out能起作用,为什么需要离散化argmax。在表层的解释之下,上面提到的操作通过不同的方式,在底层其实都是为了实现同一个目标。最终解释了为什么即使在样本数量低于机器学习理论要求的情况下,深度神经网络的泛化误差能够比learning theory预期的要好。
或许不如这些年来层出不穷的新花样的论文耀眼,但所有这些论文在编码器部分的实现,其实都没有跳出信息瓶颈的架构。总之如果你觉得感知器拼凑成universal approximator提供的解释过于单薄,那么信息瓶颈理论能够让你对深度学习的底层原理有更深刻的了解。
提问者本人,发这篇回答是因为没想到第四天就被‘极市平台’公众号抄了。
事情不是多大个事,但我就是想喷它。
总之,我最烦这种公众号抄袭。
另外,顺便详细介绍一下我提问中提到的AE论文,我的本意是哪篇论文的‘insight’最惊艳,它可能不需要很高的工程难度,AE就是这样一篇论文。
AE (Associative Embedding) 用于自底向上的多人姿态估计和语义分割,作者Alejandro Newell 同时也是Hourglass 的作者,可以说是天才人物频出佳作了。
自底向上的多人姿态估计要解决两个问题:
在AE之前,最出名的工作是OpenPose, 可以简述为,它让网络对每个像素输出一个offset,根据它我们计算某个关键点应该连向哪里,比如手腕A连接哪个手肘是正确的,也就是比较著名的PAFmap。后续工作比如PersonLab, 也都是在offset上变着花样。
那么AE的核心观点是:不需要规定某个关节点需要输出一个固定的值,来决定它属于某个人,只需规定属于不同人的关节点,输出的值有差异即可。
总结来说对于损失函数:
当时读完这篇paper,我个人觉得,自底向上的方法在关键点分类这一块基本上是结束了,这种数据驱动的分类方式几乎达到了理论最优。后来我不做pose 相关的研究时也关注了higher-HRNet等工作,确实最新的SOTA都采用了AE这种关键点分类方式。
感谢大家听我分享,也希望自己也有一天能做出有insight的工作~。
当年看Deformable Convolutional Networks(DCN)的时候最为惊艳,可能看过的文章少,这种打破固定尺寸和位置的卷积方式,让我感觉非常惊叹,网络怎么能够在没有直接监督的情况下,学习到不同位置的offset的,然后可视化出来,能够使得offset后的位置能够刚好捕捉到不同尺寸的物体,太精彩了!
那就从我的研究领域中挑一个出来吧,我的研究方向是基于image-level的弱监督语义分割,(貌似这个点近两年趋势渐淡),,而其中令我最惊艳的就是CAM,class activation map
文章题目叫Learning Deep Features for Discriminative Localization,google百度一下都可以找到。这篇文章其实是想探究我们的CNN在学习图像的时候到底重点关注在哪个部分。这里抛开论文里面的繁琐的数学解释啥的(大家可以看看原论文),最后论文用一张图表示了这个大概是怎么样的一个过程。
对你没有看错,图像关注的部分就是将该类的fc层中的权重和feature maps对应加权求和就行了。。。说实话我觉得这个真的是经过很多实验才发现的idea。因此通过这个CAM我们便可知这个网络到底在学什么东西。
至于后面CAM变体例如grad-cam等大家可以去查阅了解。通过这个惊艳的CAM,我觉得是开了基于弱监督图像分割领域的先河,简直是祖先级别的神工作。
为什么这么说呢,基于image-level的弱监督分割旨在仅通过分类标签而生成对应的分割标签图,(毕竟手工标记分割图上的像素太烧钱了呀哈哈哈 )你看看CAM,如果通过阈值一下的话,那些热点处的不就可以作为置信度高的前景像素标签了嘛!!!
于是你便可以看到大量的弱监督领域分割之作都是在这个CAM之上完成的。不仅如此,CAM也在可解释领域中被作为一种基本的工具。这篇五年前的文章至今仍在视觉领域中放光发热,让很多的学者以此为基石展开研究。
我也是很感谢这篇工作让我接触到弱监督领域。毕竟是我转做计算机视觉读的第一篇文章hhhh,所以,thank you, CAM!
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有