百科问答小站 logo
百科问答小站 font logo



如何评价 Exploring Simple Siamese Learning? 第1页

  

user avatar   qi-guo-jun-99 网友的相关建议: 
      

第一时间看了一下这篇文章。基本可以理解成去掉了momentum encoder的BOYL。论文主要分析了BYOL里面的几个关键的设计,并给出了几个主要的结论 :

1、BYOL里面的predictor层,对Siamese encoder结构引入了一定的非对称性;这种非对称可以帮助一定程度让缓解feature collapse的问题,因为两个共享分支不再被强迫输出完全同样的特征,predictor层一定程度容纳了非一致的特征;

2、同样地,BYOL里的Stop Gradient也对阻止特征collapse起到了关键作用;论文给了一个 假设(Section 5),认为这相当于引入了另一组的中间的隐变量,然后迭代地优化这个特征隐变量以及特征网络;

3、上面引入的隐变量,严格上来说应该是某个图像在多次不同增强上得到的特征的平均值;但可以用单次增强来做近似;这个近似造成的误差通过引入predictor可以得到一定程度的缓解;

4、再多个GPU之间 sync的global BN对性能影响也非常大;比如,如果拿掉MLP上面的BN,分类精度就会下降一半 (section 4.4)。

总结一下,上述的几个设计,对最终下游任务的性能影响都非常大。这点和BYOL里面是一直的。从实验效果上看,SimSiam在去掉了BYOL里面的 momentum encoder后

1、在比较小的256的batchsize上,100轮预训练比BYOL 高1.6%,但200轮,400轮和800轮上都比BYOL较低;其中SimSiam在800轮上比BYOL低3%左右。

另外,这里虽然100轮预训练SimSiam要高一些,但考虑到对比的BYOL用到的batchsize要大很多(4096),意味着BYOL在100轮预训练的时候还处于训练早期,很可能没有充分被训练好(batchsize越大,迭代更新的次数越小)。所以,后续如果有同样256batchsize在100轮的结果,比较就更公平。

2、当然,上面对比的BYOL的batchsize是4096。不过BYOL文章里面有跑过256batchsize的实验,大概比对应的BYOL-4096在800轮上要低个3%;而从SimSiam-256在800轮上的结果来看,基本和BYOL-256差不多;这个也的确说明去掉了momentum encoder对BYOL的性能是没有什么影响的。

大家可以再看一下对另外一个关于BYOL问题的回答,里面有更深入的分析,也许有更多启发。

欢迎大家关注我。




  

相关话题

  Kaggle如何入门? 
  所谓大数据分析,究竟要学什么? 
  如何理解MCMC中的细致平稳条件? 
  除了深度学习,机器学习领域近年来还有什么热点吗? 
  如何证明马尔科夫链一定会达到稳态? 
  为什么相比于计算机视觉(cv),自然语言处理(nlp)领域的发展要缓慢? 
  DL框架的未来发展,TensorFlow/MXNet/PyTorch, 选哪个? 
  如何评价B站UP主未明子宣称“知乎搞机器学习模拟拉康的程序员”具备“头脑上的悲剧”? 
  加州大学伯克利分校为何能连续孵化出 Mesos,Spark,Alluxio,Ray 等重量级开源项目? 
  主动学习(Active Learning)近几年的研究有哪些进展,现在有哪些代表性成果? 

前一个讨论
如何评价Deepmind自监督新作BYOL?
下一个讨论
如何评价游戏《最后生还者2》?





© 2024-11-05 - tinynew.org. All Rights Reserved.
© 2024-11-05 - tinynew.org. 保留所有权利