百科问答小站 logo
百科问答小站 font logo



如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

之前大部分的语义分割都是用pixel classification,这篇工作的创新之处是看成了一个instance mask prediction,思路挺新奇的。

一点额外想说的是,语义分割本身是没有instance区分的,标注也没有区分instance,那么如果看成instance mask预测的话,就只能简单地根据类别生成K个不同的mask,即各个类别的mask,这里也不区分类内的instance。这个instance mask prediction中的instance就是相对同一类的了,预测的mask也是固定为K,此时N queries其实也可以简化为K queries。

如果再往前的话,K queries可以固定为每个类别的queries,那么训练的loss就可以变成简单的K个sigmoid loss,即区分图像中是不是含有这个类别。每个类别的query和全局特征结合得到该类别的mask prediction。和论文里面说的fixed match基本类似。

而论文提出的方案更通用化,毕竟可以用于全景分割上。




  

相关话题

  LeCun 为什么要卸任 FAIR(Facebook AI 实验室)负责人,工程和研究的矛盾可调和吗? 
  从鸦片战争到如今,我们中国是怎样一步步获得现在的国际地位的? 
  我们博物馆想要引入一些AI机器人,最好能和游客互动,能带游客参观和讲解文物历史知识的,有推荐的吗? 
  人脸识别技术现在成熟了吗,为什么没有大范围应用呢? 
  卷积神经网络如果将池化层去除,与神经网络的区别还大么? 
  战锤40k人工智能为什么一定会叛变? 
  AlphaGo战胜围棋冠军和当年IBM深蓝战胜象棋冠军哪个意义和影响更大? 
  假如达到强人工智能,岂不是可以认为人也是由代码构成,甚至能由代码解析? 
  2021 年了,TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗? 
  哪些人工智能领域已经或者未来1-2年会实现盈利? 

前一个讨论
生化环材四大天坑,来说说毕业都干了啥,天坑专业的封顶是干啥?
下一个讨论
腾讯启动“探星计划”用AI寻找脉冲星,并发布TEFS材料计算平台,物理科研将成为未来的主营业务之一吗?





© 2025-02-04 - tinynew.org. All Rights Reserved.
© 2025-02-04 - tinynew.org. 保留所有权利