百科问答小站 logo
百科问答小站 font logo



GAN生成的数据没有标签怎么用来训练分类模型? 第1页

  

user avatar   zhengzhedong 网友的相关建议: 
      

谢邀。主要是看GAN生成样本的质量,来决定怎么用。最基本的质量判断是两个指标: 真实性(realism)和多样性(diversity)。生成的图像不光要真实,还要多样(举例来说,人脸的GAN不能只会生成 成龙的脸,要生成训练集之外的),最重要是能符合原始数据集的分布。这样用GAN生成数据训练出来的模型才不会跑偏。

  • 如果生成图像质量不太好,可以考虑用这些图像作为outlier,来让模型不识别这些样本。我们ICCV17最早是利用DCGAN来生成样本,那时候图像的尺度还是致命的(基本64x64就还行,但往上效果就不好了)。所以 Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro 的工作就利用了label smooth的思路,用不太好的GAN样本,来正则网络学习。 假设有N个类别,本质思想就是让网络对于生成样本都预测一个1/N 的平均概率。思路主要来自于InceptionNet-v3中 label smooth的想法(arxiv.org/abs/1512.0056)。
  • 如果生成图像质量好,最直接的方式就是通过给GAN生成样本打伪标签(pseudo label)来学习。但是伪标签怎么来呢?我们CVPR19的工作(github.com/NVlabs/DG-Ne)就尝试了最简单的方案,先用有label的data,训练一个teacher model,然后用teacher model来给GAN生成的数据打基于概率的label,而有label的数据还是使用原始的label。 为啥要额外用一个teacher model呢?是因为我们的样本是A和B生成一个AB的样本,所以单纯给A或B的label都不太好。所以选择了teacher来预测。这样的好处就是label也比较smooth,不会像one-hot的pseudo label那样,容易产生noise。
  • 最后,我们说一下主要用GAN生成数据 容易被诟病的地方/原理

1。GAN 生成的数据都是从训练集里面出来的,有包含新的信息么?这个问题我记得看过一个老外的讲座,老外反问学生,你怎么定义新的信息?你觉得StyleGAN或者很多GAN,他们从一个真实样本变到另一个真实样本之间的中间结果(interpolation 如下图中间的人脸),算不算新的信息。换句话说,这看你怎么理解新的信息。原始训练数据都是离散的,而GAN生成的样本是更多离散的数据点,弥补了原来离散样本之间的空间。所以从这个角度说,我们用GAN生成的数据没有引入新的信息,而是和其他data augmentation方法一样,只是让模型更容易学好整个空间。

2。联想:拿GAN生成数据加入训练,其实相比之下,有个更straight forward的data augmentation的东西叫 mix-up,我是arxiv.org/abs/1812.0118在mu li大神imagenet的文章里第一次见到,应该还有更早的来源。

而去年则是在semi-supervised learning领域疯狂刷分的,例如,Bengio作为作者的 arxiv.org/pdf/1903.0382,Goodfellow作为作者的mix-match (arxiv.org/abs/1905.0224) 也是用这个方法。 大家有兴趣也可以去想想这种方法为啥work,那就能理解用GAN生成的数据为啥能work了。 其实是一样的。

最后感谢大家看完~欢迎关注分享点赞~也可以check我的一些其他文章




  

相关话题

  老师给了一个神经网络的程序,他之前是跑通了的,但是我迭代几十次或者一百多次就报错。这个怎么解决? 
  如何评价CVPR2019程序主席Derek Hoiem的论点:计算机视觉只是记忆,不是智能? 
  MPI 在大规模机器学习领域的前景如何? 
  如何评价最近火热的对比学习,会引领预训练模型新的范式嘛? 
  人工智能的意义和价值是什么? 
  各种机器学习算法的应用场景分别是什么(比如朴素贝叶斯、决策树、K 近邻、SVM、逻辑回归最大熵模型)? 
  5-10年后,你觉得哪些科技会让我们“遗忘”现在的生活? 
  如何解读「量子计算应对大数据挑战:中国科大首次实现量子机器学习算法」? 
  如何理解空洞卷积(dilated convolution)? 
  如何看待End-to-End Object Detection with Transformers? 

前一个讨论
计算机专业大学生想要在以后有一份好工作,在大学期间应该及时考哪些证书?
下一个讨论
为什么男医生群体的离婚率比较高?





© 2024-06-03 - tinynew.org. All Rights Reserved.
© 2024-06-03 - tinynew.org. 保留所有权利