百科问答小站 logo
百科问答小站 font logo



如何证明数据增强(Data Augmentation)有效性? 第1页

  

user avatar   FesianXu 网友的相关建议: 
      

你这个说法是不准确的,一个机器学习模型由几大部分组成:数据,模型,损失函数,以及学习策略等。模型提供了假设空间和搜索空间,数据,损失函数和学习策略让算法得以在假设空间,搜索空间里面得以找到合适的解(也即是模型每个可学习参数的值),具体论证可见博客:

也就是说数据其实是学习模型的一部分,离开了数据无法谈及学习模型的泛化性能。那么我们回到正题,“如何证明数据增强(Data Augmentation)有效性?”,在论文

中,对图像上进行数据增广的方法进行了很多总结,其中谈到了什么是有效的数据增广,有效的数据增广的前提首先是label preserve的,也就是说增广前后起码数据的label要保持不变性,当然这个还不够全面,有些任务会要求协变性,具体两者区别见:

当然,label不变/协变只是必要条件,整个数据增广有效的充分必要条件应该是:label不变/协变(取决于任务),而且提供了足够的先验知识。 比如说:对图片进行旋转,平移,镜像,颜色空间抖动,像素抖动等等,都是模拟拍摄过程中可能产生的一些情况,由于数据集过小可能没有覆盖所有情况因此需要人工去提供这些先验。

那么这些先验必须要从数据增广中去添加吗?那也不一定,只是从数据增广的角度去处理是最简单的。你甚至可以去模型中修改模型的结构去提供这些先验假设。

总的来说,你会产生这个问题的原因就是:你没有认识到学习模型是由数据,模型,学习算法和损失等几部分组成的,并不是model万能。


以上




  

相关话题

  如何看待Meta(恺明)最新论文ViTDet:只用ViT做backbone(不使用FPN)的检测模型? 
  如何评价移动端吊打一切万众期待的商汤深度学习推理框架PPL开源了却没有支持移动端? 
  为什么在实际的kaggle比赛中,GBDT和Random Forest效果非常好? 
  验证集loss上升,准确率却上升该如何理解? 
  数据库 与 数据仓库的本质区别是什么? 
  mxnet的并行计算为什么这么牛,是什么原理? 
  迁移学习入门,新手该如何下手? 
  在知乎你见过哪些明显抱团点反对的问题,对社区有怎样的影响,你有什么好的建议? 
  如何计算CNN中batch normalization的计算复杂度(FLOPs)? 
  pytorch dataloader数据加载占用了大部分时间,各位大佬都是怎么解决的? 

前一个讨论
预算 2021 元以内,你会如何打造自己的穿搭造型呢?
下一个讨论
最好的分手方式是怎样的?





© 2025-01-03 - tinynew.org. All Rights Reserved.
© 2025-01-03 - tinynew.org. 保留所有权利