百科问答小站 logo
百科问答小站 font logo



多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢? 第1页

  

user avatar   ka-pei-mao-70-27 网友的相关建议: 
      

1. MTL的样本之痛

多任务学习(Multi-task learning, MTL)旨在多种任务共享模型部分网络参数,联合训练,获得更好的性能、更少的参数、更优的泛化能力:

问题:试想一下若 仅有 的标注,却没有其他任务的标注,如何计算 ?

在网络 时,每一批训练样本都要同时算多个任务的 ,这就需要在样本数据上同时标注各个任务的 ground truth,即 上兼具 标注,这种样本需要耗费大量的人力进行样本标注工作。

2. MTL的样本独立同分布假设之痛

假设我们对上述MTL框架做一个稍稍的调整:

可以看到,每一批训练样本中都混合了各个任务的样本,都能够同时计算各个任务的 ,但是,机器学习任务训练数据遵循独立同分布的假设 (Independently and Identically Distributed, IID) ,如果每种任务来自不同的 ,各自分布迥异,任务数据通过encoder映射到特征空间,因为没有约束,各领域数据大概率在特种空间也分布迥异,这造成了后续各个 将非独立同分布的数据进行学习。

3. Cross-Domain MTL的解决思路

为了解决MTL的跨领域样本非独立同分布的问题,Cross-Domain Multi-task Learning for Object Detection and Saliency Estimation 这篇文章引入了 ,以此对多领域的特征数据进行分布约束,让各领域的数据在特征空间里趋向独立同分布:

如上图所示,来自不同领域的 ,通过共享的ResNet-50,提取出各自的特征 ,如何让两者趋向独立同分布呢?论文中使用了MMD损失函数:

假设有两个离散分布 和 ,我们可以通过这两个分布的各阶矩来判断分布的相似性,比如

  • 一阶矩:比较均值
  • 二阶矩:比较方差
  • 阶矩:

MMD的基本思想:如果两个随机变量的任意阶矩都相同的话,那么这两个随机变量的分布一致,否则,两个分布之间差距最大的矩将被用来作为度量两个随机变量距离的标准。假设 函数将数据可以提取出足够多阶的矩(将数据映射到高维空间 中),优化函数变成了:

于是问题变成了,寻找映射函数 ,将两个分布的数据映射到希尔伯特高维空间 中,优化映射函数参数,使得两个离散分布在 空间中距离最小。

这样,两个分布的距离,就可以通过在希尔伯特空间的两个点的内积进行表示,进一步对 式进行推导得:

里面的 即核函数,通过 从将 维的 向量映射到希尔伯特空间 中,使得对任意的 有:

文章中采用的数双线性核函数

其中 是可学习的非零权重矩阵, 是单位矩阵, 是可学习的标量,最终,带约束的MMD损失如下;

最后,各任务的 经过朴实无化的线性组合,即:

4. Task similarity matrix

作者根据Domain的相似度度量,使用目标检测、显著性检测、分割、关键点提取四项任务(共享ResNet-50进行特征提取),绘制了任务相似度矩阵,如下所示:

5. 参考文献

openaccess.thecvf.com/c


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  有哪些贝叶斯推理入门的书籍? 
  深度学习调参有哪些技巧? 
  如何评价2020年计算机视觉顶会CVPR投稿量破万的现象? 
  学习机器学习有哪些好工具推荐? 
  分类机器学习中,某一标签占比太大(标签稀疏),如何学习? 
  Evidential deep learning里一般怎么估计多标签分类的Uncertainty? 
  假如我穿越到2017年第一个提出了Transformer、BERT等模型,我可以保送到清华北大吗? 
  pytorch 的高层库ignite怎么样? 
  有哪些你看了以后大呼过瘾的数据分析书? 
  如何评价Sony新出的深度学习库NNabla? 

前一个讨论
如何评价 4 月 1 日张国荣超清修复版《热 • 情演唱会》?像素级还原 22 年前演唱会是什么体验?
下一个讨论
了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构?





© 2024-06-26 - tinynew.org. All Rights Reserved.
© 2024-06-26 - tinynew.org. 保留所有权利