百科问答小站 logo
百科问答小站 font logo



多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢? 第1页

  

user avatar   ka-pei-mao-70-27 网友的相关建议: 
      

1. MTL的样本之痛

多任务学习(Multi-task learning, MTL)旨在多种任务共享模型部分网络参数,联合训练,获得更好的性能、更少的参数、更优的泛化能力:

问题:试想一下若 仅有 的标注,却没有其他任务的标注,如何计算 ?

在网络 时,每一批训练样本都要同时算多个任务的 ,这就需要在样本数据上同时标注各个任务的 ground truth,即 上兼具 标注,这种样本需要耗费大量的人力进行样本标注工作。

2. MTL的样本独立同分布假设之痛

假设我们对上述MTL框架做一个稍稍的调整:

可以看到,每一批训练样本中都混合了各个任务的样本,都能够同时计算各个任务的 ,但是,机器学习任务训练数据遵循独立同分布的假设 (Independently and Identically Distributed, IID) ,如果每种任务来自不同的 ,各自分布迥异,任务数据通过encoder映射到特征空间,因为没有约束,各领域数据大概率在特种空间也分布迥异,这造成了后续各个 将非独立同分布的数据进行学习。

3. Cross-Domain MTL的解决思路

为了解决MTL的跨领域样本非独立同分布的问题,Cross-Domain Multi-task Learning for Object Detection and Saliency Estimation 这篇文章引入了 ,以此对多领域的特征数据进行分布约束,让各领域的数据在特征空间里趋向独立同分布:

如上图所示,来自不同领域的 ,通过共享的ResNet-50,提取出各自的特征 ,如何让两者趋向独立同分布呢?论文中使用了MMD损失函数:

假设有两个离散分布 和 ,我们可以通过这两个分布的各阶矩来判断分布的相似性,比如

  • 一阶矩:比较均值
  • 二阶矩:比较方差
  • 阶矩:

MMD的基本思想:如果两个随机变量的任意阶矩都相同的话,那么这两个随机变量的分布一致,否则,两个分布之间差距最大的矩将被用来作为度量两个随机变量距离的标准。假设 函数将数据可以提取出足够多阶的矩(将数据映射到高维空间 中),优化函数变成了:

于是问题变成了,寻找映射函数 ,将两个分布的数据映射到希尔伯特高维空间 中,优化映射函数参数,使得两个离散分布在 空间中距离最小。

这样,两个分布的距离,就可以通过在希尔伯特空间的两个点的内积进行表示,进一步对 式进行推导得:

里面的 即核函数,通过 从将 维的 向量映射到希尔伯特空间 中,使得对任意的 有:

文章中采用的数双线性核函数

其中 是可学习的非零权重矩阵, 是单位矩阵, 是可学习的标量,最终,带约束的MMD损失如下;

最后,各任务的 经过朴实无化的线性组合,即:

4. Task similarity matrix

作者根据Domain的相似度度量,使用目标检测、显著性检测、分割、关键点提取四项任务(共享ResNet-50进行特征提取),绘制了任务相似度矩阵,如下所示:

5. 参考文献

openaccess.thecvf.com/c


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  为何感觉“知识蒸馏”这几年没有什么成果? 
  有哪些贝叶斯推理入门的书籍? 
  为何感觉“知识蒸馏”这几年没有什么成果? 
  2019年CVPR有哪些糟糕的论文? 
  为什么说股票不能通过机器学习来预测? 
  mxnet的并行计算为什么这么牛,是什么原理? 
  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode? 
  老师给了一个神经网络的程序,他之前是跑通了的,但是我迭代几十次或者一百多次就报错。这个怎么解决? 
  国内目前的量化交易是否很少涉及到机器学习? 
  如何看待End-to-End Object Detection with Transformers? 

前一个讨论
如何评价 4 月 1 日张国荣超清修复版《热 • 情演唱会》?像素级还原 22 年前演唱会是什么体验?
下一个讨论
了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构?





© 2024-11-25 - tinynew.org. All Rights Reserved.
© 2024-11-25 - tinynew.org. 保留所有权利