百科问答小站 logo
百科问答小站 font logo



多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢? 第1页

  

user avatar   ka-pei-mao-70-27 网友的相关建议: 
      

1. MTL的样本之痛

多任务学习(Multi-task learning, MTL)旨在多种任务共享模型部分网络参数,联合训练,获得更好的性能、更少的参数、更优的泛化能力:

问题:试想一下若 仅有 的标注,却没有其他任务的标注,如何计算 ?

在网络 时,每一批训练样本都要同时算多个任务的 ,这就需要在样本数据上同时标注各个任务的 ground truth,即 上兼具 标注,这种样本需要耗费大量的人力进行样本标注工作。

2. MTL的样本独立同分布假设之痛

假设我们对上述MTL框架做一个稍稍的调整:

可以看到,每一批训练样本中都混合了各个任务的样本,都能够同时计算各个任务的 ,但是,机器学习任务训练数据遵循独立同分布的假设 (Independently and Identically Distributed, IID) ,如果每种任务来自不同的 ,各自分布迥异,任务数据通过encoder映射到特征空间,因为没有约束,各领域数据大概率在特种空间也分布迥异,这造成了后续各个 将非独立同分布的数据进行学习。

3. Cross-Domain MTL的解决思路

为了解决MTL的跨领域样本非独立同分布的问题,Cross-Domain Multi-task Learning for Object Detection and Saliency Estimation 这篇文章引入了 ,以此对多领域的特征数据进行分布约束,让各领域的数据在特征空间里趋向独立同分布:

如上图所示,来自不同领域的 ,通过共享的ResNet-50,提取出各自的特征 ,如何让两者趋向独立同分布呢?论文中使用了MMD损失函数:

假设有两个离散分布 和 ,我们可以通过这两个分布的各阶矩来判断分布的相似性,比如

  • 一阶矩:比较均值
  • 二阶矩:比较方差
  • 阶矩:

MMD的基本思想:如果两个随机变量的任意阶矩都相同的话,那么这两个随机变量的分布一致,否则,两个分布之间差距最大的矩将被用来作为度量两个随机变量距离的标准。假设 函数将数据可以提取出足够多阶的矩(将数据映射到高维空间 中),优化函数变成了:

于是问题变成了,寻找映射函数 ,将两个分布的数据映射到希尔伯特高维空间 中,优化映射函数参数,使得两个离散分布在 空间中距离最小。

这样,两个分布的距离,就可以通过在希尔伯特空间的两个点的内积进行表示,进一步对 式进行推导得:

里面的 即核函数,通过 从将 维的 向量映射到希尔伯特空间 中,使得对任意的 有:

文章中采用的数双线性核函数

其中 是可学习的非零权重矩阵, 是单位矩阵, 是可学习的标量,最终,带约束的MMD损失如下;

最后,各任务的 经过朴实无化的线性组合,即:

4. Task similarity matrix

作者根据Domain的相似度度量,使用目标检测、显著性检测、分割、关键点提取四项任务(共享ResNet-50进行特征提取),绘制了任务相似度矩阵,如下所示:

5. 参考文献

openaccess.thecvf.com/c


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  什么是无监督学习? 
  深度学习两张3080ti和一张3090ti哪个好? 
  如何直观地解释 backpropagation 算法? 
  现大二,准备做大学生创新创业项目计划 ,目前定的方向是深度学习+畜牧业/养殖业,有什么建议给我们吗? 
  transformer中的Q,K,V到底是什么? 
  如何看待 Google TPU?寒武纪芯片较之有哪些优势与不足? 
  word2vec有什么应用? 
  算法工程师是否应该持续读论文? 
  普通FPGA工程师怎样向人工智能靠拢? 
  计算机视觉中,目前有哪些经典的目标跟踪算法? 

前一个讨论
如何评价 4 月 1 日张国荣超清修复版《热 • 情演唱会》?像素级还原 22 年前演唱会是什么体验?
下一个讨论
了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构?





© 2024-11-22 - tinynew.org. All Rights Reserved.
© 2024-11-22 - tinynew.org. 保留所有权利