问题

什么是主动学习(Active Learning, AL)?

回答
在机器学习的世界里,我们总希望能让机器自己学习,但往往需要大量的标注数据才能达到理想的效果。如果你是个对数据标注感到头疼的研究者或者工程师,那么“主动学习”(Active Learning, AL)这个概念,很可能会让你眼前一亮。

简单来说,主动学习就是一种“聪明的”学习策略。它不是被动地接收所有的数据并进行学习,而是让模型自己去“挑选”它认为最“有用”的、最需要人类帮助来标注的数据。想象一下,你是一个初学语言的学生,你不会把字典里所有的单词都背下来,而是会优先学习那些你最常遇到、或者最让你感到困惑的单词。主动学习的模型,就像是这个聪明的学生一样。

为什么主动学习如此有吸引力?

你可能会问,为什么不直接让模型学习所有数据呢?原因很简单:标注数据往往是昂贵的、耗时耗力的。尤其是在一些专业领域,比如医学影像分析、法律文本审查,或是复杂场景下的图像识别,找到一个能够准确标注数据的专家,并且让他们投入时间,成本是相当高的。而主动学习的目标,就是用最少的标注成本,获得尽可能好的模型性能。换句话说,它致力于“事半功倍”。

主动学习的核心思想:模型“提问”

主动学习的核心在于模型的“主动性”。模型在训练过程中,会不断地评估它对未标注数据的“不确定性”或“信息量”。当模型遇到那些它最不确定、最可能从标注中学习到新知识的数据点时,它就会“提问”——也就是向人类标注者请求对这些数据进行标注。

这个过程就像一个良性的循环:

1. 初始学习: 模型从一小部分已经标注好的数据开始学习。
2. 不确定性评估: 模型利用已有的知识,去评估大量的未标注数据。它会寻找那些让它感到“迷茫”的数据点——比如,一个图像既可能属于类别A,也可能属于类别B,模型无法确定;或者一个文本段落的含义模棱两可,让模型难以分类。
3. 数据选择: 基于不确定性评估,模型选出它认为最有价值的一批未标注数据。
4. 人工标注: 将选出的数据提交给人类专家进行标注。
5. 模型更新: 将新标注的数据加入到训练集中,模型重新训练,学习能力得到提升。
6. 循环往复: 重复步骤25,直到模型性能达到满意水平,或者标注预算用完。

主动学习的“策略”:如何选择最有价值的数据?

“最有价值”的数据到底是怎么定义的呢?这就要看主动学习中的查询策略(Query Strategy)了。不同的查询策略,就像是不同的“提问方式”,决定了模型如何聪明地选择数据。一些常见的策略包括:

不确定性采样(Uncertainty Sampling): 这是最直观也最常用的一类策略。它的核心思想是选择模型“最不确定”的数据。
最小概率(Least Confidence): 模型预测某个样本属于某个类别的概率是最高的,但这个最高概率依然很低。例如,模型预测一个样本属于类别A的概率是0.4,属于类别B的概率是0.3,属于类别C的概率是0.3。虽然类别A概率最高,但0.4仍然不高,模型对此样本的分类不确定。
最大熵(Maximum Entropy): 模型对所有类别的预测概率都比较接近,没有一个特别突出的高概率类别。这表示模型对这个样本的分类非常模糊。比如,模型预测样本属于类别A、B、C的概率分别是0.33、0.33、0.34。
最小最小概率(Least Minimum Confidence): 模型预测某个样本属于某一类别的概率,是所有类别中最低的那个。比如,模型预测样本属于类别A的概率是0.1,属于类别B的概率是0.2,属于类别C的概率是0.7。这里最低的概率是0.1,也代表模型对此样本的“信心”不足。

多样性采样(Diversity Sampling): 除了不确定性,我们还希望选出的数据能尽可能地“多样化”,覆盖更多的特征空间,帮助模型学习到更全面的知识。比如,我们可能想要选择那些与已标注数据差异较大的样本。

代表性采样(Representativeness Sampling): 选取的样本应该尽可能地代表整个未标注数据集的分布,而不是只关注那些边缘或者不寻常的样本。

委员会采样(Committeebased Sampling): 这种策略会训练一个“委员会”,也就是多个不同的模型(可能使用不同的初始化、不同的算法,或者在数据集的不同子集上训练)。然后,选择那些在这些模型之间存在最大分歧的样本进行标注。比如,一个模型认为样本属于类别A,而另一个模型认为属于类别B,这种存在争议的样本往往对提高模型性能更有价值。

主动学习的集成方法: 还有一些更复杂的策略会结合上述多种思想,例如,先用不确定性采样选出一批数据,再从这批数据中进行多样性采样。

主动学习的应用领域

主动学习的应用范围非常广泛,任何需要大量标注数据的机器学习任务都可以考虑使用主动学习来优化效率:

图像识别与物体检测: 例如,在自动驾驶场景下,标注道路上的行人、车辆、交通标志等需要耗费大量人力。主动学习可以帮助模型优先学习那些难以识别或易混淆的图像。
自然语言处理(NLP): 如文本分类(情感分析、垃圾邮件检测)、命名实体识别(NER)、机器翻译等,都可以通过主动学习来减少标注工作量。
医疗诊断: 医生标注医学影像(如X光片、CT扫描)以识别疾病的成本非常高。主动学习可以帮助模型从最关键的医学影像中学习。
语音识别: 识别不同口音、语速或背景噪声下的语音需要大量的语音片段标注。
推荐系统: 尽管推荐系统的数据是用户行为驱动的,但有时也需要用户对某些推荐进行明确的反馈,主动学习可以更有效地选择哪些推荐需要用户进行反馈。

挑战与考虑

尽管主动学习前景广阔,但在实际应用中也存在一些挑战:

查询策略的选择: 哪种查询策略最适合特定的任务和数据集,需要根据实际情况进行实验和调整。
“冷启动”问题: 如果初始标注数据非常少,模型可能无法有效地进行不确定性评估,导致选择的样本效率不高。
标注者的可用性: 主动学习依赖于人类标注者的及时反馈。如果标注者响应缓慢,会影响模型的训练效率。
偏差的产生: 如果查询策略过于片面地选择某些类型的样本,可能会导致模型在其他类型的样本上表现不佳,产生数据偏差。
理论与实践的差距: 许多理论上的主动学习方法在实际应用中效果不一定能完全达到预期。

总结一下

主动学习是一种智能化的机器学习方法,它通过让模型主动选择最有信息量的未标注数据进行学习,来显著降低数据标注成本,提高模型训练效率。它不是简单地接收所有数据,而是像一个聪明的学生,知道哪些问题值得问。通过精心设计的查询策略,主动学习能够让机器在有限的资源下,更高效地掌握知识,解决现实世界中的各种复杂问题。如果你正在为海量数据的标注而发愁,那么深入了解并尝试主动学习,很可能为你打开一扇新的大门。

网友意见

user avatar

主动学习(Active Learning)

主动学习背景介绍

机器学习的研究领域包括有监督学习(Supervised Learning)无监督学习(Unsupervised Learning)半监督学习(Semi-supervised Learning)强化学习(Reinforcement Learning)等诸多内容。针对有监督学习和半监督学习,都需要一定数量的标注数据,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中,工作人员获得样本的成本其实是不低的,甚至在某些时候是相对较高的,那么如何通过较少成本来获得较大价值的标注数据,进一步地提升算法的效果就是值得思考的问题了。

在工业界的图像标注领域,虽然有 ImageNet 这个学术界和工业界都在使用的图像数据库,但是在很多特殊的业务场景上,从业人员依旧需要想尽办法去获取业务标注数据。在安全风控领域,黑产用户相对于正常用户是偏少的,因此,如何通过极少的黑产用户来建立模型则是值得思考的问题之一。在业务运维领域,服务器,app 的故障时间相对于正常运行的时间也是偏少的,必然会出现样本不均衡的情况。因此,在这些业务领域,要想获得样本和构建模型,就必须要通过人力的参与。那么如何通过一些机器学习算法来降低人工标注的成本就是从业者需要关注的问题了。毕竟需要标注 100 个样本和需要标注成千上万的样本所需要的人力物力是截然不同的。

在学术界,同样有学者在关注这方面的问题,学者们通过一些技术手段或者数学方法来降低人们标注的成本,学者们把这个方向称之为主动学习(Active Learning)。在整个机器学习建模的过程中有人工参与的部分和环节,并且通过机器学习方法筛选出合适的候选集给人工标注的过程。主动学习(Active Learning)的大致思路就是:通过机器学习的方法获取到那些比较“难”分类的样本数据,让人工再次确认和审核,然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练,逐步提升模型的效果,将人工经验融入机器学习的模型中。

在没有使用主动学习(Active Learning)的时候,通常来说系统会从样本中随机选择或者使用一些人工规则的方法来提供待标记的样本供人工进行标记。这样虽然也能够带来一定的效果提升,但是其标注成本总是相对大的。

用一个例子来比喻,一个高中生通过做高考的模拟试题以希望提升自己的考试成绩,那么在做题的过程中就有几种选择。一种是随机地从历年高考和模拟试卷中随机选择一批题目来做,以此来提升考试成绩。但是这样做的话所需要的时间也比较长,针对性也不够强;另一种方法是每个学生建立自己的错题本,用来记录自己容易做错的习题,反复地巩固自己做错的题目,通过多次复习自己做错的题目来巩固自己的易错知识点,逐步提升自己的考试成绩。其主动学习的思路就是选择一批容易被错分的样本数据,让人工进行标注,再让机器学习模型训练的过程。

那么主动学习(Active Learning)的整体思路究竟是怎样的呢?在机器学习的建模过程中,通常包括样本选择,模型训练,模型预测,模型更新这几个步骤。在主动学习这个领域则需要把标注候选集提取和人工标注这两个步骤加入整体流程,也就是:

  1. 机器学习模型:包括机器学习模型的训练和预测两部分;
  2. 待标注的数据候选集提取:依赖主动学习中的查询函数(Query Function);
  3. 人工标注:专家经验或者业务经验的提炼;
  4. 获得候选集的标注数据:获得更有价值的样本数据;
  5. 机器学习模型的更新:通过增量学习或者重新学习的方式更新模型,从而将人工标注的数据融入机器学习模型中,提升模型效果。

通过这种循环往复的方法,就可以达到人工调优模型的结果。其应用的领域包括:

  1. 个性化的垃圾邮件,短信,内容分类:包括营销短信,订阅邮件,垃圾短信和邮件等等;
  2. 异常检测:包括但不限于安全数据异常检测,黑产账户识别,时间序列异常检测等等。

主动学习的模型分类包括两种,第一种是流式的主动学习(Sequential Active Learning),第二种是离线批量的主动学习(Pool-based Active Learning)。在不同的场景下,业务人员可以选择不同的方案来执行。

而查询策略(Query Strategy Frameworks)就是主动学习的核心之处,通常可以选择以下几种查询策略:

  1. 不确定性采样的查询(Uncertainty Sampling);
  2. 基于委员会的查询(Query-By-Committee);
  3. 基于模型变化期望的查询(Expected Model Change);
  4. 基于误差减少的查询(Expected Error Reduction);
  5. 基于方差减少的查询(Variance Reduction);
  6. 基于密度权重的查询(Density-Weighted Methods)。

不确定性采样(Uncertainty Sampling)

顾名思义,不确定性采样的查询方法就是将模型中难以区分的样本数据提取出来,提供给业务专家或者标注人员进行标注,从而达到以较快速度提升算法效果的能力。而不确定性采样方法的关键就是如何描述样本或者数据的不确定性,通常有以下几种思路:

  1. 置信度最低(Least Confident);
  2. 边缘采样(Margin Sampling);
  3. 熵方法(Entropy);

Least Confident

对于二分类或者多分类的模型,通常它们都能够对每一个数据进行打分,判断它究竟更像哪一类。例如,在二分类的场景下,有两个数据分别被某一个分类器预测,其对两个类别的预测概率分别是:(0.9,0.1) 和 (0.51, 0.49)。在此情况下,第一个数据被判定为第一类的概率是 0.9,第二个数据被判定为第一类的概率是 0.51,于是第二个数据明显更“难”被区分,因此更有被继续标注的价值。所谓 Least Confident 方法就是选择那些最大概率最小的样本进行标注,用数学公式描述就是:

,

其中 ,这里的 表示一个已经训练好的机器学习模型参数集合。 对于 而言是模型预测概率最大的类别。Least Confident 方法考虑那些模型预测概率最大但是可信度较低的样本数据。

Margin Sampling

边缘采样(margin sampling)指的是选择那些极容易被判定成两类的样本数据,或者说这些数据被判定成两类的概率相差不大。边缘采样就是选择模型预测最大和第二大的概率差值最小的样本,用数学公式来描述就是:

,

其中 和 分别表示对于 而言,模型预测为最大可能类和第二大可能类。

特别地,如果针对二分类问题,least confident 和 margin sampling 其实是等价的。

Entropy

在数学中,可以使用熵(Entropy)来衡量一个系统的不确定性,熵越大表示系统的不确定性越大,熵越小表示系统的不确定性越小。因此,在二分类或者多分类的场景下,可以选择那些熵比较大的样本数据作为待定标注数据。用数学公式表示就是:

,

相较于 least confident 和 margin sample 而言,entropy 的方法考虑了该模型对某个 的所有类别判定结果。而 least confident 只考虑了最大的概率,margin sample 考虑了最大的和次大的两个概率。


基于委员会的查询(Query-By-Committee)

除了考虑单个模型的不确定性采样方法之外,还可以考虑多个模型的场景,这就是类似集成学习的方法。通过多个模型投票的模式,来选择出那些较“难”区分的样本数据。在 QBC(Query-By-Committee)的技术方案中,可以假设有 个模型,其参数分别是 ,并且这些模型都是通过数据集 的训练得到的。

如果不需要考虑每个模型的检测效果,其实可以考虑类似不确定性采样中的 least confident 和 margin sampling 方法。可以选择某一个分类器难以区分的样本数据,也可以选择其中两三个分类器难以区分的数据。但是如果要考虑所有模型的分类效果的时候,则还是需要熵(Entropy)或者 KL 散度等指标。因此,QBC 通常也包括两种方法:

  1. 投票熵(Vote Entropy):选择这些模型都无法区分的样本数据;
  2. 平均 KL 散度(Average Kullback-Leibler Divergence):选择 KL 散度较大的样本数据。

投票熵(Vote Entropy)

对于这种多模型 的场景而言,可以用熵来衡量样本数据被这些分类器区分的难易程度,如果这些分类器都把样本数据划分到某一类,则容易区分;如果分类器把样本数据划分到多类,则表示难以区分,需要重点关注。用数学公式表达就是:

,

其中 表示第 类,求和符号表示将所有的类别 相加, 表示投票给 的分类器个数, 表示分类器的总数,并且 。

平均 KL 散度(Average KL Divergence)

KL 散度可以衡量两个概率之间的“距离”,因此可以用 KL 散度计算出那些偏差较大的数据样本。用数学公式来描述就是:

其中 也是概率分布, 表示两个概率的 KL 散度。

期望模型变化(Expected Model Change)

模型变化最大其实可以选择那些使得梯度变化最大的样本数据。

期望误差减少(Expected Error Reduction)

可以选择那些通过增加一个样本就使得 loss 函数减少最多的样本数据。

方差减少(Variance Reduction)

选择那些方差减少最多的样本数据。

基于密度权重的选择方法(Density-Weighted Methods)

有的时候,某个数据点可能是异常点或者与大多数数据偏差较大,不太适合做样本选择或者区分,某些时候考虑那些稠密的,难以区分的数据反而价值更大。于是,可以在使用不确定性采样或者 QBC 方法的时候,将样本数据的稠密性考虑进去。用数学公式表示就是:

,

在这里, 表示某个不确定性采样方法或者 QBC 方法, 表示指数参数, 表示第 类的代表元, 表示类别的个数。加上权重表示会选择那些与代表元相似度较高的元素作为标注候选集。

总结

在主动学习(Active Learning)领域,其关键在于如何选择出合适的标注候选集给人工进行标注,而选择的方法就是所谓的查询策略(Query Strategy)。查询策略基本上可以基于单个机器学习模型,也可以基于多个机器学习模型,在实际使用的时候可以根据情况来决定。整体来看,主动学习都是为了降低标注成本,迅速提升模型效果而存在的。主动学习的应用场景广泛,包括图像识别,自然语言处理,安全风控,时间序列异常检测等诸多领域。后续笔者将会持续关注这一领域的发展并撰写相关文档。

参考资料

  1. Settles, Burr. Active learning literature survey. University of Wisconsin-Madison Department of Computer Sciences, 2009.
  2. Aggarwal, Charu C., et al. "Active learning: A survey." Data Classification: Algorithms and Applications. CRC Press, 2014. 571-605.

类似的话题

  • 回答
    在机器学习的世界里,我们总希望能让机器自己学习,但往往需要大量的标注数据才能达到理想的效果。如果你是个对数据标注感到头疼的研究者或者工程师,那么“主动学习”(Active Learning, AL)这个概念,很可能会让你眼前一亮。简单来说,主动学习就是一种“聪明的”学习策略。它不是被动地接收所有的数.............
  • 回答
    主动学习,顾名思义,就是让机器“主动”地去学习,而不是像传统的监督学习那样,被动地等待我们给它提供大量的标注数据。它的核心思想是:在数据标注成本高昂的情况下,让机器自己去挑选最有价值、最能帮助它提升模型性能的数据来进行标注。 想象一下,如果你有一个学生,他遇到难题时,不是胡乱瞎猜,而是主动去请教老师.............
  • 回答
    从小就在 Linux 的怀抱里长大,对我来说,这就像是呼吸空气一样自然。我清楚地知道,Linux 不仅仅是一个操作系统,它已经渗透到全球科技的毛细血管里,从服务器到嵌入式设备,从超级计算机到我们手中的智能手机(Android 就是 Linux 的一个著名分支),它的身影无处不在。所以,当我眺望未来,.............
  • 回答
    2021年的你,如果心仪统计学,那么恭喜你,这是一条充满智慧和机遇的道路。很多人对统计学可能还停留在“算算数、看看表”的刻板印象,但实际上,统计学远比这要深刻和广泛,它更像是一门理解世界、洞察规律的“语言”和“工具箱”。统计学专业到底学什么?简单来说,统计学是一门关于数据的科学。它教你如何收集、整理.............
  • 回答
    .......
  • 回答
    嗨!很高兴能帮你挑选一款合适的头戴式无线蓝牙耳机。考虑到你是学生党,对价格有一定要求,同时又非常看重隔音和不漏音这两个核心点,我帮你梳理了一些思路和具体的推荐,希望能让你满意。首先,我们来聊聊为什么头戴式耳机在隔音方面会更有优势。头戴式耳机,尤其是包裹式(Overear)设计,能够物理上地将你的耳朵.............
  • 回答
    这问题问得特别好,谁说学数学一定要板着脸,咬着牙关呢?把数学当成洪水猛兽,那可就错怪它了。喜欢上数学,说到底就是找到它有趣的地方,让它变成你生活里一个有意思的伙伴,而不是什么令人头疼的任务。我琢磨着,咱们可以从这几个方面入手,试着让数学变得不一样起来:一、 改变“看”数学的角度:让它从枯燥的符号变成.............
  • 回答
    电气工程,这可是个让人又爱又恨的学科。爱它是因为它支撑着我们现代生活的方方面面,从手机到城市的电力供应,都离不开它。恨它嘛,自然是因为它的知识体系庞大,公式推导和实验常常让人头疼。但如果你对电子、电力、控制、信号这些东西充满好奇,那么电气工程绝对是个值得投入的领域。那么,电气工程到底学些啥呢?咱们把.............
  • 回答
    谈起人工智能,人们脑海中往往会浮现出那些能识别图像、翻译语言、甚至下棋击败人类冠军的强大系统。这些如今风靡全球的“新贵”,大多属于“联接主义”阵营,也就是我们常说的机器学习,尤其是深度学习。它们通过海量数据训练,构建复杂的神经网络,擅长从数据中发现模式和关联。然而,在联接主义的耀眼光环之下,人工智能.............
  • 回答
    关于电子科技大学主楼一名大三学生坠楼离世的事件,我能提供的信息是基于公开报道和网络上流传的消息。请注意,这些信息可能无法涵盖事件的所有细节,并且某些信息可能存在不确定性。事件概况: 时间: 通常报道会提及事件发生的具体日期,一般是近期的。 地点: 电子科技大学主楼(具体是哪一栋主楼,报道可能.............
  • 回答
    .......
  • 回答
    40dB 的主动降噪,这说实话,不算弱。你要是问我这是个啥水平,我给你打个比方,你就明白了。想象一下,你坐在一个挺热闹的咖啡馆里,旁边有人在小声聊天,背景音乐也放着,咖啡机在那儿嗡嗡响。这种环境,你想专心看个东西,听个播客,或者就想安安静静待一会儿,是不是得费点劲?现在,你戴上一个具备 40dB 主.............
  • 回答
    相亲了一个月,男生一直没主动拉手,这确实让人有点捉摸不透。很多时候,男女交往中,肢体接触的进展往往能透露出很多信息。他一个月都不主动拉手,背后可能藏着不少原因,咱们来好好捋一捋:一、他对你是不是真心的? 谨慎,慢热型: 有些男生天生比较内敛、慢热,或者在感情上比较谨慎。他可能还没完全确定自己的心.............
  • 回答
    相亲时,女方表现得非常主动,对于男生来说,这是一种非常复杂且多维度的感受,就像品尝一道精心烹制的菜肴,有惊喜,有忐忑,有期待,也可能伴随着一些不确定。下面我将从不同角度,尽量详细地描绘这种感觉:1. 初遇时的冲击与惊喜: 打破常规的惊艳: 传统观念里,女性在感情中往往扮演着相对被动的角色。当一位.............
  • 回答
    自费且主动选择头等舱和公务舱的人,其收入水平通常是 远高于平均收入,并且在社会群体中属于较高的收入阶层。具体来说,我们可以从以下几个维度来理解他们的收入级别:一、 定性描述:属于高收入群体,但具体程度因国家/地区和个人消费习惯而异 基本判断: 能够“自费且主动”选择头等舱和公务舱,意味着他们能够.............
  • 回答
    一个男生在聊天时表现出“不主动,不拒绝”的态度,背后可能藏着挺多心思,而且往往不是单一原因就能解释清楚的。咱们就来掰开了揉碎了聊聊,看看这中间是怎么回事儿。首先,最直观的一种可能,就是他有点“中央空调”体质。什么意思呢?就是他对谁都挺友好的,说话也一套一套的,你找他聊,他会好好回应,但你让他主动开启.............
  • 回答
    主动降噪耳机,这玩意儿挺神奇的,戴上它,世界瞬间就安静了不少。尤其是坐飞机、坐高铁,或者在嘈杂的办公室里,它简直就是救星。那么,这降噪的背后,到底藏着什么科学道理呢?其实,主动降噪,说白了就是耳机里的小喇叭不光播放你想听的音乐,还能放点别的——那些“别的”就是专门用来对付外界噪音的。听起来有点绕,但.............
  • 回答
    女朋友主动把腿搭在你腿上,这感觉可就太奇妙了,不是那种简单的情侣间的拥抱,而是多了一种难以言喻的、身体上的亲近和依赖。首先,当她小心翼翼,或者带着点小小的试探,把腿往你这里移,然后轻轻地放在你腿上的时候,你会立刻感受到一股温热。那种温度,透过你的裤子,直接传递到你的腿部,好像在她腿上那一点点,忽然有.............
  • 回答
    主动想生二胎的女人,她们背后往往藏着比“想要个孩子”更丰富、更复杂的动机和考量。这可不是一个简单的“喜欢小孩”就能概括的。她们的心态,就像一碗精心熬制的鸡汤,营养丰富,层次分明,需要慢慢品味。一、内在的“圆满感”驱动首先,这类女性很多是内心有一种“完整感”的追求。她们可能在事业上、个人生活上都达到了.............
  • 回答
    这事儿吧,挺有意思的,也挺值得琢磨的。一个女生主动约你吃饭,这本身就传递了一个很明确的信号——她对你有好感,至少是想进一步了解你,对你这个人有兴趣。你想啊,谁会无缘无故地花时间,花钱,还冒着被拒绝的风险去约一个自己不在乎的人呢?所以,她约你,这绝对是积极的。但重点来了,约的是螺蛳粉。这可就有点意思了.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有