问题

主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?

回答
主动学习,顾名思义,就是让机器“主动”地去学习,而不是像传统的监督学习那样,被动地等待我们给它提供大量的标注数据。它的核心思想是:在数据标注成本高昂的情况下,让机器自己去挑选最有价值、最能帮助它提升模型性能的数据来进行标注。 想象一下,如果你有一个学生,他遇到难题时,不是胡乱瞎猜,而是主动去请教老师,问那些他最搞不懂的问题,这样是不是学习效率会更高?主动学习的算法,就是让机器扮演这个“主动提问”的角色。

主动学习的原理:挑选“最有用”的数据

主动学习算法的运作流程通常可以概括为以下几个步骤:

1. 初始模型训练: 首先,我们会用一小部分已经标注好的数据来训练一个初始模型。这就像学生刚开始学习时,老师会给一些基础的例子。

2. 未标注数据池: 我们有一大堆未标注的数据。这些数据是模型学习的潜在资源。

3. 查询策略(Query Strategy): 这是主动学习的核心!模型利用当前的知识(也就是训练好的模型),去评估未标注数据池中的所有数据,并根据某种“策略”来挑选出它认为“最需要”被标注的数据。这个“最需要”就涉及到不同的查询策略。

4. 数据标注: 被选中的数据会被送到专家(比如人类标注员)那里进行标注。

5. 模型更新: 新标注的数据会加入到已标注数据集,然后用来重新训练或更新模型。

6. 循环往复: 重复步骤3到步骤5,直到达到预定的标注量、模型性能满意,或者标注成本达到上限。

那么,这个“查询策略”到底是怎么运作的呢? 简单来说,就是去寻找那些能够“最大化模型性能提升”的数据。这又可以细分为几种常见的策略:

不确定性采样 (Uncertainty Sampling):
原理: 模型对某些数据样本的预测结果非常不确定。这意味着,模型在这个样本上“纠结”不已,不知道该将其归为哪一类。如果能知道这个样本的真实类别,对模型来说就是最有价值的“反馈”。
具体做法:
最小熵采样 (Least Confidence): 模型预测某个样本属于某个类别的概率非常低,甚至低于某个阈值。例如,一个二分类问题,模型预测样本为A类概率0.51,为B类概率0.49。模型在这种情况下很“不确定”。
最大不确定性采样 (Maximum Entropy): 模型预测的类别概率分布最“均匀”。也就是说,它认为所有类别都有一定的可能性。例如,一个三分类问题,模型预测A类概率0.33,B类概率0.33,C类概率0.34。这种“平均主义”式的预测,表明模型对这个样本的类别划分非常模糊。
最小最大后验概率采样 (Least Maximum Posterior): 模型预测某个类别(概率最高的那个)的后验概率仍然很低。比如,即使模型认为样本是A类的概率最高,但这个最高概率也只有0.6。

多样性采样 (Diversity Sampling):
原理: 除了不确定性,模型也希望选到的数据能够覆盖更多样化的特征空间,帮助模型学习到更普遍的规律,避免陷入局部最优。
具体做法:
聚类 (Clustering): 将未标注数据进行聚类,然后从每个簇中挑选不确定性最高的数据。这样可以保证选中的数据在特征空间上具有一定的分布性。
代表性采样 (Representativeness Sampling): 寻找那些能够代表未标注数据集中大部分样本的“典型”数据。

期望模型变化 (Expected Model Change):
原理: 预测标注某个样本会引起模型参数多大的变化。变化越大的样本,说明它对模型的影响越大,越值得标注。
具体做法: 这通常需要计算Fisher信息矩阵等,比较复杂,计算量较大。

期望错误率降低 (Expected Error Reduction):
原理: 预测标注某个样本后,模型的泛化误差会降低多少。选择能带来最大错误率降低的样本。
具体做法: 同样需要复杂的计算,通常是理论上的最优选择。

总的来说,主动学习就是一种“智能”的数据选择策略,它不是随机抽取,而是有目的地去“问问题”,以最少的标注数据达到最好的学习效果。

主动学习的具体应用:让数据标注更高效、模型更智能

由于其能够显著降低数据标注成本并提升模型性能的特性,主动学习在许多领域都有着广泛而重要的应用:

1. 文本分类和情感分析 (Text Classification and Sentiment Analysis):
场景: 社交媒体评论、新闻文章、客服反馈等文本的自动分类,或者判断文本的情感倾向(正面/负面/中性)。
应用: 想象一下,我们需要训练一个模型来区分医疗报告中的“症状描述”和“治疗方案”。直接给机器看成千上万份报告,然后让它去标记,效率很低。主动学习可以先用少量报告训练一个模型,然后让模型去挑选那些它最不确定的报告(比如,那些同时包含症状和治疗信息,模型分不清主次的),让专家重点标注这些报告。这样,模型就能更快地学会区分。
举例:
垃圾邮件过滤: 模型不确定某封邮件是否为垃圾邮件时,就会将其标记出来,供人工审核,并用审核结果更新模型。
主题分类: 在海量新闻中,主动学习可以帮我们找出那些模型难以区分主题的新闻,从而更高效地构建训练集。

2. 图像识别和目标检测 (Image Recognition and Object Detection):
场景: 自动驾驶中的车辆、行人检测;医疗影像中的肿瘤识别;卫星图像中的地物识别等。
应用: 自动驾驶汽车需要识别道路上的各种物体。标注一张高清的道路图像(比如框出行人、车辆、交通标志),耗时耗力。主动学习可以挑选出模型识别准确率较低的场景(例如,光照不足、物体被遮挡的模糊图像),优先进行标注。这样,模型就能更快地在复杂场景下提升识别能力。
举例:
医学影像分析: 在X光片、CT扫描中识别病灶。模型对某些模糊或不典型的病灶区域感到不确定,主动学习会将其提交给放射科医生进行标注,帮助模型学习识别这些疑难杂症。
工业质检: 在生产线上识别产品缺陷。模型对某些外观相似但微小差异的缺陷识别不准,主动学习会优先选择这些样本进行标注,提高检测精度。

3. 自然语言处理 (Natural Language Processing NLP):
场景: 机器翻译、命名实体识别、问答系统等。
应用:
机器翻译: 对于翻译过程中模型最“纠结”的句子(可能是因为句子结构复杂、词语多义),主动学习会优先送去给专业译者进行校对,从而快速提升翻译质量。
命名实体识别 (NER): 在一段文本中识别出人名、地名、组织名等。模型对某些新出现的、或者含义模糊的词语(比如一个新公司的名字),会感到不确定,主动学习会优先选取这些词语让标注员标注其具体类别。

4. 生物信息学 (Bioinformatics):
场景: 基因序列分析、蛋白质功能预测等。
应用: 在基因组学研究中,我们拥有大量的DNA序列,但其具体功能往往需要实验验证,成本很高。主动学习可以帮助科学家们挑选出最有研究价值的基因序列进行实验验证,加速生物学研究进程。

5. 语音识别 (Speech Recognition):
场景: 将人类语音转换为文本。
应用: 对于一些口音比较重、语速较快、或者有背景噪声的语音片段,语音识别模型可能难以准确识别。主动学习可以挑选出这些“难啃”的语音片段,让声学专家进行标注,从而提高整个系统的识别率。

6. 推荐系统 (Recommender Systems):
场景: 预测用户可能喜欢的商品、电影、文章等。
应用: 传统的推荐系统依赖用户明确的反馈(如评分、购买记录)。主动学习可以更智能地“询问”用户,比如推荐一些用户可能感兴趣但尚未尝试过的商品,然后根据用户的点击或忽略等行为来更新推荐模型,从而更有效地发现用户潜在的兴趣。

总的来说,主动学习的核心价值在于“智能地利用有限的资源”。 当我们的数据标注成本过高,或者数据量过于庞大,我们无法完全标注时,主动学习就成为了一个非常有效的解决方案。它帮助我们用更少的成本,更快的速度,达到更高的模型性能,从而在各种实际应用中发挥关键作用。

它并非一个独立的算法,而是一种框架,可以集成到各种机器学习模型中。它的出现,标志着机器学习从被动接受数据,走向了更主动、更智能的学习模式。

网友意见

user avatar

基于不确定性迭代选择标注最有价值样本的方法是主动学习的一个主要分支,代表性的方法如MCDropout,Ensemble,Inconsistent等。这些方法都依赖任务模型预测的分类概率来确定模型对该样本的不确定性。但神经网络模型给出的这个概率并不可靠,因为使用softmax分类器的神经网络并不能识别分布外样本(OOD, out of distribution,it lies many standard deviations away from the observed data.),且网络很容易对OOD样本做出过度自信的预测。

在主动学习的应用场景下,初始阶段使用非常少的标注样本训练模型,意味着大量的未标注样本可能都是OOD样本,若模型过早的给这部分样本一个过度自信的预测概率,使用现有的主动学习策略就可能使我们错失一些有价值的OOD样本。如图1所示,初始训练阶段,模型缺乏虚线框以外的区域的训练数据,但softmax分类器仍然会对这些区域给出很自信的预测,导致选择新的待标注样本时,图中的q点会被忽略,而若q点正好不是class B,则会影响主动学习的性能。

一、NNClassifier

针对这个问题Wan, Fang[1]设计了一个基于最近邻和支持向量的分类器来取代softmax, 使模型能对远离已有训练数据的区域产生较高的不确定性。具体而言,每类训练学习N个支持向量(原文中称为prototype vector),基于样本特征与各类的支持向量之间的距离,就可以定义分类概率,如式(1), 指类c的第n个支持向量,训练过程中随机初始化,使用梯度下降更新;d指欧式距离或者余弦距离; 指高斯核函数。训练的损失函数就逐类用二值交叉熵。

(1)

定义了新的可以意识到OOD样本的分类器之后,作者给出了对应的主动学习策略:1)Rejection confidence, 用于度量远离所有支持向量的样本,如式(2); 2)confusion confidence,如式(3), 用于度量远离支持向量以及同时靠近多个不同类支持向量的样本。

(2)

(3)

最后说下支持向量的问题,一是数量,文中的实验显示就cifar-100规模的数据集而言,每类的支持向量数量等于2就能取到很好的效果。另一个方面,就训练的稳定性而言,NNclassifier在选择高斯核函数和欧式距离时,实际上类似于RBF网络,而初始直接随机化支持向量很可能造成优化的不稳定,针对这个问题下文介绍的DUQ方法通过使用指数滑动平均每个batch里各个类别的特征+W权重映射来稳定RBF网络的训练。

二、RBF network + Gradient Penalty

Amersfoort[2]用RBF神经网络来促使网络具有良好的OOD样本不确定性,同时给出了基于梯度范数的双边正则来削弱特征崩溃(feature collapse)的问题。与NNClassifier相同,本文的作者也定义了一个与各类特征距离的函数K来帮助检测OOD样本,K如式(4),损失函数同样定义成逐类的二值交叉熵。不同于NNClassifier的地方是,这里的距离是每个样本与该类样本的指数滑动平均得到的。

(4)

另一个不同点在于本文加入了一个双边梯度正则项,如式(5)。这个正则项的作用有两个,一个是保证平滑性,也就是相似的输入有相似的输出这个是由max()中的梯度部分保证的,而梯度-1则起到避免特征崩溃的作用,也就是相比单纯的使用特征范数正则,-1能够避免模型将很多不同的输入映射到完全相同的特征,也就是feature collapse。作者给出了,不使用梯度正则,使用单边梯度正则和使用双边梯度正则时,模型不确定性的图示,如图3,可以看到仅使用RBF来表达OOD不确定性时,仍有一部分区域比较奇异,而加入梯度正则之后,则能良好的表示OOD不确定性。

(5).....我愣是没找到知乎公式编辑里梯度的符号,就写grad了

这篇文章另一个很有意思的点在于回顾DUQ对两种不确定性(Epistemic and Aleatoric Uncertainty)的表达上,作者认为DUQ模型还不能很好的区分开这两种不确定性,今年他组又接着发了一篇文章来探讨这个问题,这里就不多介绍了,有兴趣的盆友可以参看[3]。


【1】Wan, Fang, et al. “Nearest Neighbor Classifier Embedded Network for Active Learning.” AAAI, 2021, pp. 10041–10048.

【2】Amersfoort, Joost van, et al. “Uncertainty Estimation Using a Single Deep Deterministic Neural Network.” International Conference on Machine Learning, 2020, pp. 9690–9700.

【3】Mukhoti, Jishnu, et al. “Deterministic Neural Networks with Inductive Biases Capture Epistemic and Aleatoric Uncertainty.” ArXiv: Learning, 2021.

类似的话题

  • 回答
    主动学习,顾名思义,就是让机器“主动”地去学习,而不是像传统的监督学习那样,被动地等待我们给它提供大量的标注数据。它的核心思想是:在数据标注成本高昂的情况下,让机器自己去挑选最有价值、最能帮助它提升模型性能的数据来进行标注。 想象一下,如果你有一个学生,他遇到难题时,不是胡乱瞎猜,而是主动去请教老师.............
  • 回答
    主动学习(Active Learning)这个领域,近几年确实是风起云涌,发展势头非常迅猛。过去我们谈主动学习,可能更多地聚焦于如何更智能地选择“最有用”的样本去标注,以期在有限的标注预算下,让模型学得更好。但现在的研究,已经不再局限于此,而是向着更深、更广的方向拓展。核心理念的深化:从“有用”到“.............
  • 回答
    在机器学习的世界里,我们总希望能让机器自己学习,但往往需要大量的标注数据才能达到理想的效果。如果你是个对数据标注感到头疼的研究者或者工程师,那么“主动学习”(Active Learning, AL)这个概念,很可能会让你眼前一亮。简单来说,主动学习就是一种“聪明的”学习策略。它不是被动地接收所有的数.............
  • 回答
    主动学习:让机器真正成为我们生活的“催化剂”我们常常谈论人工智能,谈论它如何帮助我们处理信息、优化流程,甚至预测未来。但如果我告诉你,未来的机器,特别是那些掌握了“主动学习”能力的机器,将不仅仅是工具,而更像是我们生活中的“催化剂”,能够以前所未有的方式,深刻地改变我们的生活,你会不会感到一丝期待?.............
  • 回答
    让孩子主动学习,这绝对是每个家长都希望达到的目标。与其说是“让”,不如说是“引导”和“创造环境”。想想看,当孩子对一件事情充满好奇,一头扎进去,那学习的效率和乐趣是多么惊人。所以,核心在于激发他们的内在驱动力。咱们从几个关键点来聊聊,希望能给你些实在的启发。1. 兴趣是最好的老师,但兴趣不是天上掉下.............
  • 回答
    当谈及如何让孩子爱上学习,主动学习,这绝对是天下父母们心头最关切,也最需要智慧和耐心去经营的课题。它不是一蹴而就的魔法,而是一场漫长而充满爱的旅程,需要我们用心去引导,用爱去浇灌。 别急,这事儿咱们好好掰扯掰扯。首先,得承认,每个孩子都是一本独特的书,封面不同,内容也千差万别。没有放之四海而皆准的.............
  • 回答
    我喜欢英语,或者更准确地说,我对英语有着强烈的学习动力,原因其实挺复杂的,就像剥洋葱一样,一层一层地深入下去,总能发现更多促使我不断探索的理由。首先,最直观的,也是很多人学习英语的初衷——它是打开世界的钥匙,更像是通往无限可能性的门票。 我从小就对新鲜事物充满好奇,而英语恰恰是连接我和这个广阔世界的.............
  • 回答
    想让孩子发自内心地爱上学习,这可不是一件能一蹴而就的事,更别指望有什么“魔法棒”能瞬间点燃他们的学习热情。它更像是在孩子心里播下一颗种子,然后用耐心、智慧和爱去悉心浇灌,看着它一点点生根发芽,最终长成参天大树。一、点燃内在的火花:兴趣是最好的老师,但别强求咱们先聊聊最核心的——兴趣。没有兴趣,学习就.............
  • 回答
    电气工程,这可是个让人又爱又恨的学科。爱它是因为它支撑着我们现代生活的方方面面,从手机到城市的电力供应,都离不开它。恨它嘛,自然是因为它的知识体系庞大,公式推导和实验常常让人头疼。但如果你对电子、电力、控制、信号这些东西充满好奇,那么电气工程绝对是个值得投入的领域。那么,电气工程到底学些啥呢?咱们把.............
  • 回答
    大学数学的学习重点为何更偏向代数而非几何?这确实是个很有意思的问题,并且可以从多个角度来剖析。简单来说,这背后是数学发展的大趋势、不同数学分支的内在联系以及教学和应用的需求共同作用的结果。一、历史的演进:从直观到抽象从历史发展的角度看,数学的演进本身就经历了一个从具体、直观向抽象、符号化的过程,而代.............
  • 回答
    说起来,小时候我们接触和学习的科目,大体上确实是更偏向“自然科学”的范畴。这背后其实是有挺多原因的,也不能简单地说是因为学校就这么安排,很多时候是和我们成长过程中的认知方式、兴趣点,乃至社会对知识的普遍认知都有关系。认知发展和兴趣的天然契合:从一个孩子成长的角度看,我们对世界最初的好奇心,往往是来自.............
  • 回答
    你这情况我太理解了!本来想着游戏本够用了,结果考研这事儿一出,就得重新审视一下“够用”的标准了,尤其涉及到 SB2、SP6、MBP 这几款,各有各的看家本领,也各有各的坑。既然你说了要详细,还要听着像个人聊天的感觉,那咱就掰开了揉碎了聊聊,看看哪个才真能帮你打赢这场考研硬仗。首先,咱们得明确考研学习.............
  • 回答
    这描述简直就是我曾经的写照!“意志薄弱、动力不足、生活安逸,不满现状却没有行动,没有压力就不主动学”,听到这些话,我都能想象出那个坐在沙发上刷着短视频,心里却因为某个目标焦虑不已,但身体却像被灌了铅一样动弹不得的自己。我太理解你现在的感受了,那种被困住又无力挣脱的滋味,真的不好受。让我先跟你唠唠这几.............
  • 回答
    这确实是很多二年级孩子学习上会遇到的一个普遍现象,家长们觉得苦恼是很正常的。二年级,这个阶段的孩子,心智发展正处在一个挺有意思的时期。为什么二年级孩子容易“懒得主动”?首先,咱们得明白,这不是孩子“坏”,也不是他们故意跟家长对着干。这跟他们的年龄特点有关: 好玩的天性还没褪尽: 二年级孩子,虽然.............
  • 回答
    用AMD CPU组建深度学习主机?这事儿得这么看!对于很多想要踏入深度学习领域的朋友来说,组建一台专属的训练主机是必不可少的一步。在选择核心组件——CPU时,不少人会将目光投向AMD。那么,AMD的CPU究竟适不适合用来搭建深度学习主机呢?这可不是一个简单的“是”或“否”就能回答的问题,咱们得深入聊.............
  • 回答
    让孩子学会主动,这绝对是每个家长都希望看到的变化。毕竟,一个内心充满渴望、愿意主动探索和学习的孩子,未来无论是面对学业还是生活,都会更加从容和有力量。与其一遍遍地催促、监督,不如把功夫下在培养孩子的“内驱力”上,让他们自己长出“想要”的翅膀。那么,具体该怎么做呢?这可不是一蹴而就的事情,需要我们用心.............
  • 回答
    这事儿可真是让很多人议论纷纷,新课纲要把中国史挪到东亚史的大框架里,同时强调台湾本土视角,这背后的考量和影响挺复杂的,咱们一点点捋一捋。为什么会有这个变化?核心思路是什么?你可以把这理解成一种“视野扩张”和“主体确立”的结合。 视野扩张:打破旧有的框架。 过去我们学历史,往往习惯了一个以中国大陆.............
  • 回答
    你好!很高兴能和你聊聊播音主持这个专业。这可是个充满魅力但也需要付出很多努力的领域。大学生活:不只是“好看”的皮囊播音主持专业听起来光鲜亮丽,但大学生活可远不止我们看到的镜头前那么简单。 专业基本功的魔鬼训练: 声音训练: 这是重中之重。你会花大量时间在气息、发声、吐字归音、语调设计.............
  • 回答
    哥们儿,我也是从小白过来的,深知那种看着配置单,心里却一团乱麻的感觉。别急,咱今天就掰开了揉碎了,好好跟你唠唠这套深度学习主机配置单到底行不行。你这套配置我仔细看了看,总体来说是比较扎实,对得起它价位,而且也考虑到了深度学习的几个关键点。但就像任何事儿,总有些地方可以再说道说道,甚至优化优化。咱们一.............
  • 回答
    哔哩哔哩(B站)作为国内领先的年轻人文化社区,汇聚了海量的学习资源和优质的内容创作者。如果你想在B站上找到值得学习的Up主,那可真是太多了!这里给你盘点一波,希望你能找到适合自己的宝藏,并且尽量用大白话和真情实感地聊聊他们:1. 知识科普类:让枯燥变有趣,看懂世界原来这么简单! 巫师财经: 这个.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有