问题

主动学习(Active Learning)近几年的研究有哪些进展,现在有哪些代表性成果?

回答
主动学习(Active Learning)这个领域,近几年确实是风起云涌,发展势头非常迅猛。过去我们谈主动学习,可能更多地聚焦于如何更智能地选择“最有用”的样本去标注,以期在有限的标注预算下,让模型学得更好。但现在的研究,已经不再局限于此,而是向着更深、更广的方向拓展。

核心理念的深化:从“有用”到“信息增益”与“模型驱动”

最早的主动学习策略,比如不确定性采样(Uncertainty Sampling)、多样性采样(Diversity Sampling)、委员会采样(QuerybyCommittee),都是围绕着“选择那些模型最不确定、或者最能代表未知数据的样本”。这是一种直观且有效的思路。

近几年,研究者们更深入地探讨了“信息增益”的概念。这里的“信息”不仅仅是样本本身的特征,更重要的是样本对模型参数更新的贡献程度。这催生了许多更复杂的采样策略:

基于梯度(Gradientbased)的策略: 这里的核心思想是,一个有价值的样本,当我们将其加入训练集并重新训练模型后,应该能显著地改变模型的参数。因此,可以根据样本对模型梯度(尤其是损失函数的梯度)的影响大小来选择样本。例如,Gradientbased Uncertainty Sampling(基于梯度的不确定性采样)会考虑样本的预测不确定性,同时衡量其梯度的大小。如果一个样本很模糊,但它对模型参数的影响很小,可能就不是那么“值得”标注。
基于模型方差/不确定性的更精细度量: 除了简单的预测概率,研究者们也在探索更精细的模型不确定性度量。例如,使用贝叶斯神经网络(Bayesian Neural Networks),可以得到参数的后验分布,从而计算模型预测的方差,这比单一的预测点估计更能反映模型的不确定性。
“好奇心驱动”(Curiositydriven)或“探索性”(Exploratory)策略: 受到强化学习中探索机制的启发,有些策略会选择那些模型“不知道”或者“没有足够探索过”的区域的数据。这可以通过分析模型在输入空间中的激活模式、或者利用模型预测的熵来衡量。
Batchmode Active Learning: 实际应用中,我们往往不是一个样本一个样本地选择,而是希望一次性选择一批样本。这带来了一个新的挑战:如何在选择一批样本时,既保证多样性,又避免批次内部的冗余。传统的批次选择方法可能导致选出的样本高度相似,从而降低了标注效率。新的研究则致力于开发能够同时考虑批次内多样性和信息价值的策略。

与深度学习的深度融合:利用深度模型自身的强大能力

深度学习的兴起,为主动学习注入了新的活力,也提出了新的挑战。现在的主动学习研究,已经很难脱离深度学习模型本身。

嵌入空间(Embedding Space)中的主动学习: 深度学习模型学习到的低维嵌入空间,往往蕴含着丰富的数据结构和语义信息。许多主动学习策略现在会直接在嵌入空间中进行采样。例如,选择那些在嵌入空间中位于簇的边界(cluster boundaries)或者簇之间(between clusters)的样本。DensityWeighted Methods(密度加权方法)会考虑样本在嵌入空间中的密度,高密度区域的样本信息量可能较低,而低密度区域的样本则可能更具代表性。
利用预训练模型(Pretrained Models)的知识: 在迁移学习的背景下,我们常常使用在大规模数据集上预训练好的模型作为基础。如何利用这些预训练模型已有的知识来指导主动学习?例如,可以选择那些在预训练模型中表现出高不确定性的样本,因为这可能意味着它们与预训练数据的分布差异较大,对模型在新任务上的适应至关重要。
元学习(MetaLearning)与主动学习: 元学习的目标是“学习如何学习”。将元学习的思想引入主动学习,可以学习到一种“学习如何选择样本”的策略。一个元学习器可以被训练来预测不同采样策略在特定数据集上的有效性,或者直接学习一个采样模型,它能够根据当前模型的训练状态,动态地生成最优的样本选择器。
与自监督学习(SelfSupervised Learning)的结合: 自监督学习能够在没有标签的情况下,让模型从海量无标签数据中学习到有用的表示。主动学习可以与自监督学习协同工作:先利用自监督学习预训练一个强大的特征提取器,然后利用主动学习策略从少量有标签数据中提取最有价值的信息,并反馈给自监督学习过程,从而进一步提升模型的整体性能。

应用场景的拓展与深化:不仅仅是图像分类

最初,主动学习主要在图像分类、文本分类等任务中得到应用。但近几年,其应用领域得到了极大的拓展:

目标检测与语义分割: 在这些密集预测任务中,标注成本很高,往往需要框出或分割出每一个目标。主动学习策略需要考虑样本的边界框(bounding boxes)或分割掩码(segmentation masks)的标注质量和信息价值。例如,选择那些模型在边界框预测上存在较大不确定性的样本,或者模型对分割结果的置信度较低的区域。
序列标注与自然语言处理(NLP): 在命名实体识别(NER)、关系抽取等任务中,主动学习可以用来选择需要进行词语标注或关系标注的句子。这里的信息度量可能与句子的句法结构、词语的共现频率、或者模型对特定词语的标注不确定性有关。
图神经网络(GNN)的主动学习: 对于图结构数据,主动学习需要考虑节点的特征、边的连接关系以及在图结构中的位置。采样策略可能集中在中心性高的节点(high centrality nodes)、连接性强的节点(highly connected nodes)、或者位于图稀疏区域的节点(nodes in sparse regions of the graph)。
强化学习(RL)中的主动学习: 在强化学习中,探索(exploration)本身就可以被看作是一种主动学习过程。研究者们也在探索如何将更精细的主动学习策略引入到RL的探索过程中,例如,选择那些能够最大化“模型进步”(model progress)的轨迹或状态动作对。
对抗性攻击与防御: 在对抗性学习的研究中,主动学习也可以用来寻找最容易被模型误分类的“对抗样本”,或者用于训练更鲁棒的模型。

代表性成果与发展方向

要列举“代表性成果”确实有点难,因为这个领域的发展太快了,许多优秀的思想都融入到了各种框架和算法中。但我可以提炼一些大家普遍认可和正在关注的研究方向和技术点,这些可以看作是当前研究的“代表性成果”的来源:

1. Batchmode Active Learning with Diversity and Informativeness: 解决一次选择多个样本时,如何平衡多样性和信息性的问题。例如,使用核心集(coreset)的概念,找到一个能够近似代表整个未标注数据集的小型子集,然后从中选择信息量最大的样本。或者采用迭代批次选择(iterative batch selection),每次选择一批样本,更新模型,再选择下一批。
2. Uncertainty Estimation in Deep Models for Active Learning: 探索更可靠、更鲁棒的不确定性估计方法,尤其是在深度学习模型中。这包括Monte Carlo Dropout(蒙特卡洛 Dropout)、Deep Ensembles(深度集成)、以及前面提到的Bayesian Neural Networks。利用这些方法可以得到更精确的不确定性度量,从而更有效地指导样本选择。
3. Gradientbased Active Learning Strategies: 关注样本对模型参数更新的影响。这包括Gradientbased Uncertainty Sampling、Gradientbased Variance Reduction等,目标是选择那些能够最大化模型参数变化或最小化模型风险的样本。
4. Active Learning for Robustness and Fairness: 将主动学习的应用从单纯的准确率提升,扩展到模型的鲁棒性(例如,对抗样本的鲁棒性)和公平性(例如,确保不同子群体的数据都能得到充分的标注)。
5. SemiSupervised Learning and Active Learning Integration: 许多研究将主动学习与半监督学习结合,利用大量的无标签数据来辅助主动学习过程,或者反之,利用主动学习来更有效地选择带有标签的样本,从而加速半监督学习的收敛。
6. Active Learning for Rare Event Detection: 在数据分布极不均衡的情况下,如何有效地主动选择稀有类别的样本,是主动学习面临的一个重要挑战。这需要特殊的采样策略来聚焦于那些模型难以学习到的少数样本。

总结来说,主动学习近几年的研究进展,可以归结为:

理论的深化: 从简单的“有用”样本,走向更精细的“信息增益”度量,特别是关注样本对模型参数更新的贡献。
方法的创新: 涌现出大量基于梯度、基于模型不确定性(更精细的度量)、元学习、以及结合特定领域知识的采样策略。
与深度学习的融合: 充分利用深度模型学习到的表示和能力,将主动学习策略设计在嵌入空间或利用深度模型的内部结构。
应用场景的拓展: 不仅局限于传统任务,还在目标检测、语义分割、NLP、GNN、RL等更复杂的领域找到了用武之地。
目标的多样化: 不仅仅是为了提高准确率,也开始关注模型的鲁棒性、公平性等更全面的性能指标。

这个领域依然充满活力,我相信未来几年还会有更多激动人心的进展出现。

网友意见

user avatar

深度学习时代的主动学习,个人觉得肇始于MCdropout(2016年, 2019有一个补丁版)[1],兴盛于coreset(2018年)[2],中间夹杂着基于对抗的方法[3]和极少量的基于强化学习方法[4]。这两年,感觉主动学习的研究进入冷静期,虽然也有些工作,但细看还是修修补补居多,比如把coreset的距离度量替换成wiss.距离[5]。但现在主动学习面临的最尴尬的问题还没见到很好的解决方案:与竞品相比不够有效,又很难和其他方面发现的很有效的技巧结合来提升, 比如先进的数据扩增randaug,乃至于半监督学习等等。

最近三年我觉得还可以的工作:

推广coreset到模型参数后验的sparse corset(2019nips)[6], 结合不确定性和特征空间覆盖的BADGE(2020iclr)[7],切换视角来看分类器影响的NN classifier(2021aaai)[8],在线主动半监督MPART(2021icml)[9], 数据不平衡状态下的处理VaB-AL(2021cvpr)[10]。接下来还是想谈谈为啥AL有点不温不火,以及他还可以再战吗?

主动学习不温不火的原因:

1.单用AL比不上竞品

在炼丹这领域不管故事说的多好听,得拿出效果来。所以半温不火的原因,一定免不了在效果提升方面比不上竞品:半监督,自监督+少量标注样本fine-tune。简单拉下数据,cifar10上,半监督用250张标注样本能到95%了,自监督+250张标注样本fine-tune下也能到88%,而主动学习到这么高要多少样本?9000张标注样本,也才能到90%的精度(NNclassifier, coreset, learning loss, VAAL)。这么大的差距,直接击溃主动学习心态了。当然,我们也可能会想,那既然用主动学习比不上,么我把两者结合呢,搞个Active semi-sup.啥的,那就遇到更坑爹的问题,不像半监督学习和自监督学习,轻轻松松就结合起来了,两者都不用怎么改,组件一叠加就效果倍增,比如S4L。主动学习与其他组件结合性不好,甚至有点差。

2.与其他组件结合出现问题

其实和半监督的结合是个很自然的想法,既然主动学习能优化标注样本的选择,而半监督能利用无标注样本,大家结合一下更好嘛。但一搜文章,大家试着一结合,发现加上主动学习效果不明显,甚至起到反作用。发个图大家看看,图源[11]

3. AL论文脱节的评价指标

直到今年发表的主动学习方面论文,在实验评价方面都还在用古早的设置,比如数据扩增只用随机翻转裁切,但主动学习现在的坑点在于他一结合强数据扩增效果就崩掉了啊,一直在弱扩增的条件下实验有个鬼用哦。甚至有人专门搞了个文章来喷这个[12].

主动学习还能再战吗?

我觉得能,但是得切换合适的场景。做个简单类比,主动学习和半监督学习就像游戏文明里的两种流派,半监督对应爆铺,不追求每个点很好,但以量取胜;主动学习对应精铺,希望每个点尽量好,但在一些版本比如文明6,效果越来越比不上爆铺。那与其在这个版本里研究怎么精铺,不如换个版本,换个游戏,换到更适合精铺的场景 不就好了。也就是跳出主动学习来做分类这个太经典的任务场景,找到更合适的场景:不仅标注成本更大,甚至采样数据点的成本都更大的地方?比如机器人领域,主动环境探索[13],主动环境监测[14],电磁场领域[15]等等等。

拿我现在组里师兄的一个工作来举个例子,简单点说就是利用主动学习的方法来选择采样点,规划布设自主水下航行器AUV的实际路径[14]。明显这种场景就更适合套主动学习,因为这场景下连其他采样点都没有,直接免去了来自更暴力的竞品——半监督的威胁。具体点描述:任务场景是我们想要建立大块海域的栖息地模型,也就是这块海洋哪是珊瑚,哪是沙子,哪是礁石,我们也有覆盖这片海域的粗粒度的声呐测深结果,想要选出最合适的地点投放潜航器来采集光学图像。在这个场景里,面临的就不仅仅是标注个样本的成本,而是采集数据点本身成本就很高,租能搭载潜航器的船,一组实验人员开销啥的,这时候我们就非常想要采到最有信息量的数据,所以套了主动学习,套用的主动学习方法也很简单,就MCdropout那一套,找找epistemic不确定性,投放潜航器就得。

参考文献

[1] Gal, Yarin, et al. “Deep Bayesian Active Learning with Image Data.” Proceedings of the 34th International Conference on Machine Learning - Volume 70, 2017, pp. 1183–1192.

[2] Sener, Ozan, and Silvio Savarese. “Active Learning for Convolutional Neural Networks: A Core-Set Approach.” International Conference on Learning Representations, 2018.

[3] Sinha, Samrath, et al. “Variational Adversarial Active Learning.” 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 5972–5981.

[4]Casanova, Arantxa, et al. “Reinforced Active Learning for Image Segmentation.” ICLR 2020 : Eighth International Conference on Learning Representations, 2020.

[5]Shui, Changjian, et al. “Deep Active Learning: Unified and Principled Method for Query and Training.” International Conference on Artificial Intelligence and Statistics, 2020, pp. 1308–1318.

[6]Pinsler, Robert, et al. “Bayesian Batch Active Learning as Sparse Subset Approximation.” Advances in Neural Information Processing Systems, vol. 32, 2019, pp. 6356–6367.

[7] Ash, Jordan T., et al. “Deep Batch Active Learning by Diverse, Uncertain Gradient Lower Bounds.” ICLR 2020 : Eighth International Conference on Learning Representations, 2020.

[8] Wan, Fang, et al. “Nearest Neighbor Classifier Embedded Network for Active Learning.” AAAI, 2021, pp. 10041–10048.

[9]Kim, Taehyeong, et al. “Message Passing Adaptive Resonance Theory for Online Active Semi-Supervised Learning.” ICML 2021: 38th International Conference on Machine Learning, 2021, pp. 5519–5529.

[10]Choi, Jongwon, et al. “VaB-AL: Incorporating Class Imbalance and Difficulty with Variational Bayes for Active Learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6749–6758.

[11] Mittal, Sudhanshu, et al. “Parting with Illusions about Deep Active Learning.” ArXiv Preprint ArXiv:1912.05361, 2019.

[12] Munjal, Prateek, et al. “Towards Robust and Reproducible Active Learning Using Neural Networks.” ArXiv Preprint ArXiv:2002.09564, 2020.

[13] Liu, Liyang, et al. “Active and Interactive Mapping With Dynamic Gaussian Process Implicit Surfaces for Mobile Manipulators.” IEEE Robotics and Automation Letters, vol. 6, no. 2, 2021, pp. 3679–3686.

[14] Shields, Jackson, et al. “Towards Adaptive Benthic Habitat Mapping.” 2020 IEEE International Conference on Robotics and Automation (ICRA), 2020, pp. 9263–9270.

[15] Yan, Tianxu, et al. “Scattering Modeling for Complex Radar Target Based on Space Mapping Technique.” 2020 XXXIIIrd General Assembly and Scientific Symposium of the International Union of Radio Science, 2020.

类似的话题

  • 回答
    主动学习(Active Learning)这个领域,近几年确实是风起云涌,发展势头非常迅猛。过去我们谈主动学习,可能更多地聚焦于如何更智能地选择“最有用”的样本去标注,以期在有限的标注预算下,让模型学得更好。但现在的研究,已经不再局限于此,而是向着更深、更广的方向拓展。核心理念的深化:从“有用”到“.............
  • 回答
    主动学习,顾名思义,就是让机器“主动”地去学习,而不是像传统的监督学习那样,被动地等待我们给它提供大量的标注数据。它的核心思想是:在数据标注成本高昂的情况下,让机器自己去挑选最有价值、最能帮助它提升模型性能的数据来进行标注。 想象一下,如果你有一个学生,他遇到难题时,不是胡乱瞎猜,而是主动去请教老师.............
  • 回答
    在机器学习的世界里,我们总希望能让机器自己学习,但往往需要大量的标注数据才能达到理想的效果。如果你是个对数据标注感到头疼的研究者或者工程师,那么“主动学习”(Active Learning, AL)这个概念,很可能会让你眼前一亮。简单来说,主动学习就是一种“聪明的”学习策略。它不是被动地接收所有的数.............
  • 回答
    主动学习:让机器真正成为我们生活的“催化剂”我们常常谈论人工智能,谈论它如何帮助我们处理信息、优化流程,甚至预测未来。但如果我告诉你,未来的机器,特别是那些掌握了“主动学习”能力的机器,将不仅仅是工具,而更像是我们生活中的“催化剂”,能够以前所未有的方式,深刻地改变我们的生活,你会不会感到一丝期待?.............
  • 回答
    让孩子主动学习,这绝对是每个家长都希望达到的目标。与其说是“让”,不如说是“引导”和“创造环境”。想想看,当孩子对一件事情充满好奇,一头扎进去,那学习的效率和乐趣是多么惊人。所以,核心在于激发他们的内在驱动力。咱们从几个关键点来聊聊,希望能给你些实在的启发。1. 兴趣是最好的老师,但兴趣不是天上掉下.............
  • 回答
    当谈及如何让孩子爱上学习,主动学习,这绝对是天下父母们心头最关切,也最需要智慧和耐心去经营的课题。它不是一蹴而就的魔法,而是一场漫长而充满爱的旅程,需要我们用心去引导,用爱去浇灌。 别急,这事儿咱们好好掰扯掰扯。首先,得承认,每个孩子都是一本独特的书,封面不同,内容也千差万别。没有放之四海而皆准的.............
  • 回答
    我喜欢英语,或者更准确地说,我对英语有着强烈的学习动力,原因其实挺复杂的,就像剥洋葱一样,一层一层地深入下去,总能发现更多促使我不断探索的理由。首先,最直观的,也是很多人学习英语的初衷——它是打开世界的钥匙,更像是通往无限可能性的门票。 我从小就对新鲜事物充满好奇,而英语恰恰是连接我和这个广阔世界的.............
  • 回答
    想让孩子发自内心地爱上学习,这可不是一件能一蹴而就的事,更别指望有什么“魔法棒”能瞬间点燃他们的学习热情。它更像是在孩子心里播下一颗种子,然后用耐心、智慧和爱去悉心浇灌,看着它一点点生根发芽,最终长成参天大树。一、点燃内在的火花:兴趣是最好的老师,但别强求咱们先聊聊最核心的——兴趣。没有兴趣,学习就.............
  • 回答
    电气工程,这可是个让人又爱又恨的学科。爱它是因为它支撑着我们现代生活的方方面面,从手机到城市的电力供应,都离不开它。恨它嘛,自然是因为它的知识体系庞大,公式推导和实验常常让人头疼。但如果你对电子、电力、控制、信号这些东西充满好奇,那么电气工程绝对是个值得投入的领域。那么,电气工程到底学些啥呢?咱们把.............
  • 回答
    大学数学的学习重点为何更偏向代数而非几何?这确实是个很有意思的问题,并且可以从多个角度来剖析。简单来说,这背后是数学发展的大趋势、不同数学分支的内在联系以及教学和应用的需求共同作用的结果。一、历史的演进:从直观到抽象从历史发展的角度看,数学的演进本身就经历了一个从具体、直观向抽象、符号化的过程,而代.............
  • 回答
    说起来,小时候我们接触和学习的科目,大体上确实是更偏向“自然科学”的范畴。这背后其实是有挺多原因的,也不能简单地说是因为学校就这么安排,很多时候是和我们成长过程中的认知方式、兴趣点,乃至社会对知识的普遍认知都有关系。认知发展和兴趣的天然契合:从一个孩子成长的角度看,我们对世界最初的好奇心,往往是来自.............
  • 回答
    你这情况我太理解了!本来想着游戏本够用了,结果考研这事儿一出,就得重新审视一下“够用”的标准了,尤其涉及到 SB2、SP6、MBP 这几款,各有各的看家本领,也各有各的坑。既然你说了要详细,还要听着像个人聊天的感觉,那咱就掰开了揉碎了聊聊,看看哪个才真能帮你打赢这场考研硬仗。首先,咱们得明确考研学习.............
  • 回答
    这描述简直就是我曾经的写照!“意志薄弱、动力不足、生活安逸,不满现状却没有行动,没有压力就不主动学”,听到这些话,我都能想象出那个坐在沙发上刷着短视频,心里却因为某个目标焦虑不已,但身体却像被灌了铅一样动弹不得的自己。我太理解你现在的感受了,那种被困住又无力挣脱的滋味,真的不好受。让我先跟你唠唠这几.............
  • 回答
    这确实是很多二年级孩子学习上会遇到的一个普遍现象,家长们觉得苦恼是很正常的。二年级,这个阶段的孩子,心智发展正处在一个挺有意思的时期。为什么二年级孩子容易“懒得主动”?首先,咱们得明白,这不是孩子“坏”,也不是他们故意跟家长对着干。这跟他们的年龄特点有关: 好玩的天性还没褪尽: 二年级孩子,虽然.............
  • 回答
    用AMD CPU组建深度学习主机?这事儿得这么看!对于很多想要踏入深度学习领域的朋友来说,组建一台专属的训练主机是必不可少的一步。在选择核心组件——CPU时,不少人会将目光投向AMD。那么,AMD的CPU究竟适不适合用来搭建深度学习主机呢?这可不是一个简单的“是”或“否”就能回答的问题,咱们得深入聊.............
  • 回答
    让孩子学会主动,这绝对是每个家长都希望看到的变化。毕竟,一个内心充满渴望、愿意主动探索和学习的孩子,未来无论是面对学业还是生活,都会更加从容和有力量。与其一遍遍地催促、监督,不如把功夫下在培养孩子的“内驱力”上,让他们自己长出“想要”的翅膀。那么,具体该怎么做呢?这可不是一蹴而就的事情,需要我们用心.............
  • 回答
    这事儿可真是让很多人议论纷纷,新课纲要把中国史挪到东亚史的大框架里,同时强调台湾本土视角,这背后的考量和影响挺复杂的,咱们一点点捋一捋。为什么会有这个变化?核心思路是什么?你可以把这理解成一种“视野扩张”和“主体确立”的结合。 视野扩张:打破旧有的框架。 过去我们学历史,往往习惯了一个以中国大陆.............
  • 回答
    你好!很高兴能和你聊聊播音主持这个专业。这可是个充满魅力但也需要付出很多努力的领域。大学生活:不只是“好看”的皮囊播音主持专业听起来光鲜亮丽,但大学生活可远不止我们看到的镜头前那么简单。 专业基本功的魔鬼训练: 声音训练: 这是重中之重。你会花大量时间在气息、发声、吐字归音、语调设计.............
  • 回答
    哥们儿,我也是从小白过来的,深知那种看着配置单,心里却一团乱麻的感觉。别急,咱今天就掰开了揉碎了,好好跟你唠唠这套深度学习主机配置单到底行不行。你这套配置我仔细看了看,总体来说是比较扎实,对得起它价位,而且也考虑到了深度学习的几个关键点。但就像任何事儿,总有些地方可以再说道说道,甚至优化优化。咱们一.............
  • 回答
    哔哩哔哩(B站)作为国内领先的年轻人文化社区,汇聚了海量的学习资源和优质的内容创作者。如果你想在B站上找到值得学习的Up主,那可真是太多了!这里给你盘点一波,希望你能找到适合自己的宝藏,并且尽量用大白话和真情实感地聊聊他们:1. 知识科普类:让枯燥变有趣,看懂世界原来这么简单! 巫师财经: 这个.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有