首页

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？第1页

1

qalian 网友的相关建议:

校招面试的时候，经常碰到使用过“BERT蒸馏”的同学。我基本都会问一下：你觉得，在这一整套操作流程里，需要额外注意和控制的点在哪里？

或者换一种问法，也就是题主的问题：当你按照标准流程做了蒸馏，但是效果不理想，现在该怎么办？

我自己对于这个问题的体会如下，欢迎讨论：

Better Teacher, Bert Student：想办法提升教师模型的效果，最简单粗暴的，比如多模型ensemble在一起；
不要放弃标注数据：只用soft-label，小模型大概率会跑偏，亲测有坑。训练教师模型的标注数据，一定一定要混在每一个batch里；
隐层逼近不适合简单模型：进行隐层（中间层）的输出逼近，只适合同类模型，比如从12层BERT到4层BERT。千万不要在BERT往CNN迁移的时候，加入奇奇怪怪的学习目标；
蒸馏数据的质和量：说实话，如果标注数据足够多足够好，根本没有必要做蒸馏。蒸馏的本质就是借助表现能力更强的教师模型，来生成大量的伪数据（即soft-label）。关于数据，第一要义是保证数量（至少10万吧），第二要义是控制来源（蒸馏数据和测试用数据需要“同分布”），第三要义是标签均衡（教师模型输出的得分，从0.01~0.99都要有，比例相差不能悬殊）；
参数控制：标准流程里的参数配置，并不一定适合你的应用场景。比如，引入Temperature因子是为了拉开教师模型输出分数的分布区间，但如果你的模型分布已经很散了，不用也未尝不可；
心理预期：实操中不要太指望，学生模型可以追平教师模型。心态佛系一点 ^___^

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？的其他答案点击这里

1

相关话题

  为什么最近几年 FPGA 变得越发受大家重视了？
  图片上训的模型，怎么迁移视频上呢？
  如何评价 DeepMind 发表在 Nature 上的使用深度强化学习对托卡马克等离子体进行磁控制？
  在CV/NLP/DL领域中，有哪些修改一行代码或者几行代码提升性能的算法？
  如何评价Kaiming He的Momentum Contrast for Unsupervised?
  为什么ViT里的image patch要设计成不重叠？
  基于深度学习的自然语言处理在 2016 年有哪些值得期待的发展？
  Resnet是否只是一个深度学习的trick？
  如何评价谷歌大脑的EfficientNet？
  神经网络训练多个epoch，写论文的时候可以取最好的效果那一个epoch作为结果吗？

前一个讨论

成年人正畸是什么感受？

下一个讨论

2021 年你拍过最特别的照片是什么？有什么故事？

相关的话题

  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper?
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法，两者分别有什么优缺点？
  为什么现在有这么多人工智能无用论？
  如何理解 inductive learning 与 transductive learning?
  2021年深度学习在哪些应用上有实质进展？
  如何看待FAIR提出的8-bit optimizer：效果和32-bit optimizer相当？
  神经网络为什么可以（理论上）拟合任何函数？
  搞机器学习的生环化材是天坑吗？
  scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?
  深度学习领域，你心目中 idea 最惊艳的论文是哪篇？
  如何看待 2014 年以来计算机视觉（Computer Vision）界创业潮？
  如果不按套路下棋是不是就能赢 Alpha Go 了？
  机器学习包含哪些学习思想？
  计算机视觉是否已经进入瓶颈期？
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？
  如何看待 2014 年以来计算机视觉（Computer Vision）界创业潮？
  如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？
  人是如何做黑盒优化的？
  请解释下variational inference？
  在五到十年内，人工智能能复原成人影片中的被马赛克部分吗？
  为什么学习深度学习感觉无法入门？
  如何计算CNN中batch normalization的计算复杂度（FLOPs）？
  计算流体力学（CFD）里应用注意力机制（attention）是否可行？
  如何看待MXNet在CVPR2017上公布的gluon接口？
  全连接层的作用是什么？
  基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？
  梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？
  resnet（残差网络）的F（x）究竟长什么样子？
  神经网络中，bias有什么用，为什么要设置bias，当加权和大于某值时，激活才有意义？

© 2025-05-19 - tinynew.org. All Rights Reserved.
© 2025-05-19 - tinynew.org. 保留所有权利