首页

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？第1页

1

qalian 网友的相关建议:

校招面试的时候，经常碰到使用过“BERT蒸馏”的同学。我基本都会问一下：你觉得，在这一整套操作流程里，需要额外注意和控制的点在哪里？

或者换一种问法，也就是题主的问题：当你按照标准流程做了蒸馏，但是效果不理想，现在该怎么办？

我自己对于这个问题的体会如下，欢迎讨论：

Better Teacher, Bert Student：想办法提升教师模型的效果，最简单粗暴的，比如多模型ensemble在一起；
不要放弃标注数据：只用soft-label，小模型大概率会跑偏，亲测有坑。训练教师模型的标注数据，一定一定要混在每一个batch里；
隐层逼近不适合简单模型：进行隐层（中间层）的输出逼近，只适合同类模型，比如从12层BERT到4层BERT。千万不要在BERT往CNN迁移的时候，加入奇奇怪怪的学习目标；
蒸馏数据的质和量：说实话，如果标注数据足够多足够好，根本没有必要做蒸馏。蒸馏的本质就是借助表现能力更强的教师模型，来生成大量的伪数据（即soft-label）。关于数据，第一要义是保证数量（至少10万吧），第二要义是控制来源（蒸馏数据和测试用数据需要“同分布”），第三要义是标签均衡（教师模型输出的得分，从0.01~0.99都要有，比例相差不能悬殊）；
参数控制：标准流程里的参数配置，并不一定适合你的应用场景。比如，引入Temperature因子是为了拉开教师模型输出分数的分布区间，但如果你的模型分布已经很散了，不用也未尝不可；
心理预期：实操中不要太指望，学生模型可以追平教师模型。心态佛系一点 ^___^

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？的其他答案点击这里

1

相关话题

  神经网络中 warmup 策略为什么有效；有什么理论解释么？
  为什么现在很多人不看好商汤科技？
  如何看待何恺明最新一作论文Masked Autoencoders？
  多模态训练，怎么解决不同模态之间差异的问题？
  2021年，ncnn发展的如何了？
  为什么CV能做到让一幅人脸图动了笑了，而NLP的text-style-transfer进展貌似一般？
  什么时候对数据进行[0,1]归一化，什么时候[-1,1]归一化，二者分别在什么场景？
  2019年CVPR有哪些糟糕的论文?
  有哪些深度学习效果不如传统方法的经典案例？
  现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架？

前一个讨论

成年人正畸是什么感受？

下一个讨论

2021 年你拍过最特别的照片是什么？有什么故事？

相关的话题

  深度学习（机器学习）的下一步如何发展？
  OpenCV已经将图像处理(识别)的算法写成函数了,那我们还有必要去学习这些算法不?
  pytorch 的高层库ignite怎么样？
  如何评价微软提出的无监督视觉模型BEiT：ImageNet达到88.6，ADE20K达到57.0？
  AlphaGo「理解」围棋吗？
  如何评价Sony新出的深度学习库NNabla？
  如何看待NVIDIA 即将开源的DLA？
  为什么要压缩模型，而不是直接训练一个小的CNN？
  如何评价1700亿参数的GPT-3？
  国内外有哪些做小样本学习(Few-Shot Learning)的优秀团队？
  人工智能退潮期来了吗？
  2020-2021年NLP有什么核心技术的更迭吗？或者有什么推动领域发展的paper吗？
  为什么 Bert 的三个 Embedding 可以进行相加？
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  pytorch 分布式计算你们都遇到过哪些坑/bug？
  如何看待指出神经网络的训练罪魁祸首是退化一文？
  在集成电路设计领域（数字，模拟），人工智能有无可能取代人类？
  能否使用神经网络来判断奇偶数？
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」？
  面试官如何判断面试者的机器学习水平？
  如何看待华为 4 月 25 日发布的盘古智能大模型？在这个行业处于什么水平？
  如何看待End-to-End Object Detection with Transformers？
  当前人工智能特别是深度学习最前沿的研究方向是什么？
  神经网络中，bias有什么用，为什么要设置bias，当加权和大于某值时，激活才有意义？
  如何看待鄂维南院士等发起的机器学习联合研讨计划（c2sml.cn）？
  OpenCV已经将图像处理(识别)的算法写成函数了,那我们还有必要去学习这些算法不?
  如何评价旷视开源的YOLOX，效果超过YOLOv5?
  在集成电路设计领域（数字，模拟），人工智能有无可能取代人类？
  深度学习两张3080ti和一张3090ti哪个好?

© 2025-05-20 - tinynew.org. All Rights Reserved.
© 2025-05-20 - tinynew.org. 保留所有权利