作为提问者我也自问自答一下吧。这篇工作出来以后身边同事的观点都不是特别信服。觉得和自身以往的实验结果不符合。
我本人也读完了论文全文,对于这样有争议性的工作代码竟然没有开源也有点惊讶。但说说我的想法:
论文作者提到遮蔽率达到八成的时候困惑度perplexity 会高达1000多 这是符合直觉的。但是在模型表征层面和任务准确度方面却没有下降太多。这点笔者最近在做非自回归式的插入式生成。模型由一个遮蔽了绝大部分文本的破碎句子开始重新尝试复原原句。在经过细致的训练之后模型其实是可以学到并具有相应能力的。(有兴趣的小伙伴可以看看pointer或者cbart这两篇论文)。而根据笔者的同事曾经做过的一个实验来说,他并没有使用cls来进行预测,而是使用随机词的表征进行预测。但模型准确率也没有下降太多。
我觉得模型黑盒的层面很多,还有很多我们无法得到一个准确数学解析和理论指导的地方。该论文作者的实验未必不可复现,但如果要让人信服的话还是希望能尽快看到源码吧……
大家可以关注一下 Appendix A 里给出的实验设置,和原汁原味的 BERT 还是有不少不同之处的:
这个 recipe 已经和 BERT 产生比较大的区别了,需要辩证地看待这个结论。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有