我是在朋友圈看到deepmind这个新成果的,看到大家在质疑这个
而参与此次研究的历史学家,单独预测准确率仅为 25%
我就去下载了原文[1]看了看
这上面写了,跟深度学习模型相比较的不能算什么“历史学家”,称之为历史系毕业生更合适,这上面明明白白的说了,学了七年的希腊历史和文字毕业生。
同时这个比较是一个为时2个小时的50个希腊古文的重建,这对于已经训练好的模型当然是再简单不过了。
而人去做这个实验,就好比考申论,难度可想而知。
那么达到25%的准确性也不算低了。
除此之外,我还看到了一个很有意思的东西,这个model是基于transformer的,但是这个transformer的名字很有意思,叫bigbird(大鸟)transformer。
原文写的是这个大鸟transformer主要是为了减少从二次方到线性对于文本长度的依赖,由此可以处理比经典transformer更长的序列。
我从这个[2]也得到了证实。
刚开始我想的是,为啥要用稀疏sparse的方案,deepmind还缺显卡???
看到后来才算明白,是因为普通结构只适合512以下的序列,而更长序列的处理就需要transformer变形了。
文章也提到了,这个大鸟transformer性能只是逼近classic transformer而已。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有