Transformer is only you need!
简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。
一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。