百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛? 
  如何看待微博上疑似出现来自境外的AI“拳师”? 
  如何看待全球第一位「数字航天员小诤」?数字技术跨界应用是否正在加快? 
  硕士方向,选择迁移学习还是自然语言处理? 
  从鸦片战争到如今,我们中国是怎样一步步获得现在的国际地位的? 
  LeCun 为什么要卸任 FAIR(Facebook AI 实验室)负责人,工程和研究的矛盾可调和吗? 
  mxnet的并行计算为什么这么牛,是什么原理? 
  现在的人工智能水平,能代替程序员写代码吗?如果有一天能写代码,是否会促使它发展自己的思维? 
  机器学习能否用于综合评价?具体怎么操作? 
  全连接层的作用是什么? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-06-12 - tinynew.org. All Rights Reserved.
© 2025-06-12 - tinynew.org. 保留所有权利