百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  如果利用人工智能程序找到一个未见过的好听的和弦进行,但在现有乐理上得不到解释,你们会怎样看待? 
  2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,没那么饱和,比较有研究潜力? 
  为什么说大模型训练很难? 
  了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构? 
  有哪些优秀的深度学习入门书籍?需要先学习机器学习吗? 
  法律是否可能被代码化? 
  围棋人工智能的发展历程是怎么样的? 
  计算机视觉顶尖期刊和会议有哪些? 
  若有一天机器人可以代替人类进行大部分工作,《资本论》是否还有意义? 
  如何评价 PyTorch 团队推出的推荐系统库 TorchRec? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-05-04 - tinynew.org. All Rights Reserved.
© 2025-05-04 - tinynew.org. 保留所有权利