百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  语义网所谓的“本体”的具体例子是什么? 
  为什么 Siri 听懂了我的话,还是不能做出有效的回答或准确的操作? 
  深度神经网络(DNN)是否模拟了人类大脑皮层结构? 
  2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,没那么饱和,比较有研究潜力? 
  有哪些人工智能上的事实,没有一定人工智能知识的人不会相信? 
  为什么相比于计算机视觉(cv),自然语言处理(nlp)领域的发展要缓慢? 
  如何评价周志华教授新提出的 Deep Forest 模型,它会取代当前火热的深度学习 DNN 吗? 
  如何直观地解释 backpropagation 算法? 
  如何看待网传依图科技集体降薪 10% 以上?还有哪些信息值得关注? 
  我们到底该不该继续发展人工智能? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-05-21 - tinynew.org. All Rights Reserved.
© 2025-05-21 - tinynew.org. 保留所有权利