百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别? 
  如何看待网传依图科技集体降薪 10% 以上?还有哪些信息值得关注? 
  为什么现在很多人不看好商汤科技? 
  研一刚入学,从未接触过神经网络,python也是才开始学,现在导师要我做LSTM,我应该去学什么? 
  如何评价李开复称「ICO 是最大的泡沫,可能导致 AI 泡沫破裂」? 
  如何评价微软正在开发的人工智能编程软件 DeepCoder? 
  如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA? 
  人工智能技术如何应用到相亲? 
  人工智能中的符号主义为什么又叫心理学派? 
  人工智能相关的岗位薪酬状况如何? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-05-04 - tinynew.org. All Rights Reserved.
© 2025-05-04 - tinynew.org. 保留所有权利