百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  如何看待人工智能领域的很多专家认为「人工智能将对人类存亡造成威胁」的观点? 
  研一,在学机器学习和深度学习,为什么感觉越学越不会,怎么解决这个问题? 
  目标检测算法有哪些? 
  法律是否可能被代码化? 
  PyTorch中在反向传播前为什么要手动将梯度清零? 
  如何评价Yann LeCun宣称『他已经做好放弃概率论的准备』? 
  做底层 AI 框架和做上层 AI 应用,哪个对自己的学术水平(或综合能力)促进更大? 
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」? 
  图片上训的模型,怎么迁移视频上呢? 
  如何看待饶毅的「人工智能还是伪智能」命题? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-03-27 - tinynew.org. All Rights Reserved.
© 2025-03-27 - tinynew.org. 保留所有权利