百科问答小站 logo
百科问答小站 font logo



2021年,作为算法工程师的你们会在CV业务落地上用Transformer吗? 第1页

  

user avatar   wang-feng-98-82 网友的相关建议: 
      

时至今日,ImageNet的结论已经不可信了,各种trick实在太多,混在里面无法分辨是trick调得好还是网络结构真的有用。

建议大佬们试试人脸识别,人脸识别模式简单数据量大,在目前人脸识别的数据集上,除了镜像翻转,啥trick都不好使。那要是transformer能比resnet更强,可比ImageNet有说服力多了。


user avatar   lai-shen-qi 网友的相关建议: 
      

1.所有的Transformer,有一个算一个,敢去掉gelu(其实就是swish变种),去掉300 epoch,去掉mixup/cutmix/randaug,把优化器重新换回SGD来训练么?做实验最基本的单一变量法都不会了?

2.因为Transformer本身就带attention,所以如果要比经典结构,至少要和那些带了se或者其他attention结构的论文比吧。

3.某些Transformer的论文,用开源的thop库来测FLOPs,结果计算量最大的MHSA部分因为没有op定义,所以直接不计入FLOPs,确定没在开玩笑?

4.Transformer目前能看到的优势,相同FLOPs下的参数量更小(3*3卷积替换成MHSA,参数量显然减少了),对极度变态的数据更鲁棒(CNN遮挡30%基本就凉了,Transformer甚至能搞定擦除50%的数据)。


user avatar   feng-kuang-de-da-ye-pao 网友的相关建议: 
      

11.27日更新

经过几个月的实验,现在已成功将vit落地。

1.Vit这种结构虽然争议比较大,但在实际业务中相较cnn提升还是很明显,当然也十分难调;

2.实际部署也比较容易,整体结构并没有什么奇奇怪怪的op,性能这方面还是看业务需要,如果对inference time有较高要求,但是又没法在比较好的GPU卡上部署,那要不做量化、要不就换vit的结构(提高patch size、减小vit层数等等);


做的细粒度检索,目前在无监督预训练方向,vit的检索效果超过cnn一大截(vit s对比res50),正在尝试finetune效果,如果能达到同比的增长,就有可能落地。


user avatar   a-li-ba-ba-tao-xi-ji-zhu 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。


user avatar    网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  如何看待滴滴章文嵩称,滴滴面临的问题比 AlphaGo 复杂 100 倍? 
  如何评价阿里巴巴推出的智能音箱「天猫精灵 X1」? 
  防贪腐的治标之策,权宜之策听得太多了,但治本之策到底是什么?为何全世界都找不到治贪腐的终极解决方案? 
  如果美国用人工智能治国,我国还有还手之力吗? 
  2021年,ncnn发展的如何了? 
  中国目前的人工智能在全球处于什么水平? 
  大数定律具体是个什么概念? 
  OpenAI 首席科学家称 AI 或有点自主意识了,其中有哪些值得关注的信息? 
  DL/ML 模型如何部署到生产环境中? 
  如果利用人工智能程序找到一个未见过的好听的和弦进行,但在现有乐理上得不到解释,你们会怎样看待? 

前一个讨论
肌肉为什么会粘连在一起?
下一个讨论
张丹三发文晒与吴亦凡聊天记录,与都美竹的曝光一起看,会对事情的走势产生哪些影响?





© 2025-03-24 - tinynew.org. All Rights Reserved.
© 2025-03-24 - tinynew.org. 保留所有权利