首页

2021年，作为算法工程师的你们会在CV业务落地上用Transformer吗？第1页

wang-feng-98-82 网友的相关建议:

时至今日，ImageNet的结论已经不可信了，各种trick实在太多，混在里面无法分辨是trick调得好还是网络结构真的有用。

建议大佬们试试人脸识别，人脸识别模式简单数据量大，在目前人脸识别的数据集上，除了镜像翻转，啥trick都不好使。那要是transformer能比resnet更强，可比ImageNet有说服力多了。

lai-shen-qi 网友的相关建议:

1.所有的Transformer，有一个算一个，敢去掉gelu（其实就是swish变种），去掉300 epoch，去掉mixup/cutmix/randaug，把优化器重新换回SGD来训练么？做实验最基本的单一变量法都不会了？

2.因为Transformer本身就带attention，所以如果要比经典结构，至少要和那些带了se或者其他attention结构的论文比吧。

3.某些Transformer的论文，用开源的thop库来测FLOPs，结果计算量最大的MHSA部分因为没有op定义，所以直接不计入FLOPs，确定没在开玩笑？

4.Transformer目前能看到的优势，相同FLOPs下的参数量更小（3*3卷积替换成MHSA，参数量显然减少了），对极度变态的数据更鲁棒（CNN遮挡30%基本就凉了，Transformer甚至能搞定擦除50%的数据）。

feng-kuang-de-da-ye-pao 网友的相关建议:

11.27日更新

经过几个月的实验，现在已成功将vit落地。

1.Vit这种结构虽然争议比较大，但在实际业务中相较cnn提升还是很明显，当然也十分难调；

2.实际部署也比较容易，整体结构并没有什么奇奇怪怪的op，性能这方面还是看业务需要，如果对inference time有较高要求，但是又没法在比较好的GPU卡上部署，那要不做量化、要不就换vit的结构（提高patch size、减小vit层数等等）；

做的细粒度检索，目前在无监督预训练方向，vit的检索效果超过cnn一大截（vit s对比res50），正在尝试finetune效果，如果能达到同比的增长，就有可能落地。

a-li-ba-ba-tao-xi-ji-zhu 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

相关话题