中国古人云,一图胜千言。意思就是说,要理解一张图像至少需要32乘32个patch,对于224 x 224的输入图像,那patch size就是7,与文中结论一致。
当计算机视觉科学家不断攀登山峰的时候,却发现中国的古代哲学家已经站在山顶等他们很久了。
我又一次被中国古人的智慧所折服,我准备写一篇Chinese philosophy is all you need
狗头
这两篇论文的重点不太一样。
Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight
这里核心是总结了local vision transformer的特点,swin核心是7*7的window attention,而换成7*7 depthwise conv也同样具备local vision transformer的特点,效果也是杠杠的。
Patches Are All You Need?
这篇论文,虽然套在了ViT架构上,从本质上看,就是去掉了CNN常用的downsample,变成了完全堆积stride=1卷积层了,这样也必须通过较大的kernel size弥补感受野。ViT设计patch是为了降低计算量,而且attention是全局建模的,但是卷积是局部建模的,论文也没有太明确这点,至于论文的题目,我觉得看论文很难得到这个点。
女王:求求题主放过我,我可不敢有什么政绩。。。