其实这个问题,本身可能没有想象的那么复杂,最开始肯定考虑输入是pixel的,可是计算量承受不起,那就把图像分成patch。
题主的concern是对的,切分-投影的做法确实很直接地兼容Transformer框架,不过这种方法确实有一定问题:
1、如果认为translation invariant是很重要的先验,那这种方法显然不满足这一性质;
2、对patch内部的空间结构信息有破坏,像素结构在上层(随着attention)逐渐丢失。
关于后一点,通过修改网络结构向Transformer block里补充像素结构已经被实验证实是有益的,例如华为诺亚实验室的TNT:
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有
问题列表1