引用lecun的一张图,谈一谈对CV和NLP中无监督预训练的看法
lecun通过Low dim -> High dim、Discrete -> Continuous和Less uncertainty -> More uncertainty三个维度来表示CV和NLP中不同无监督方法的位置。文本是离散的,不确定性低,维度低;而图像是连续的,不确定性高,维度高。模态的不同,导致了无监督的处理方式上的不同。
NLP任务因为确定性更高,生成式无监督预训练方法可以非常好进行预测(如BERT),而由于CV任务不确定性更高,导致需要设计更自由灵活的方法,对比方法相比于生成方法自由度更高,可能更加适合CV任务作为无监督预训练方法。
猜测未来NLP领域生成式和判别式会出现并存的局面,sentence级别任务倾向于使用判别式,word级别任务倾向于使用生成式。而CV领域判别式会占主导地位,一方面由于图像是二维的,生成式计算量会更庞大,另一方面判别式的自由度会更高一些。
欢迎关注Smarter,构建CV世界观,输出优质内容
欢迎加入Smarter交流群,添加微信「cjy094617」,备注「学校-方向」即可