20亿参数是可以单卡inference的,实际上100亿以内都可以。应用价值应该还是挺强的。
就是训练起来要的资源有点多。
不过其实不多,国内的华为、阿里、腾讯、百度这些,这种2048TPU量级的资源其实也是分分钟拿出来。还可以用神威超算。
很快就有国内对着刷的工作了吧,说不定已经做好了只是还没挂arxiv而已。
质朴的ViT is enough!
看了一下作者,和ViT模型是同名的,这个工作发布了包含20亿参数的vision transformer模型ViT-G/14,在ImageNet的Top-1可以达到90.45%,超过之前谷歌提出的 Meta Pseduo Labels模型:
但其实谷歌这篇论文的重点是研究vision transformer模型的scaling laws,在NLP领域已经有研究(Scaling laws for neural language models)给出了语言模型效果和 compute, data size, model size之间的指数定律,更有GPT-3这样成功的模型。虽然已经有论文研究(如EfficientNet)CNN模型的scaling strategy:模型增大提升效果。但是在CV领域还是缺少比较全面的研究,而且最近vision transformer的成功应用更是需要这样的工作。
在这篇论文中,实验模型参数从5M到2B,训练数据量从30M到3B,训练时长从1 TPUv3 core-day到10 000 core-days。这使得谷歌比较全面地研究ViT模型效果和model size,data size和compute之间的scaling laws。
论文中采用的是ViT模型,并增加了G/14这样超大的模型(接近2B),不同大小的模型如下所示,主要区别在patch size以及transformer layer的参数配置。
在数据方面,谷歌又抛出重磅炸弹:JFT-3B,这个是JFT-300M的超大版本,包含接近30亿的图像,标注为包含30k类别的层级类别,由于采用半自动标注,所以标注是有噪音的。具体到训练模型,直接采用sigmoid cross-entropy损失训练多分类模型,忽略类别间层级关系。所有的测试数据均从JFT-3B中移除。
据此,实验分别改变architecture size,number of training images和training duration来测试模型的representation quality,具体可以用(i) few-shot transfer via training a linear classifier on frozen weights, (ii) transfer via fine-tuning the whole model on all data, both to multiple benchmark tasks来作为评价指标,下图是在ImageNet数据集上的结果:
最终的结论主要有三点:
虽然从实验看来,ViT模型也满足power law scaling定律,但是其实是double-saturating power law:对于最小的模型,其效果会比power law预测值要好,这是因为模型效果也有下限;而最大的模型即使给再多的训练数据和算力也不会达到0 error,模型也有上限。所以出现了双饱和。
除了上述结论,论文还发现了额外的结论:bigger models are more sample efficient,即大的模型需要更少的unseen数据就可以达到和小模型类似的效果,如下图所示:
最大的模型ViT-G/14,接近2B参数,在ImageNet上finetune后top-1 acc可达90.45%,而且在few-shot learning也表现优异,每个类只用10个图像训练就能在ImageNet上达到84.86%。
另外,在训练ViT模型,论文中还设计了一些训练策略来提升内存利用和模型效果,这些策略也使得ViT-G/14可以采用数据并行训练策略,这意味着ViT-G/14模型可以放在一张TPUv3 core。具体策略包括:
谷歌做这个实验的代价自然不必说,也有很多人在质疑这个研究的意义,但是论文也在最后给出了这个工作的意义,首先就是这个scaling laws做出来后对后续研究是有启发意义的:
First, such studies of scaling laws need only be performed once; future developers of ViT models may use our results to design models that can be trained with fewer compute resources.
此外,这个预训练模型可以迁移到其它任务:
Second, the models trained are designed primarily for transfer learning. Transfer of pre-trained weights is much less expensive than training from scratch on a downstream task, and typically reaches higher accuracy.
作为一个AI大厂,Google愿意烧这么多钱做这么大的work,我个人还是持肯定态度,它总不能天天盯着学术界那点小trick吧?
不过无论是OpenAI的CLIP,还是谷歌的ViT-G/14,其实都是在大规模有监督数据上训练的,而NLP是大规模无监督学习。我觉得这会是一个漫长过程。。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有