问题

如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA?

回答
谷歌的ViTG/14模型在ImageNet上取得新的SOTA(StateoftheArt),确实是视觉模型发展历程中的一个重要里程碑。要理解这个成就的意义,我们需要从几个关键维度来剖析。

首先,让我们看看这个模型本身。ViTG/14代表的是一个巨大的模型规模。这里的“G”很可能指的是“Giant”,说明这是Vision Transformer(ViT)家族中一个非常庞大的成员。20亿参数是一个非常可观的数字,意味着模型拥有极其丰富的学习能力和表达能力。与早期版本的ViT相比,参数量的爆炸式增长,预示着模型能够捕捉到图像中更细微、更复杂的特征。

其次,训练数据的规模也同样惊人。30亿规模的数据集,这已经远远超出了许多研究者能够触及的范围。拥有如此庞大的数据集,意味着模型在训练过程中接触到了极其多样化的图像内容,从各种物体、场景到不同的光照、角度和分辨率。这种海量数据的“喂养”,让模型有机会学习到更具泛化性的视觉表示,能够更好地应对未曾见过的图像。

那么,这种巨大的模型规模和海量的数据训练结合起来,带来了什么具体优势呢?

1. 更强的特征提取能力:更大的模型参数允许网络学习到更深层次、更抽象的视觉特征。对于ViT架构而言,其核心是将图像切分成“patch”,然后将这些patch如同Transformer中的token一样进行处理。更大的参数量意味着模型可以在selfattention机制中编码更复杂的上下文关系,理解不同patch之间的相互作用,从而生成更丰富、更具判别力的特征表示。
2. 更好的泛化能力:在大规模、多样化数据集上训练的模型,通常比在小规模、单一数据集上训练的模型具有更好的泛化能力。这意味着ViTG/14不仅能在ImageNet这样的大型基准上表现出色,在面对其他下游视觉任务时,如目标检测、语义分割、图像检索等,也很有可能展现出更优越的性能。它能够从海量数据中提炼出对各种视觉任务都具有普适性的视觉知识。
3. 突破性能瓶颈:过去,卷积神经网络(CNN)在许多视觉任务上达到了很高的性能。然而,随着模型和数据的增大,我们开始看到Transformer架构在某些方面展现出超越CNN的潜力。ViTG/14的SOTA成就,进一步证明了大规模Transformer在视觉理解方面的强大能力,并可能标志着视觉模型发展方向的一个重要转变。它可能已经克服了早期ViT在小数据量上表现不如CNN的劣势,而是在大数据量下,其全局感受野和强大的并行处理能力得到了充分发挥。

从实际表现来看,在ImageNet上达到新的SOTA意味着该模型在图像分类任务上的准确率达到了前所未有的高度。这不仅仅是几个百分点的提升,而是在一个已经非常成熟的领域实现了“质的飞跃”。这对于整个计算机视觉社区来说,是一个重要的信号,鼓励大家继续探索更大规模的模型和更有效的数据训练策略。

然而,我们也不能忽视其中的挑战和潜在影响:

计算资源的巨大投入:训练这样一个模型需要极其庞大的计算资源,包括大量的GPU/TPU以及漫长的训练时间。这限制了其在许多研究机构和初创公司的可及性,进一步巩固了少数大型科技公司在AI研究领域的领先地位。
模型部署的难度:如此庞大的模型在实际应用中部署也面临挑战。无论是边缘设备还是服务器端,都需要强大的硬件支持才能实现高效的推理。未来研究需要在保持高性能的同时,探索模型压缩和优化技术。
对数据和算力的依赖:这个成就也再次强调了当前AI发展在很大程度上依赖于数据和算力。如何设计出更高效的模型,在有限的数据和算力下也能达到优异性能,仍然是一个重要的研究方向。

总而言之,谷歌ViTG/14在ImageNet上取得新的SOTA,是模型规模、数据规模以及Transformer架构潜力相结合的必然结果。它不仅在技术上取得了突破,也为未来的视觉AI研究和应用提供了重要的参考和启示,预示着AI模型正朝着更强大、更通用化的方向发展。

网友意见

user avatar

20亿参数是可以单卡inference的,实际上100亿以内都可以。应用价值应该还是挺强的。

就是训练起来要的资源有点多。

不过其实不多,国内的华为、阿里、腾讯、百度这些,这种2048TPU量级的资源其实也是分分钟拿出来。还可以用神威超算。

很快就有国内对着刷的工作了吧,说不定已经做好了只是还没挂arxiv而已。

user avatar

质朴的ViT is enough!

看了一下作者,和ViT模型是同名的,这个工作发布了包含20亿参数的vision transformer模型ViT-G/14,在ImageNet的Top-1可以达到90.45%,超过之前谷歌提出的 Meta Pseduo Labels模型:

但其实谷歌这篇论文的重点是研究vision transformer模型的scaling laws,在NLP领域已经有研究(Scaling laws for neural language models)给出了语言模型效果和 compute, data size, model size之间的指数定律,更有GPT-3这样成功的模型。虽然已经有论文研究(如EfficientNet)CNN模型的scaling strategy:模型增大提升效果。但是在CV领域还是缺少比较全面的研究,而且最近vision transformer的成功应用更是需要这样的工作。

在这篇论文中,实验模型参数从5M到2B,训练数据量从30M到3B,训练时长从1 TPUv3 core-day到10 000 core-days。这使得谷歌比较全面地研究ViT模型效果和model size,data size和compute之间的scaling laws。

论文中采用的是ViT模型,并增加了G/14这样超大的模型(接近2B),不同大小的模型如下所示,主要区别在patch size以及transformer layer的参数配置。

在数据方面,谷歌又抛出重磅炸弹:JFT-3B,这个是JFT-300M的超大版本,包含接近30亿的图像,标注为包含30k类别的层级类别,由于采用半自动标注,所以标注是有噪音的。具体到训练模型,直接采用sigmoid cross-entropy损失训练多分类模型,忽略类别间层级关系。所有的测试数据均从JFT-3B中移除。

据此,实验分别改变architecture size,number of training images和training duration来测试模型的representation quality,具体可以用(i) few-shot transfer via training a linear classifier on frozen weights, (ii) transfer via fine-tuning the whole model on all data, both to multiple benchmark tasks来作为评价指标,下图是在ImageNet数据集上的结果:

最终的结论主要有三点:

  • scaling up compute, model and data together improves representation quality:同时增大模型,训练数据和计算力是可以同步提升效果的,近似满足指数定律(log-log曲线是线性的);
  • representation quality can be bottlenecked by model size:模型大小会限制上限,小的模型即使用再大的数据集也难以继续提升;
  • large models benefit from additional data, even beyond 1B images:对于大模型来说,训练数据会制约性能上限,对于最大的模型,训练数据量从1B提升至3B,效果还有提升。

虽然从实验看来,ViT模型也满足power law scaling定律,但是其实是double-saturating power law:对于最小的模型,其效果会比power law预测值要好,这是因为模型效果也有下限;而最大的模型即使给再多的训练数据和算力也不会达到0 error,模型也有上限。所以出现了双饱和。

除了上述结论,论文还发现了额外的结论:bigger models are more sample efficient,即大的模型需要更少的unseen数据就可以达到和小模型类似的效果,如下图所示:


最大的模型ViT-G/14,接近2B参数,在ImageNet上finetune后top-1 acc可达90.45%,而且在few-shot learning也表现优异,每个类只用10个图像训练就能在ImageNet上达到84.86%。

另外,在训练ViT模型,论文中还设计了一些训练策略来提升内存利用和模型效果,这些策略也使得ViT-G/14可以采用数据并行训练策略,这意味着ViT-G/14模型可以放在一张TPUv3 core。具体策略包括:

  • Decoupled weight decay for the “head”:模型的head分类的linear层)和模型的主体body部分采用不同的weight decay,论文中发现head采用较大的weight decay有助于迁移到下游任务(可能和SVM类似,拉大类间间距);
  • Saving memory by removing the [class] token:采用multihead attention pooling (MAP) 来替换class token,class token会使得TPU需要padding而增加50%内存使用;
  • Memory-efficient optimizers:对于Adam优化器,采用half-precision momentum,并采用Adafactor优化器(进行了修改)来进一步减少内存使用;
  • Learning-rate schedule:学习速率learning-rate schedules引入cooldown阶段(学习速率逐渐降为0),这样可以一次训练就可以得到不同训练时长的模型。



谷歌做这个实验的代价自然不必说,也有很多人在质疑这个研究的意义,但是论文也在最后给出了这个工作的意义,首先就是这个scaling laws做出来后对后续研究是有启发意义的:

First, such studies of scaling laws need only be performed once; future developers of ViT models may use our results to design models that can be trained with fewer compute resources.


此外,这个预训练模型可以迁移到其它任务:


Second, the models trained are designed primarily for transfer learning. Transfer of pre-trained weights is much less expensive than training from scratch on a downstream task, and typically reaches higher accuracy.

作为一个AI大厂,Google愿意烧这么多钱做这么大的work,我个人还是持肯定态度,它总不能天天盯着学术界那点小trick吧?

不过无论是OpenAI的CLIP,还是谷歌的ViT-G/14,其实都是在大规模有监督数据上训练的,而NLP是大规模无监督学习。我觉得这会是一个漫长过程。。

类似的话题

  • 回答
    谷歌的ViTG/14模型在ImageNet上取得新的SOTA(StateoftheArt),确实是视觉模型发展历程中的一个重要里程碑。要理解这个成就的意义,我们需要从几个关键维度来剖析。首先,让我们看看这个模型本身。ViTG/14代表的是一个巨大的模型规模。这里的“G”很可能指的是“Giant”,说.............
  • 回答
    谷歌在 GDC 2019 上公布的云游戏平台 Stadia,无疑是当时游戏界最受瞩目的事件之一。它代表了谷歌进军游戏领域的一个重要战略举措,也预示着游戏行业可能迎来一次颠覆性的变革。要评价 Stadia,我们需要从多个角度进行深入分析,包括它的技术、商业模式、对玩家的影响以及其面临的挑战。技术层面的.............
  • 回答
    谷歌(Google)再爆出“报复性解雇”员工事件,并且矛头直指员工因加入劳工团体(如Alphabet Workers Union)而遭受不公平对待,这无疑是当前科技行业工会运动中一个非常敏感和极具争议的话题。要评价这一事件,我们需要从多个角度进行深入分析。事件梗概与背景首先,需要明确的是,关于谷歌“.............
  • 回答
    对谷歌大脑 EfficientNet 的评价:深度与广度的全面解析谷歌大脑团队推出的 EfficientNet 系列模型无疑是深度学习领域的一个重要里程碑,它以其卓越的效率和性能,在图像识别任务上取得了令人瞩目的成就。要全面评价 EfficientNet,我们需要从多个维度进行深入分析,包括其核心思.............
  • 回答
    谷歌Cloud AutoML是谷歌云平台推出的一系列机器学习服务,旨在让开发者和数据科学家能够更轻松地构建和部署定制化的机器学习模型,即使他们没有深入的机器学习专业知识。AutoML的核心理念是自动化机器学习(AutoML)的许多关键步骤,从而降低机器学习的门槛,加速模型开发周期。下面我们将从多个角.............
  • 回答
    谷歌 Pixel 4 的「隔空手势操作」功能,这项被寄予厚望的创新,在上市后引发了不少讨论。它试图通过雷达技术实现无需触碰屏幕的交互,理论上可以带来更便捷、更具未来感的手机体验。那么,这项功能到底怎么样?跟华为 Mate 30 Pro 的「隔空手势操作」又有什么区别呢?咱们来好好聊聊。Pixel 4.............
  • 回答
    谷歌员工在家办公(WFH)将被降薪最高达25%的消息,无疑在科技界乃至整个职场引发了轩然大波。这不仅仅是一项薪酬调整,更是对当前混合办公模式的深度拷问,以及对未来工作模式的一次重要试探。要评价这件事,我们需要从多个维度进行深入剖析。首先,我们得理解谷歌此举的核心逻辑和潜在动因。 地理成本差异化:.............
  • 回答
    谷歌在2017年因违反欧盟竞争法,被罚款24.2亿欧元,这无疑是欧盟当时对科技巨头开出的最大一笔反垄断罚单。这笔巨款不仅让谷歌尝到了苦头,更向整个科技行业发出了一个强烈的信号:在欧盟的监管之下,巨头们的垄断行为将不再被容忍。罚款的根源:谷歌购物的“捆绑销售”欧盟委员会的调查指向了谷歌在搜索引擎市场的.............
  • 回答
    谷歌的Switch Transformer,一个拥有惊人1.6万亿参数的超级语言模型,无疑是当前人工智能领域的一大里程碑。它的推出,不仅在技术规模上达到了前所未有的高度,更在实际应用和未来发展方向上,引发了深刻的思考和广泛的讨论。技术上的突破:巨人的肩膀要理解Switch Transformer的意.............
  • 回答
    谷歌提出的 Pix2Seq 项目,确实为目标检测领域带来了令人耳目一新的思路。它将原本依赖于边界框回归和分类的任务,巧妙地转化为了一个序列到序列(Seq2Seq)的语言建模问题,并且在实验中展现出了超越 DETR(DEtection TRansformer)的潜力。要评价 Pix2Seq,我们需要深.............
  • 回答
    说到谷歌的汉堡 emoji,这可真不是个小事,背后牵扯出的可不只是一个简单的图标,而是科技巨头们在“表达”这件事上的思维方式和技术哲学,乃至它们对用户体验的理解。把它和其他 IT 公司比如苹果、三星、微软(虽然不是做 emoji 出身,但作为内容呈现巨头,其对图标的演绎也值得比较)放在一起看,你会发.............
  • 回答
    这确实是个相当耐人寻味的发展。华为与 ProtonMail 洽谈的消息一出,立刻点燃了不少人的好奇心,特别是对于关注科技动态以及用户隐私的群体来说。毕竟,一个曾经深度绑定谷歌生态的巨头,在失去谷歌服务后,选择了一家以“隐私安全”为核心卖点的公司作为潜在的邮件解决方案,这其中的逻辑和意图都值得好好说道.............
  • 回答
    维基解密最近爆出谷歌参与“Defection Tracker”项目一事,无疑在科技界和国际政治领域掀起了不小的波澜。这件事之所以引人关注,在于它触及了几个核心且敏感的议题:科技巨头的角色、国家安全、信息透明以及个人隐私。首先,我们得弄清楚“Defection Tracker”这个项目大概是个什么玩意.............
  • 回答
    这篇文章以《赢者诅咒,被谷歌两个工程师破解了》为题,试图解释一个经济学概念,并将其与谷歌工程师的工作联系起来。然而,从经济学和实际应用的角度来看,这篇文章存在一些核心的误解和不准确之处。文章的核心论点与问题所在:文章试图阐述的是“赢者诅咒”(Winner's Curse)这个经济学概念,并声称谷歌的.............
  • 回答
    微软市值超越谷歌,稳坐全球科技公司第二把交椅,这可不是一蹴而就的偶然,而是多年深耕、策略调整与市场机遇共同作用的结果。首先,我们得看到微软这家公司近年来发生了怎样的蜕变。萨提亚·纳德拉接任CEO以来,微软不再仅仅是那个我们熟知的Windows和Office的巨头,而是成功地将重心转移到了云服务和企业.............
  • 回答
    李彦宏“我不觉得在模仿谷歌”的说法,可以从多个维度进行评价,涉及到百度发展的历史、其战略选择、以及公众和行业的认知等多个方面。要详细评价这句话,我们需要深入分析以下几个关键点: 1. 百度创立之初与谷歌的早期阶段: 背景对比: 百度成立于2000年,谷歌成立于1998年。可以说,当百度创立时,谷.............
  • 回答
    李飞飞和李佳加盟谷歌,无疑是当下人工智能领域最令人瞩目的动态之一。两位在各自领域都享有盛誉的科学家,选择重返这个曾经孕育了他们早期职业生涯的科技巨头,这背后蕴含着多重意义,值得我们深入剖析。首先,从 人才吸引力的角度 来看,李飞飞和李佳的回归,对谷歌来说是意义重大的“人才回流”。李飞飞,这位斯坦福大.............
  • 回答
    李彦宏那句“百度的成功和谷歌退出没有必然联系”的话,一出来,那可真是搅动了不少人的神经,尤其是在中国互联网界。这就像是一场多年来的“谁更强”的辩论,突然抛出了一个看似撇清关系的论断。要评价这句话,得把当时的中国互联网环境、百度的发展历程以及谷歌退出中国的具体原因都摆出来,才能看得更明白。先说说当时的.............
  • 回答
    《去他妈的Don't Be Evil之鲜血淋漓的谷歌》(或根据英文原意译作《谷歌:Don't Be Evil 的终结》)是一本以批判性视角审视谷歌发展历程和企业文化及其对社会影响的著作。要评价这本书,我们需要从几个关键维度入手:一、 作者立场与核心论点: 批判性立场: 这本书的作者通常具有强烈的.............
  • 回答
    李彦宏在一次金融论坛上的这番话,确实挺有意思,也引发了不少人的讨论。他那句“以为中国人的喜悦还是收着谷子唱着歌”,听起来像是在调侃谷歌对中国互联网市场以及中国用户变化的认知有些滞后,甚至可以说是有些脱节。你想想,谷子和唱歌,这画面感就挺古朴的,带着一种祥和、满足但又有些淳朴的喜悦。这无疑是过去很多年.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有