这里大胆预测下。
2020年1750亿参数的GPT-3出现后,把语言模型带入了千亿参数时代。2021年,也出现了几个超大模型,例如英文领域有5300亿参数的MT-NLG,中文领域有2457亿参数的源1.0,2600亿参数的ERNIE 3.0 Titan, 甚至还有Switch Transformer这种1.6万亿参数的模型(不过Switch Transformer使用了混合专家(Mix of Expert,MoE),不是单体模型)
从2021年的巨量模型的研究可以看到,这个趋势才刚开始,2022年,万亿级别的单体模型也许会出现。同时,巨量模型的资源使用方面的优化也会成为新的研究方向,相信未来会出现更多参数但需要更少GPU的巨量模型。
2021年出现了不少CV和NLP融合趋势,例如在去年年底我写的这篇文章中,
可以看到去年有几个模型在促进CV和NLP继续融合,例如Swin Transformer,女娲等。
但这仅仅是开始,今年这种趋势将会继续。
有监督模型在大数据年代,需要大量的标注,而标注数据主要来源于人工标注。在NLP领域,自监督算法很早就开始应用了,例如大家很熟的word2vec就是一种自监督算法。
在CV方面,去年也有不少相关工作,例如SEER(SElf-supERvised)[1],SSViT[2]等等。相信今年会有更多自监督算法相关的研究。
去年年底,GPT-3开放使用了,GPT-3真的非常好用,例如Github Copilot也是基于GPT-3的,对github copilot感兴趣的可以看看我之前做的视频。
其他中文超大模型也在慢慢开放中,感兴趣的可以联系相关发布方申请使用权限。
我相信在GPT-3开放之后,今年会有更多中文英文领域的超大模型会向开发者开放权限。希望有更多的开发者利用这些超大模型做出好玩的应用。
例如在 @lokinko 的回答《阿里巴巴达摩院发布 2022 十大科技趋势,今年的趋势预测有哪些亮点?》里,提到2022年的一个趋势是AI for Science,AI成为各领域科学家的新生产工具。[3]
AlphaFold 2 能很好地预判蛋白质与分子结合的概率,为我们展示了人工智能驱动生物学研究的无限潜力
Science 发表了 MIT 开发的一种通过 AI machine learning 开发的基于人类自然语言的算法,该算法可以计算包膜病毒的膜蛋白对免疫反应发生的突变进化。
2021年,《数据安全法》、《数据安全管理条例》、《个人隐私保护法》陆续出台了,保护数据的安全和个人隐私,已经是大势所趋了。联邦学习、差分隐私和加密计算等保护隐私的算法在过去几年也一直在发展,这些算法既能保护数据安全,也能打破数据孤岛,让数据发挥最大效果的同时,防止数据外流。个人估计2022年会有更多公司会使用保护隐私的AI算法。
我是搞算法落地的,我更期待更多的大型模型在2022年免费开放(便宜点也可以接受嘻嘻),同时在隐私保护方面,有更多的公司认知到保护用户数据安全和隐私是无法逆转的趋势,让保护隐私的AI算法更好地落地。
作者: @桔了个仔
人工智能从业者,专注AI风控技术,写作爱好者,天天和猫咪一起写代码,写知乎。面向人生编程,欢迎关注,一起进步,一起吸猫。更多精彩内容见下面的索引。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有