百科问答小站 logo
百科问答小站 font logo



你所在的研究领域里,有哪些工作的结果虽然不是造假,但是是精挑细选出来的? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

谢邀,提名GPT-3。

没有说GPT-3不强的意思,GPT-3在业界来说真的强,而且用法多,我只是说GPT-3并没有媒体吹的那样恐怖。但你看到的展示结果,都是cherry-picking的结果。并不是媒体吹的那样,强人工智能要来了bla bla的。关于这点,其实很多人工智能界的大佬都喷过。例如Gary Marcus直接怼了卫报。

可惜排队用GPT-3的人太多了,我在OPENAI官网上申请了很久了,依然没轮到我。不过有个人申请到了,并尝试了给GPT-3做图灵测试[1]。在常识问题方面非常强,而且能联系上下文。

例如这一段测试结果,显得还挺不错,放十年前可能就把人忽悠过去了。

问:你最喜欢的动物是什么?
答:我最喜欢的动物是狗。
问:为什么?
答:因为狗既忠诚又友好。
问:狗狗心情不好的两个原因是什么?
答:狗狗心情不好有两个原因,一是饿了,二是天热了。

但现在的人显然做太简单的测试。例如问GPT-3一些傻问题,发现它并不能识别这个问题本身有没意义。

问:长颈鹿有多少只眼睛?
答:长颈鹿有两只眼睛。
问:我的脚有多少只眼睛?
答:你的脚有两只眼睛。
问:蜘蛛有多少只眼睛?
答:蜘蛛有八只眼睛。
问:太阳有多少只眼睛?
答:太阳有一只眼睛。
问:问:一棵草的叶子有多少只眼睛?
答:草叶有一只眼睛。

显然,这时候GPT-3就被人耍了。这种结果没有媒体报道,因为搞不出大新闻。

脚有两只眼睛?脚上长鸡眼了吗?

当然,这种闲散的测试确实也无法量化GPT-3和人类的差距。我们来看看论文。在论文《Measuring Massive Multitask Language Understanding》[2]提出了一个新的测试,用来衡量文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等 57 项任务,共 15908 个问题。结果这57项任务依然比不上专家水平,尤其是STEM领域。下图截取自论文,一个四个选项的单选题,随机选择准确率为25%。可以看到,社科领域当用了X-Large后,和人类的结果很接近了。但在STEM领域可以说是跟瞎猜没区别,即使是X-Large级别,也才36.7%而人类还能做到40.2%。

当然,这个结果已经足够强大了。但GPT-3得到这个结果显然不是通过理解,而是通过暴力美学,堆叠训练集。

引用爱因斯坦的一句话

傻子都能“知道”。关键在于“理解”。—— 阿尔伯特·爱因斯坦

其实我们可以想得明白,STEM领域更讲究推理,仅仅知道是不够的。而社科领域要”记忆“的内容比较多,这也是为啥在社科领域看起来GPT-3做得不错的原因。

但无论如何,GPT-3虽然很强大,但并非媒体吹的那样强智能。GPT-3不仅不能“理解”,连”知道“也未能做得全面。再次申明,不是否定GPT-3,GPT-3的结果确实让人感到不可思议,但离强人工智能还是有很长一段距离。

参考

  1. ^Giving GPT-3 a Turing Test https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html
  2. ^Measuring Massive Multitask Language Understanding https://arxiv.org/pdf/2009.03300.pdf

user avatar   yukio-2 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  在李世石九段与 AlphaGo 的五局对弈中,有哪些值得回味之处? 
  物理系或数学系前辈们,大家都来说一下自己本科时的学习经历吧? 
  如何看待上海交大研发人工智能:通过脸部识别技术辨别罪犯? 
  联邦学习/联盟学习 (Federated Learning) 的发展现状及前景如何? 
  请问这个奇怪的极限怎么求? 
  如果不按套路下棋是不是就能赢 Alpha Go 了? 
  如果一个物种只剩下最后几只,那么基因会选择让其永生吗? 
  钢琴一类乐器能否用穷举的方法写下所有可能的乐谱呢? 
  如何评价浪潮发布的2457亿参数源1.0智能大模型?与GPT-3相比如何?处于AI模型领域什么水平? 
  是否存在一个「无法判定为有理数或无理数」的实数? 

前一个讨论
石墨烯技术发展到什么阶段了?距离商用有多远?
下一个讨论
什么是狄利克雷分布?狄利克雷过程又是什么?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利