百科问答小站 logo
百科问答小站 font logo



你所在的研究领域里,有哪些工作的结果虽然不是造假,但是是精挑细选出来的? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

谢邀,提名GPT-3。

没有说GPT-3不强的意思,GPT-3在业界来说真的强,而且用法多,我只是说GPT-3并没有媒体吹的那样恐怖。但你看到的展示结果,都是cherry-picking的结果。并不是媒体吹的那样,强人工智能要来了bla bla的。关于这点,其实很多人工智能界的大佬都喷过。例如Gary Marcus直接怼了卫报。

可惜排队用GPT-3的人太多了,我在OPENAI官网上申请了很久了,依然没轮到我。不过有个人申请到了,并尝试了给GPT-3做图灵测试[1]。在常识问题方面非常强,而且能联系上下文。

例如这一段测试结果,显得还挺不错,放十年前可能就把人忽悠过去了。

问:你最喜欢的动物是什么?
答:我最喜欢的动物是狗。
问:为什么?
答:因为狗既忠诚又友好。
问:狗狗心情不好的两个原因是什么?
答:狗狗心情不好有两个原因,一是饿了,二是天热了。

但现在的人显然做太简单的测试。例如问GPT-3一些傻问题,发现它并不能识别这个问题本身有没意义。

问:长颈鹿有多少只眼睛?
答:长颈鹿有两只眼睛。
问:我的脚有多少只眼睛?
答:你的脚有两只眼睛。
问:蜘蛛有多少只眼睛?
答:蜘蛛有八只眼睛。
问:太阳有多少只眼睛?
答:太阳有一只眼睛。
问:问:一棵草的叶子有多少只眼睛?
答:草叶有一只眼睛。

显然,这时候GPT-3就被人耍了。这种结果没有媒体报道,因为搞不出大新闻。

脚有两只眼睛?脚上长鸡眼了吗?

当然,这种闲散的测试确实也无法量化GPT-3和人类的差距。我们来看看论文。在论文《Measuring Massive Multitask Language Understanding》[2]提出了一个新的测试,用来衡量文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等 57 项任务,共 15908 个问题。结果这57项任务依然比不上专家水平,尤其是STEM领域。下图截取自论文,一个四个选项的单选题,随机选择准确率为25%。可以看到,社科领域当用了X-Large后,和人类的结果很接近了。但在STEM领域可以说是跟瞎猜没区别,即使是X-Large级别,也才36.7%而人类还能做到40.2%。

当然,这个结果已经足够强大了。但GPT-3得到这个结果显然不是通过理解,而是通过暴力美学,堆叠训练集。

引用爱因斯坦的一句话

傻子都能“知道”。关键在于“理解”。—— 阿尔伯特·爱因斯坦

其实我们可以想得明白,STEM领域更讲究推理,仅仅知道是不够的。而社科领域要”记忆“的内容比较多,这也是为啥在社科领域看起来GPT-3做得不错的原因。

但无论如何,GPT-3虽然很强大,但并非媒体吹的那样强智能。GPT-3不仅不能“理解”,连”知道“也未能做得全面。再次申明,不是否定GPT-3,GPT-3的结果确实让人感到不可思议,但离强人工智能还是有很长一段距离。

参考

  1. ^Giving GPT-3 a Turing Test https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html
  2. ^Measuring Massive Multitask Language Understanding https://arxiv.org/pdf/2009.03300.pdf

user avatar   yukio-2 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  一年级第一次考试语文20,数学40,曾经狠狠得罪过老师,可以进行阴谋论吗? 
  为什么细胞没有能量就会死亡,它不能像电脑一样只关机吗? 
  100人坐飞机,第一个乘客在座位中随便选一个坐下,第100人正确坐到自己坐位的概率是? 
  为什么软体动物头足纲和腹足纲某些淡水种类没有幼虫期而是直接成长为亚成体形态? 
  10 × 10 的正方形最多可放入多少个直径为 1 的圆? 
  为什么 AlphaGo 不敢挑战麻将? 
  如何记住所有的三角函数公式? 
  卓里奇的《数学分析》怎么样? 
  线性代数为什么学校老师讲得那么复杂,考研老师却讲得如此精辟? 
  有谁知道这个古怪的是啥吗?飞的好快? 

前一个讨论
石墨烯技术发展到什么阶段了?距离商用有多远?
下一个讨论
什么是狄利克雷分布?狄利克雷过程又是什么?





© 2024-05-03 - tinynew.org. All Rights Reserved.
© 2024-05-03 - tinynew.org. 保留所有权利