GPT-3 媒体通稿展示的图灵测试,大都为语义检索、知识库检索的问题,这没有什么意义。对于一个人工智能,我们至少要测试基本的上下文语义理解和逻辑能力,甚至不用测试很复杂完备的问题,只需测试以下两个简单问题。(知友也推荐了一个问题,即问题三。)
问题一
先告诉 AI:「我在北京开会。」,然后问「我在北京做什么?」
这个问题很简单,主要为了增加区分度。
问题二
先告诉 AI:「乔布斯早上在公园跑步,中午和玛丽在必胜客用餐。」然后问「谁在必胜客用餐?」
这个问题 99% 的人工智能答不出来。
问题三
我上周工作了三天,请问休息了几天?
这是知友推荐的问题,比问题二更难。
你会发现 99% 的 人工智能都答不出来。我推测 GPT-3 也答不出来,有条件测试的朋友可以试试(下面有知友测试样例)。如果你声称 GPT-2、GPT-3 或任何一个人工智能可以回答这些简单问题,请提供实测链接和测试结果截图。为什么 GPT-3 没法通过最简单的图灵测试?因为它的底层架构并没有变化,仍是大力出奇迹、训练优化、黑盒;应用层面拼拼凑凑,很热闹,但未能展示技术的实质进步。
更新:以下是知友提名的 AI,这些 AI 都未能通过测试。
@我才是星辰 提名的人工智能 GPT-3(失败)
该知友测试的是 https://play.aidungeon.io,他说这个游戏免费版用的是 GPT-2,他用的是试用版,用的是GPT-3。
问题二「谁在必胜客用餐」,AI 回答错误。他先告诉 AI:「Jobs ran in the park in the morning and had dinner with Mary at Pizza hut at noon.」,然后问「Who's eating at Pizza Hut?」,AI 回答「You!」,答案错误,正确答案应是「乔布斯和玛丽」。接着,他告诉 AI 正确答案「No, it's jobs and Mary.」,据他介绍,告诉 AI 答案后,再问这个问题 ,AI 就给出了正确答案。我们能看出来,提问者不提供答案的情况下,AI 无法自己读懂信息回答问题。
@Neko 提名的人工智能 deeppavlov.ai (失败)
大部分人只会留言打嘴仗,终于有人放链接,可你真的测试过?希望测试过了,确认结果能支撑你的观点,再用来反驳。下面是你提名的 AI demo.deeppavlov.ai 的实测结果。
问题一:对
问题二:错(正确答案:乔布斯和玛丽)
问题三:错(正确答案:四天)
根据问题二和问题三的错误特征,很容易看出问题一是蒙对的。对于问题一,我们稍微改变提问方式,AI 就歇菜了。
稍微改变问题一提问方式:
下一位反驳的同学,大家时间宝贵,请直接提供实测链接和测试结果截图。
以下为原答案。
我们来看看 GPT-3 展示的实际效果:
生成一个彩虹色的按钮,生成网页布局代码
这不过是通过简单的语义识别,外调自动化脚本,并不涉及复杂的 NLP。
自动生成新闻
几十年前华尔街交易员收到的市场消息很多就已是机器自动生成,我在对冲基金做高频交易,也需要用机器分析文本实时下单交易。自动生成新闻可以简单,也可以复杂,我做过这方面的工作,技术曲线陡峭。因为还未看到足够信息,我不能确定 GPT-3 做到了什么程度。不过,他们的基础架构决定了它很难做到高难度的机器撰写新闻。
自动生成电子邮件
原理和自动生成新闻一样,一般更简单。
语法纠错
GPT-3 实现的还很初级,至少比语法纠错软件 Grammarly 还差一截。
计算器
这和人工智能没有直接关系,不过是通过简单的语义识别,外调一些特定功能。我们也可以外调天气数据、嘀嘀打车、美团外卖、风洞建模、东风快递,但外调的功能再厉害,也和 NLP 技术水平关系不大。
现在工业界关心的是技术应用和商业模式,做的其实不是人工智能,而是人工智能「相关技术」的落地与商业化。而学术界大都躺在机器学习上炼丹,没有思路,也没有动力解决「爬树上月球」的窘境,目前就是一条路走到黑,努力练更多的丹,安慰自己只要数据足够多,算力足够大,结果还能再优化,也形成了稳固的既得利益群体,对可能威胁他们投入、前途和信仰的东西排斥打压。
机器学习是有用有效的,不是新技术,是多年实践过的技术。这套思路的技术各行各业用了几十年,我父辈那一批人从业时就在用,近年得益于算力数据增长,老树开新花,产生了更多应用,这是喜闻乐见的事实。我打心眼希望机器学习能有突破,让我不用再和傻子一样的机器人客服对话。宣传通稿、媒体展示中的 AI 无比厉害,时不时抖个机灵,或者像禅师一样给出一个深奥的回答,好像比我们人类都懂,但为什么实际生活中机器人客服就和傻子一样?想一想这是为什么。
知乎从事人工智能的学生、研究者、从业者,可能 90% 以上的人都以机器学习为主,如果有人指出机器学习的不足,本能就抵触,顺手就一个反对,把答案踩到最底下,这也是你们平时治学和工作的态度吗?我指出了什么,你反对的是什么?机器学习解决了很多实际问题,我不反对机器学习,反对的是盲目自嗨和浮夸,反对将机器学习明显做不到的说成做得到。
如果声称机器学习为基础的 AI 能通过图灵测试,你需要先去真实地图灵测试一个 AI。刻意精选 AI 擅长的问题,让 AI 看上去很厉害,并没有意义。AI 能做到人做不到的事情,记忆海量知识,秒速检索匹配答案,在海量数据中寻找规律,在这些任务上 AI 比记忆力最好、思维最敏捷的人类还要强上很多倍,但这不能推导出 AI 具备了哪怕 3 岁小孩的语言理解能力。
看到一个 AI 能回答复杂问题,就自然推导出 AI 一定能回答简单问题,这是很多人会犯的错误。第一种情况:「复杂问题」和「简单问题」不是同一个类型的问题,博尔特能拿 100 米世界第一,可推导出他能拿 100 米美国第一,但却无法推导出他能拿哪怕 3000 米的北京海淀区第一,因为短跑和长跑不是同一个类型的能力;第二种情况:这些人声称简单的问题,在技术实现上,其实比他们声称复杂的问题要难得多,他们可能真的不懂,也可能是屁股决定脑袋。
认为 GPT-3 星舰打蚊子的知友,如果不能理解上述内容,我更推荐直接看事实,这更简单——事实是 3 岁小孩能回答我提出的两个简单问题,而 GPT-3 和绝大部分人工智能回答不了。
做机器学习,作为研究方向也好,作为职业也好,作为技术信仰也好,应该想想:它能做到什么,不能做到什么?为什么能做到,为什么不能做到?真能做到准确的上下文语义理解和逻辑推理吗?现在做不到,以后算力更强,参数更多,数据更多,就能做到吗?
关于 GPT-3 或任何人工智能,不要被眼花缭乱的术语和数字唬住,我分享一下我总结的《人工智能技术四大定律》:
1. 凡是宣传模型的,技术可能不行;
2. 凡是宣传参数的,技术可能不行;
3. 凡是宣传数据的,技术可能不行;
4. 凡是不敢开放图灵测试的,技术可能不行。
不是说模型、参数、数据不重要,这些是幕后工作,为什么铺天盖地宣传幕后工作?无非是:因为我们模型好,参数多,数据多,所以证明我们技术好。
但是,检验技术好坏的标准不是学术辩论、论文、学术指标评测、团队履历、大佬背书、融资金额、媒体报道、精选样例展示。检验技术好坏的标准只有一个,就是实际效果。要展示实际效果,就开放图灵测试。如果认为 GPT-3 或任何人工智能能回答我提出的两个简单问题,不用留言找我辩论,找个 AI 实际对话证明它能做到,将和它对话的截图发出来,马上就证明我说错了。
普通知友,也不用去看那些模型参数数据的宣传,已公开的大厂小厂 AI 那么多,自己实测一下,真伪立辨。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有