如何评价1700亿参数的GPT-3？第1页

lichengang 网友的相关建议:

GPT-3 媒体通稿展示的图灵测试，大都为语义检索、知识库检索的问题，这没有什么意义。对于一个人工智能，我们至少要测试基本的上下文语义理解和逻辑能力，甚至不用测试很复杂完备的问题，只需测试以下两个简单问题。（知友也推荐了一个问题，即问题三。）

问题一
先告诉 AI：「我在北京开会。」，然后问「我在北京做什么？」
这个问题很简单，主要为了增加区分度。

问题二
先告诉 AI：「乔布斯早上在公园跑步，中午和玛丽在必胜客用餐。」然后问「谁在必胜客用餐？」
这个问题 99% 的人工智能答不出来。

问题三
我上周工作了三天，请问休息了几天？
这是知友推荐的问题，比问题二更难。

你会发现 99% 的人工智能都答不出来。我推测 GPT-3 也答不出来，有条件测试的朋友可以试试（下面有知友测试样例）。如果你声称 GPT-2、GPT-3 或任何一个人工智能可以回答这些简单问题，请提供实测链接和测试结果截图。为什么 GPT-3 没法通过最简单的图灵测试？因为它的底层架构并没有变化，仍是大力出奇迹、训练优化、黑盒；应用层面拼拼凑凑，很热闹，但未能展示技术的实质进步。

更新：以下是知友提名的 AI，这些 AI 都未能通过测试。

@我才是星辰 提名的人工智能 GPT-3（失败）

该知友测试的是 https://play.aidungeon.io，他说这个游戏免费版用的是 GPT-2，他用的是试用版，用的是GPT-3。

问题二「谁在必胜客用餐」，AI 回答错误。他先告诉 AI：「Jobs ran in the park in the morning and had dinner with Mary at Pizza hut at noon.」，然后问「Who's eating at Pizza Hut?」，AI 回答「You!」，答案错误，正确答案应是「乔布斯和玛丽」。接着，他告诉 AI 正确答案「No, it's jobs and Mary.」，据他介绍，告诉 AI 答案后，再问这个问题，AI 就给出了正确答案。我们能看出来，提问者不提供答案的情况下，AI 无法自己读懂信息回答问题。

@Neko 提名的人工智能 deeppavlov.ai （失败）

大部分人只会留言打嘴仗，终于有人放链接，可你真的测试过？希望测试过了，确认结果能支撑你的观点，再用来反驳。下面是你提名的 AI demo.deeppavlov.ai 的实测结果。

问题一：对

问题二：错（正确答案：乔布斯和玛丽）

问题三：错（正确答案：四天）

根据问题二和问题三的错误特征，很容易看出问题一是蒙对的。对于问题一，我们稍微改变提问方式，AI 就歇菜了。

稍微改变问题一提问方式：

下一位反驳的同学，大家时间宝贵，请直接提供实测链接和测试结果截图。

以下为原答案。

我们来看看 GPT-3 展示的实际效果：

生成一个彩虹色的按钮，生成网页布局代码

这不过是通过简单的语义识别，外调自动化脚本，并不涉及复杂的 NLP。

自动生成新闻

几十年前华尔街交易员收到的市场消息很多就已是机器自动生成，我在对冲基金做高频交易，也需要用机器分析文本实时下单交易。自动生成新闻可以简单，也可以复杂，我做过这方面的工作，技术曲线陡峭。因为还未看到足够信息，我不能确定 GPT-3 做到了什么程度。不过，他们的基础架构决定了它很难做到高难度的机器撰写新闻。

自动生成电子邮件

原理和自动生成新闻一样，一般更简单。

语法纠错

GPT-3 实现的还很初级，至少比语法纠错软件 Grammarly 还差一截。

计算器

这和人工智能没有直接关系，不过是通过简单的语义识别，外调一些特定功能。我们也可以外调天气数据、嘀嘀打车、美团外卖、风洞建模、东风快递，但外调的功能再厉害，也和 NLP 技术水平关系不大。

现在工业界关心的是技术应用和商业模式，做的其实不是人工智能，而是人工智能「相关技术」的落地与商业化。而学术界大都躺在机器学习上炼丹，没有思路，也没有动力解决「爬树上月球」的窘境，目前就是一条路走到黑，努力练更多的丹，安慰自己只要数据足够多，算力足够大，结果还能再优化，也形成了稳固的既得利益群体，对可能威胁他们投入、前途和信仰的东西排斥打压。

机器学习是有用有效的，不是新技术，是多年实践过的技术。这套思路的技术各行各业用了几十年，我父辈那一批人从业时就在用，近年得益于算力数据增长，老树开新花，产生了更多应用，这是喜闻乐见的事实。我打心眼希望机器学习能有突破，让我不用再和傻子一样的机器人客服对话。宣传通稿、媒体展示中的 AI 无比厉害，时不时抖个机灵，或者像禅师一样给出一个深奥的回答，好像比我们人类都懂，但为什么实际生活中机器人客服就和傻子一样？想一想这是为什么。

知乎从事人工智能的学生、研究者、从业者，可能 90% 以上的人都以机器学习为主，如果有人指出机器学习的不足，本能就抵触，顺手就一个反对，把答案踩到最底下，这也是你们平时治学和工作的态度吗？我指出了什么，你反对的是什么？机器学习解决了很多实际问题，我不反对机器学习，反对的是盲目自嗨和浮夸，反对将机器学习明显做不到的说成做得到。

如果声称机器学习为基础的 AI 能通过图灵测试，你需要先去真实地图灵测试一个 AI。刻意精选 AI 擅长的问题，让 AI 看上去很厉害，并没有意义。AI 能做到人做不到的事情，记忆海量知识，秒速检索匹配答案，在海量数据中寻找规律，在这些任务上 AI 比记忆力最好、思维最敏捷的人类还要强上很多倍，但这不能推导出 AI 具备了哪怕 3 岁小孩的语言理解能力。

看到一个 AI 能回答复杂问题，就自然推导出 AI 一定能回答简单问题，这是很多人会犯的错误。第一种情况：「复杂问题」和「简单问题」不是同一个类型的问题，博尔特能拿 100 米世界第一，可推导出他能拿 100 米美国第一，但却无法推导出他能拿哪怕 3000 米的北京海淀区第一，因为短跑和长跑不是同一个类型的能力；第二种情况：这些人声称简单的问题，在技术实现上，其实比他们声称复杂的问题要难得多，他们可能真的不懂，也可能是屁股决定脑袋。

认为 GPT-3 星舰打蚊子的知友，如果不能理解上述内容，我更推荐直接看事实，这更简单——事实是 3 岁小孩能回答我提出的两个简单问题，而 GPT-3 和绝大部分人工智能回答不了。

做机器学习，作为研究方向也好，作为职业也好，作为技术信仰也好，应该想想：它能做到什么，不能做到什么？为什么能做到，为什么不能做到？真能做到准确的上下文语义理解和逻辑推理吗？现在做不到，以后算力更强，参数更多，数据更多，就能做到吗？

关于 GPT-3 或任何人工智能，不要被眼花缭乱的术语和数字唬住，我分享一下我总结的《人工智能技术四大定律》：
1. 凡是宣传模型的，技术可能不行；
2. 凡是宣传参数的，技术可能不行；
3. 凡是宣传数据的，技术可能不行；
4. 凡是不敢开放图灵测试的，技术可能不行。

不是说模型、参数、数据不重要，这些是幕后工作，为什么铺天盖地宣传幕后工作？无非是：因为我们模型好，参数多，数据多，所以证明我们技术好。

但是，检验技术好坏的标准不是学术辩论、论文、学术指标评测、团队履历、大佬背书、融资金额、媒体报道、精选样例展示。检验技术好坏的标准只有一个，就是实际效果。要展示实际效果，就开放图灵测试。如果认为 GPT-3 或任何人工智能能回答我提出的两个简单问题，不用留言找我辩论，找个 AI 实际对话证明它能做到，将和它对话的截图发出来，马上就证明我说错了。

普通知友，也不用去看那些模型参数数据的宣传，已公开的大厂小厂 AI 那么多，自己实测一下，真伪立辨。

我的微博猫完，以及新世界内测。

huo-hua-de-41 网友的相关建议:

GPT-3对AI行业太重要了，至少给深度学习续命5-10年。对于一个行业，最重要的是什么？不是几篇顶会paper，不是用某些trick在某任务上提了几个点，最重要的是想象力，是imagination。

GPT-3有1700亿参数不要紧，train不动不要紧，inference不动不要紧。要紧的是，告诉大家，看！只要我们模型足够大，深度学习还可以更牛逼！给大家在漆黑的屋子中看到一束光，这给了无数人想象力，让更多天才投身深度学习，不断将领域向前推进。给了资本家无限的想象力，让更多资本涌入，大家才有饭恰嘛！

liang-zi-wei-48 网友的相关建议:

这两个游戏都有自己的问题。但严重程度完全不一样。

赛博朋克最大的问题是人力不够，没有人手把愿景在限期内做出来，导致后期狂砍。但从已有的成品来看，CDPR是完全有人才有能力把东西做出来的，只不过没时间做。光影效果，已有的垂直城市设计，以及主线和很多支线任务的演出都有毫不输巫师3的气质，尤其是日本城浮空平台那关，无论是游戏流程还是画面还是音乐，都把类似银翼杀手2047的那种气氛和感受做到了极致。有人说CDPR的人才都跑了，或者CDPR傲娇了开始放水，这并不客观。2077确实是个半成品，主机优化的问题尤其严重，但你关注已经完成的部分，用高配置PC玩，其质量并未令人失望，依然是巫师3的水准。

2077就像是一个优等生忘了做背后的几题的考卷，开天窗导致不及格，但已经做了的题目还是正确率极高的。

谈到E3的demo，单从画面上讲你很难说它缩水了。只不过CDPR没告诉你想要E3画面，就得上3080+光线追踪。。。

我猜想没有光追的话，游戏在大多数情况下也是可以达到光追的效果的，只不过人工工作量会很大，有些地方需要离线烘培，而有些地方需要人工设置虚拟光源。CDPR可能发现项目后期工作量太大搂不住了，就上了光追这个大杀器。。。

至于无人深空，现在口碑很好，但我要不客气地讲，这个游戏到了今天依然是垃圾，只配卖$19.95，打折的时候卖2.95的那种。

Hello工作室自始自终都没有把初始愿景实现的技术能力。

你可以看无人深空进入大气层的技术实现。先是一段飞船进入大气层摩擦发红的特效，然后可以看见地形通过一种非常粗糙、视距很近的情况下刷新出来，并且刷出来的地貌和太空中看到的地貌完全不同。所以从头到尾，hello工作室都没有类似精英危险和星际公民的无缝行星登陆技术。

无人深空更新了十几次，并没有触动这个游戏除了机械刷就没有任何深度的本质。这是一个极其无聊的游戏。但它刷了两年的DLC，玩家也就给他点面子，没功劳有苦劳。它每次更新我都会进游戏看看，但玩不了半小时就会放弃。一是实在无聊，二是它美术设计和渲染水平有限，色彩及其刺眼。比如在母船机库里，到处都是亮瞎狗眼的点状光源，但这些光源不会照亮周围的任何东西，看的时间长了有种不带护目镜看焊接的流泪效果。你说更新了那么久，这么简单的问题都不解决，有什么用呢。游戏中随处可见低级设计的痕迹，比如说有很多行星上有一种可以卖钱的球，这种球没有任何贴图，只有亮瞎眼的纯白色材质，在HDR效果下极其刺眼，但它又不是个光源，放在地上不会照亮周围任何东西。这种打开Blender就存盘的建模初手垃圾素材居然也能放在游戏里，真是活久见。

所以无人深空就像是一个学渣冒充学霸，把期望提得无限高，却每题都答错结果接近0分，被骂，然后花了漫长的时间在那里订正，一题一题的改，最后终于接近30分了，然后获得了大家的赞赏，全然忘记了它改了那么久依然是不及格。

无人深空的贴图我就不贴了，首发的时候真是纯垃圾，基本上是2008年魔兽世界首发的那个水准。现在也依然是垃圾，开个HDR看着眼睛都疼。

li-yu-97-62 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

xpqiu 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

wang-xing-24-64 网友的相关建议:

军事，我因生在中国而骄傲！

https://www.zhihu.com/video/1004301275952988160

fan-fan-20-64-95-65 网友的相关建议:

军事，我因生在中国而骄傲！

https://www.zhihu.com/video/1004301275952988160

如何评价1700亿参数的GPT-3？的其他答案点击这里

如何评价1700亿参数的GPT-3？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价1700亿参数的GPT-3？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价1700亿参数的GPT-3？第1页