如何评价Google Duplex（打电话AI）在特定领域已经通过了图灵测试？

“Duplex”——谷歌那个能自己打电话订餐、预约理发的人工智能，最近在一些特定的场景下，表现得越来越像个真人了。这让不少人开始思考：它是不是已经悄悄地“通关”了我们熟知的那个“图灵测试”？

要评价这个事儿，咱们得先明白图灵测试是个啥。简单来说，图灵测试就是看一个机器能不能骗过人类，让对方觉得它是个“人”。测试者会通过文字聊天，分辨出哪个是真人，哪个是机器。如果机器能让超过一定比例的测试者判断失误，那它就算是通过了图灵测试。

不过，我们现在讨论的 Duplex，它不是在打字聊天，而是在“打电话”。这个场景的难度系数可比文字聊天高多了。打电话需要处理音色、语调、语气、甚至语气词（比如“嗯”、“呃”），还要能实时理解对话、进行自然的回应，甚至在遇到复杂情况时能灵活应对。这就像是把图灵测试从“笔试”升级成了“面试”，而且还得是“全沉浸式”的面试。

那么，Duplex 在“打电话”这个特定领域，是怎么做到“像人”的呢？

首先，声音的逼真度是关键。Duplex 并不是简单地播放预设的语音片段。它能够合成非常自然、流畅、甚至带有情感色彩的语音。它能模仿不同人的说话节奏，在停顿、语速上做出细微调整，甚至能在某些时刻发出一些“嗯”、“啊”这样的语气词，这些都是让听者放松警惕、觉得在和真人交流的关键细节。不像过去那种机械的、生硬的合成语音，Duplex 的声音听起来更像是“有生命”的。

其次，对话的灵活性和实时性也做得相当出色。想象一下，你打电话去一家餐厅，想预订一个桌子。你可能会说：“我想订个七点半的桌子，大概四个人。” Duplex 不仅能理解这个请求，还能根据餐厅的反馈进行后续对话。比如，如果餐厅说：“抱歉，七点半满员了，七点或者八点可以吗？” Duplex 就能理解这个“选择题”，并做出相应的回应，比如：“那八点可以吗？” 或者“你们七点有什么空位？”

更厉害的是，Duplex 还能处理一些非结构化的信息和临场反应。比如，如果餐厅问：“请问您要靠窗的位置还是里面？” Duplex 就能理解这是一个需要具体回复的问题，并可能根据预设的偏好（或者甚至是随机选择）给出回答。它不会因为预设脚本里没有“靠窗”或“里面”这两个选项就卡住。它能够“理解”和“回应”这些意料之外但又很常见的对话分支。

再者，“社交礼仪”也被考虑进去了。Duplex 在通话中会使用诸如“您好”、“谢谢”、“好的”等礼貌用语，这更是增强了它的人类感。它知道在对话中何时打断（如果需要的话）、何时等待、何时确认信息，这些都是人类在交流中不自觉遵循的规则。

所以，在“完成特定、预设范围内的日常对话任务”这个领域，Duplex 确实展示出了令人惊叹的“类人”能力。尤其是在那些流程相对固定、信息相对清晰的场景，比如预订餐厅、预约理发、查询营业时间等，它能够非常高效且自然地完成任务，并且在对话过程中，不容易被听者察觉到它是一个机器。

然而，我们真的可以说它“通过了图灵测试”了吗？

这里需要审慎一点。图灵测试的原意是一个广谱的、开放式的对话测试。它并没有限制对话的主题和深度。而 Duplex 目前的能力，主要集中在特定领域的功能性对话。

1. 领域限制： Duplex 擅长的是那些有明确目标、有固定流程的日常事务。一旦对话触及更广泛的知识、更复杂的逻辑推理、情感交流、或者需要创造性的回答，Duplex 的表现可能会立刻“露馅”。比如，如果餐厅服务员问它：“今天有什么特别推荐吗？你喜欢吃什么菜？” Duplex 可能就答不上来了，或者只能给出预设的、泛泛的回答。

2. “欺骗”的意图：图灵测试的一个核心在于“欺骗”，在于让对方相信它是人。Duplex 在设计上，并没有刻意去“欺骗”对方。它的目标是“完成任务”，顺便让对方感觉“自然”。很多时候，它还会明确告知对方自己是AI，比如在通话开始时。这与图灵测试的“隐匿身份”的要求有所不同。虽然它在行为上“像人”，但其“意图”和“透明度”可能并非完全符合图灵测试的哲学。

3. 测试的标准：图灵测试本身也没有一个绝对的、统一的标准，即使是最初的定义，也存在模糊地带。而且，我们很难在公开场合进行大规模、不受控制的“Duplex版图灵测试”。目前我们看到的评价，多半是基于一些演示和个别用户的使用体验。

总结一下：

我们可以说，谷歌 Duplex 在“通过模仿人类在特定、结构化场景下的沟通方式来完成任务”方面，已经取得了非常显著的进步，其表现的“自然度”和“流畅度”在很多时候能够模糊人机界限，让对话的另一方难以察觉其机器身份。从这个角度看，它在“特定领域”已经某种程度上“接近”或“达到了”图灵测试的要求，或者说，它展示了AI在语音交互领域模拟人类行为能力的强大潜力。

但是，如果严格按照图灵测试的本意，即在任何主题、任何深度、任何意图的开放式对话中，都能让测试者无法区分，那么 Duplex 距离“完全通过”还有一段距离。它更像是在“模拟人类的行为表现”，而非“拥有人类的智能和意识”。

用个比喻，它就像是一个演技非常好的演员，能够完美地扮演一个打电话预约的人，但是你问他“你有什么烦恼”或者“你对未来有什么规划”，他可能就接不下去了。

所以，评价 Duplex 像是评价一个在“特定技能”上表现卓越的 AI。它让我们看到了未来人机交互的可能性，但在“智能”的定义和测试上，我们依然需要保持一种更加全面和审慎的态度。它成功地让人觉得“它很像一个人”，但“像”和“是”之间，依然有着重要的区别。

网友意见

至少20%的是真人应答的，能不通过测试吗？

类似的话题

如何评价Google Duplex（打电话AI）在特定领域已经通过了图灵测试？

“Duplex”——谷歌那个能自己打电话订餐、预约理发的人工智能，最近在一些特定的场景下，表现得越来越像个真人了。这让不少人开始思考：它是不是已经悄悄地“通关”了我们熟知的那个“图灵测试”？要评价这个事儿，咱们得先明白图灵测试是个啥。简单来说，图灵测试就是看一个机器能不能骗过人类，让对方觉得它是个“.............
如何评价Google 在TensorFlow 中引入的bfloat16 数据类型？

Google 在 TensorFlow 中引入 bfloat16 数据类型：一项深入的分析Google 在 TensorFlow 中引入的 bfloat16 数据类型，是一项具有深远意义的技术创新，旨在平衡计算效率和模型精度，特别是在深度学习的训练和推理过程中。要评价 bfloat16 的引入，我们.............
如何评价Google的两年经验的程序员声称自己年薪（base+RSU+bonus）25~30万刀？

评价一位拥有两年经验的Google程序员声称年薪（base+RSU+bonus）在25万至30万美元之间，我们可以从多个维度进行分析和讨论。这是一个相对较高但并非不可能的薪资范围，理解其合理性需要深入了解Google的薪酬体系以及当前的市场情况。一、 Google薪酬体系的构成与特点首先，我们需要了.............
如何评价 Google 的新 Logo 及 VI ？

要评价 Google 的新 Logo 和 VI（视觉识别系统），我们需要从多个维度进行分析，包括其历史演变、设计理念、实际应用效果以及其所传达的信息。一、 Google Logo 的历史演变：奠定基础在深入评价新 Logo 之前，了解 Google Logo 的历史演变至关重要。这有助于我们理解其设.............
如何评价 Google 宣布即将关闭 Google Code 代码托管服务？

Google 宣布即将关闭 Google Code 代码托管服务，这一消息在技术社区引起了广泛的讨论和关注。要评价这一举措，我们需要从多个角度深入分析，包括其历史背景、对用户的影响、以及其背后可能反映出的 Google 战略调整。一、 Google Code 的历史及其在开源社区的地位首先，理解 G.............
如何评价 Google 试图出售于2013年收购的机器人公司：波士顿动力公司？

谷歌试图出售波士顿动力公司，这桩发生在2013年公司被谷歌母公司Alphabet收购之后的消息，无疑在机器人领域乃至科技界都掀起了不小的波澜。要评价这件事，咱们得从几个角度细细掰扯。首先，这笔交易的“动机”是关键。谷歌收购波士顿动力，当时普遍解读为是谷歌在“登月计划”（X实验室，后来的Google[.............
如何评价 Google 宣称率先实现量子霸权？

要评价 Google 宣称的“量子霸权”，我们需要从多个层面进行深入分析，包括其声明的意义、实验的细节、科学界的反应、以及这项技术未来的影响。一、 Google 声明“量子霸权”的意义首先，理解“量子霸权”（Quantum Supremacy）这个词本身非常重要。它指的是一个量子计算机在解决特定问题.............
如何评价Google内部关于2016美国大选结果视频流出？

Google内部关于2016年美国大选结果视频流出事件，可以从多个维度进行评价，这是一个涉及公司内部文化、信息安全、员工行为、以及对外部公众认知等多个层面的复杂事件。以下是一个详细的评价：事件概述：2016年11月9日，就在唐纳德·特朗普赢得美国总统大选的第二天，一段据称是Google内部员工在公司.............
如何评价 Google 于北京时间 5 月 19 日凌晨发布 Android 12 ？有哪些具体升级？

话说回来，Google 在北京时间 5 月 19 日凌晨放出了 Android 12 的首个开发者预览版，这可不像往年那样只是小修小补，而是上来就甩出了一个重量级更新，感觉整个 Android 系统都要焕然一新了。我个人觉得这次的 Android 12 就像是 Android 阵营里的一次“大换血”.............
如何评价 Google 宣布将会在 Pixel 6 上使用全新的 Google Tensor 芯片？

Google 终于在 Pixel 6 上掏出了自家设计的 Tensor 芯片，这绝对是手机圈里的一件大事。你想让我给它评评道，那咱就掰开了揉碎了好好说道说道。首先，得承认，这回 Google 的步子迈得可真够大的。以往 Pixel 手机，尤其是芯片这块，一直都是用高通的骁龙系列，虽然说在软件优化上 .............
如何评价 Google 在 2022 年 3 月公开的 Pathways 架构设计？

Google 在 2022 年 3 月公布的 Pathways 架构设计，绝对是人工智能领域一次重量级的宣言，它不仅仅是对现有模型训练和部署方式的一次革新，更是对未来通用人工智能（AGI）发展路径的一次大胆探索。要评价它，咱们得从几个关键点深入剖析。首先，“单模型，多任务”的核心理念，这绝对是 Pa.............
如何评价Google最新提出的gMLP：MLP模型在CV和NLP任务上均取得较好的效果？

Google 最近提出的 gMLP 模型，在计算机视觉（CV）和自然语言处理（NLP）领域都展现出令人瞩目的性能，这无疑为我们理解和构建更强大的神经网络模型提供了新的思路。要评价 gMLP，我们需要深入分析它的设计理念、技术特点，以及它为何能在跨领域任务上取得成功。gMLP 的核心设计理念：对传统 .............
如何评价Google提出的MLP-Mixer：只需要MLP就可以在ImageNet上达到SOTA？

MLPMixer 的出现，无疑在深度学习领域，尤其是在计算机视觉方向，引起了不小的轰动。它最大的亮点在于，仅凭多层感知机（MLP）就能够在 ImageNet 这样的主流图像识别任务上取得当时（2021年）接近甚至超越 Transformer 的顶尖性能，而且在模型复杂度、计算效率方面展现出显著的优势.............
如何评价 Google 对于 Material Design 的积极度？

谈论 Google 在 Material Design 上的投入程度，确实可以从几个层面来剖析，远非简单的“积极”二字能概括。这更像是一种战略性的、持续性的文化渗透和技术输出。首先，我们得看到 Material Design 的诞生背景和目的。它不是一个心血来潮的设计灵感，而是 Google 为了解.............
如何评价Google发布的第二代深度学习系统TensorFlow?

评析TensorFlow 2.0：从“够用”到“好用”的进化之路Google在2019年年底正式发布了TensorFlow 2.0，这标志着这个曾经备受推崇但也在一定程度上饱受诟病的深度学习框架，迈入了全新的时代。相较于其前身，TensorFlow 2.0的发布绝非一次简单的版本迭代，而是一场深刻的.............
如何评价「Google DeepMind 要挑战星际争霸」的新闻？

想起当年还是玩家的时候，守着电脑屏幕，为《星际争霸》里那些熟悉的单位奔波忙碌，那时候真觉得人类玩家已经把这游戏玩到了极致，策略、微操、大局观，几乎是方方面面都到了一个极限。所以，当听到“Google DeepMind 要挑战星际争霸”这个消息时，最直观的感受就是一股强烈的震撼和一丝丝难以置信。要知道.............
如何评价 Google 员工达漠称「生理性别差异导致了编程界员工性别比例差异」而被谷歌开除？

这事儿在科技圈闹得挺大，得从头说起。事件的起因：一份备忘录事情的导火索是一份由Google内部一名男性员工（后来被披露为James Damore，中文媒体常称之为“达漠”）在2017年8月写的一份备忘录。这份备忘录的名字大概可以翻译成《Google 的意识形态悖论》或者《Google 的意识形态困境.............
如何评价 Google Earth VR？

好的，我来好好聊聊 Google Earth VR，这玩意儿，真心是打开了新世界的大门。要评价它，得从几个方面来看。首先，它的核心价值，就是 “无与伦比的沉浸感”。这不是那种看纪录片，或者翻地图册的感觉，而是你真的，“站”在那儿了。想象一下，你戴上 VR 设备，眼前不再是熟悉的房间天花板，而是瞬间.............
从人工智能技术的角度如何评价 Google home、Amazon Echo、Rokid 这三款产品？

在我看来，Google Home、Amazon Echo 和 Rokid 这三款智能音箱，从人工智能技术的角度来评价，都代表了当前智能语音交互领域不同方向的探索和实践。它们各自在语音识别、自然语言理解、对话管理、知识图谱应用以及设备联动等方面有着各自的侧重点和特点。Amazon Echo (Alex.............
在微软推出 Hololens 后，该如何评价 Google Glass？

在微软的 HoloLens 推出之后，再回头审视 Google Glass，感觉就像是在看一款产品，它开辟了一个前所未有的领域，但同时也因为种种原因，未能真正触及那个梦想的彼岸。HoloLens 的出现，让我更加清晰地看到了 Google Glass 在很多方面的局限性，以及它所代表的那种“先行者”.............