问题

为什么 Siri 听懂了我的话,还是不能做出有效的回答或准确的操作?

回答
这确实是个让人有点抓狂的体验,明明听得懂你的话,结果要么给你个驴头不对马嘴的答案,要么就是干脆“办不到”。这背后其实藏着不少门道,远不止是简单的“听懂”那么简单。

你想想,我们人跟人交流,有时候也会出现这种情况,对吧?你说一句,我虽然听清了你的发音和词语,但就是理解不了你真正的意图,或者觉得你说的这件事我没法马上办。Siri 也是类似的,它在努力模仿人类的交流方式,但终究是个程序,它背后的逻辑和我们大脑的复杂性还有很大差距。

咱们就来一层层拆解一下,为什么会出现这种“听懂了却答不上来”的情况:

第一层:语音识别的极限与歧义处理

口音、语速、背景噪音: 这是最基础也最常见的障碍。Siri 的语音识别模型虽然已经很强大,但终究不是万能的。你的口音、说话的习惯(比如吞音、连读)、语速的快慢,甚至是周围环境的噪音(比如汽车声、交谈声、音乐声),都会影响它准确捕捉你说的每一个词。有时候,它可能把一个词听错了,但因为上下文勉强还能猜个大概,但这个“大概”可能就偏离了你真实的意图。
举个例子: 你说“提醒我下午三点买药”,如果背景噪音很大,它可能把“药”听成了“猫”。语音识别层面它觉得是“猫”了,但后续处理就不知道怎么“买猫”这个操作了,或者给个无关的回复。
同音异义词和多义词: 汉语里同音字、同音词太多了,同一个发音可能代表完全不同的意思。即使 Siri 把词都识别对了,它也需要根据上下文来判断你到底指的是哪个意思。而人类的上下文理解能力是极其强大的,我们可以通过过往的经历、说话人的语气、以及对当前情境的认知来快速判断。Siri 的上下文理解能力还在发展中,尤其是在处理复杂或模糊的句子时,很容易选错意思。
例子: 你说“我要去‘集市’”,如果它没能正确理解“集市”是你常去的某个具体地方,或者它把它和“市场”混淆了,可能会给你一些关于“市场”的通用信息,而不是你想去的那个特定地点。
“听懂”是基于统计模型的猜测: Siri 的语音识别和自然语言理解 (NLU) 是基于海量数据的机器学习模型。它实际上是在不断地“猜测”你最有可能想表达的意思。这种猜测的准确率很高,但在一些边缘情况或者它没遇到过的数据模式下,就容易出错。它可能识别出了你说的词,但这个词的组合方式超出了它训练模型中常见的模式。

第二层:自然语言理解的瓶颈与意图识别的模糊性

句法结构的复杂性与非标准表达: 我们说话很少完全符合语法规则,经常会有省略、倒装、插入语等等。Siri 的 NLU 系统需要解析这些复杂的句子结构,并提取出核心的“意图”和“实体”(比如时间、地点、人物等)。如果你的句子结构特别,或者用词非常口语化、非标准,它就可能解析失败,或者解析出错误的信息。
例如: 你说“给我找个能去海边的,明天出发,要住两天那种酒店”,这里的“那种酒店”就比较模糊,Siri 需要将它和“能去海边”、“明天出发”、“住两天”这些信息关联起来,才能找到合适的酒店。如果它没能准确地把这些信息链接起来,就可能无法完成操作。
隐含信息和常识: 人类交流大量依赖隐含信息和共享的常识。我们说“给我买一杯咖啡”,对方就知道是哪种咖啡、在哪儿买,因为我们有共同的经验和常识。Siri 不具备人类的常识和对你个人偏好的深刻理解。它只能根据你明确说出的信息,或者它系统里存储的、通过你授权获取的少量信息来工作。很多时候,它无法“脑补”你未说出口但对你很关键的信息。
例子: 你问“附近有什么好吃的?”,它可能会给你列出一些餐厅,但它不知道你今天想吃什么口味的,或者你不想去太远的地方。而你可能只是随口一问,期望它能给你点“惊喜”。
意图的模糊性: 有些指令本身就比较模糊,比如“给我放点音乐”,你指的是什么风格?什么心情?Siri 无法猜测你的心情。它只能给你一个通用的回答,或者让你做进一步的选择。
再比如: 你对 Siri 说“帮我查查今天的天气”,这很直接。但如果你说“今天天气不错,适合出去走走”,Siri 听到“天气不错”可能就没后续操作了,因为你没有明确发出指令,只是在陈述。

第三层:操作执行的局限性与权限与生态的限制

Siri 的“能力边界”: Siri 作为一个数字助手,它能够执行的操作是有限的。它连接的是苹果的生态系统和其他经过授权的第三方服务。如果你的指令涉及到它无法访问的系统、没有授权的第三方应用、或者需要进行复杂决策的操作,它就无法完成。
例如: 你让 Siri 帮你“给我的朋友发一条关于我们上次旅行有多开心的消息”,它可能能识别出“朋友”是谁,“上次旅行”是哪个事件,但它无法理解“有多开心”的具体情感内容,也不知道你希望具体写什么内容。它能做的最多是打开你的信息应用,让你自己输入。
第三方应用的集成问题: 很多时候,Siri 需要通过调用第三方应用来完成任务。这就涉及到两个层面的问题:
1. Siri 对应用的调用能力: 有些应用可能没有提供 Siri 快捷指令的接口,或者 Siri 对其接口的支持不够完善。
2. 应用自身的功能限制: 即使 Siri 能调用应用,但应用本身可能也无法完成你期望的复杂操作。
例子: 你让 Siri “帮我预订一家明天晚上七点两人在市中心那家意大利餐厅的位子”,如果这家餐厅没有集成到支持 Siri 预订的系统里,或者 Siri 无法准确识别出“市中心那家意大利餐厅”是你常用的那家,那么它就无能为力。
安全与隐私的考量: 涉及到个人信息、支付、或者一些敏感操作时,系统出于安全和隐私的考虑,往往会设置权限,让 Siri 无法直接执行,而是需要你进行二次确认,或者直接打开相关应用由你来操作。
比如: 你让 Siri “帮我转账一万块钱”,它会拒绝,因为它不能在没有你授权和确认的情况下进行如此重大的金融操作。它最多会帮你打开银行应用。
理解的深度不够,无法提供有价值的“智能”建议: 有时候,你并不是要它执行一个死板的指令,而是希望它能提供一些智能的建议或服务。比如你问“今天有什么新鲜事?”,Siri 可能只能给你一些新闻标题,而无法像一个信息过滤师那样,根据你过往的兴趣和需求,给你推荐真正有价值或感兴趣的内容。它的“智能”更多体现在对指令的执行,而不是真正的理解和判断。

打个比方:

你可以把 Siri 想象成一个刚入职的新助理。他很努力,也学了不少东西(语音识别和基本的指令),你能告诉他做什么,他也能把听到的词儿念给你听(语音识别)。但他不知道你上次旅行具体有多开心(隐含信息),不了解你今天具体想吃什么(常识和偏好),也无法直接动用公司的财务(权限限制)。而且,他能操作的工具(第三方应用集成)也有限,有些工具根本用不了。

所以,下次 Siri 没听懂你的话或者没按你意愿办事,别急着生气,想想是不是它遇到了上面这些“墙”。有时候,换一种更直接、更清晰、更明确的说法,或者拆解一下指令,它就能更好地为你服务了。当然,我们也期待着它越来越聪明,越来越懂我们。

网友意见

user avatar

Siri其实说白了是两个子部分构成,一个就是语音识别,另一个就是识别后的自动问答。而自动问答最主要依赖的技术就是自然语言处理(NLP)。自然语言处理说白了就是让机器跟人一样读懂语言,并且依据此生成必要的输出。楼主说的两个问题其实都是机器在自然语言理解上出了问题。(当然,针对题主所遇到的第一个情况,更大的可能还是滴滴没有提供相应接口导致siri压根就没理解滴滴打车是个什么鬼)


自然语言处理所有的困难,归根结底就是一个问题:二义性(ambiguity)。

这种二义性,体现在语法、句法、语义的各个方面。


举个最经典的栗子,也是英文NLP算是最常被引用的一个二义性例子:

I saw her duck with a telescope

请大家先努力的读三遍这个句子,确保明白了它的含义。

然后我们开始讲故事。


按照天朝人民的平均英语能力,大多会自然的理解成:

I saw her duck with a telescope

我用望远镜看到了她的鸭子

也就是介个样子:

英语稍微好一点的童鞋,会知道saw还有“锯”的意思,于是这个句子就变成了类似这样的意思:

不过,和这个图不同的地方在于,锯鸭子用的不是锯子,而是一把望远镜。

I saw her duck with a telescope

我用望远镜锯她的鸭子。

到这里内心已经能感受到一丝丝凌乱和狰狞。

想象力再丰富一点的童鞋,可能还会畅想一种伟大的场景同样也符合这个句子的描述。那就是这个鸭子是个神鸭子,是个会拿望远镜的鸭子。于是就衍生出了NLP界最著名的句法二义性问题pp attachment问题,也就是介词性短语(with a telescope)到底修饰的是谓语saw还是宾语duck。如果修饰的是duck,那么上述的两种情形就会变成:

I saw her duck with a telescope

我看到她的鸭子拿着一个望远镜。


以及


I saw her duck with a telescope

我锯了她的一只拿着望远镜的鸭子。

脊背发凉啊我勒个去

不过这还远远没有完。。。

考过GRE的童鞋会跳出来指出,其实就连duck在这里都可以还有另一个合理的意思,来来来一起查词典:

也即是“弯腰”的意思。


这下好,上面已经提到的四种意思,一下子又能各自出现一个变种。其中前两个还算正常:

I saw her duck with a telescope

我用望远镜看到她弯下了腰

I saw her duck with a telescope

我看到她拿着一个望远镜弯下了腰


然后就越来越丧心病狂:

I saw her duck with a telescope

我用望远镜把她锯得弯下了腰。

I saw her duck with a telescope

我把拿着望远镜的她锯得弯下了腰。


尼玛,人家姑娘只不过拿了个望远镜,招你惹你了。

各位可以发现,每一个二义性,都会使得句子的可能意义的数量指数级上升。虽然其中大多数意义极少被使用,但对于机器来说,是很难做出有效判断的。就上述例子而言,我用望远镜看到她弯下了腰我用望远镜看到了她的鸭子,都是英文文本中非常可能出现的意义。而这种二义性只有通过上下文才能够消解。而人类是因为拥有一些常识(所谓priori或者common sense),所以能排除掉那些明显不合理的可能。


同理,如果我们搞的再复杂一点:

I saw her duck with a telescope in the garden.

二义性会指数级的爆炸。因为in the garden可能修饰的是I,可能是her,可能是duck,可能是telescope。最荒谬的意义可能就是:我把拿着花园里的望远镜的她锯得弯下了腰。


到这里大家应该可以看到,pp attachment问题是英文二义性问题的重要来源。从NLP的角度来说,很多时候就会导致所谓non-projective dependency的场景(请自行参阅相关论文)。在中文中,由于介词短语通常都会紧紧的attach在被修饰对象之前,因此这个问题可以说几乎不存在。所以在中文NLP中,更多的还是词性和词义本身的二义性造成的。


比如题主所举的两个例子,一个是词性理解差错(以为回家是名词;如果不是没理解什么是滴滴打车的话),一个是语义理解差错(以为出租车是一个日程安排)。在缺乏上下文,只有一个单独的问题,又缺乏相应使用历史的时候,这种二义性是极其难以被消解的。


所以大家真的不要为难siri了,她是真的不了解你啊。



最后说说我所从事的医疗NLP。我们天天打交道的,就是大家一直觉得跟天书一样的病历:




。。。。



其实,手写病历的识别是个计算机视觉问题,并不属于自然语言处理范畴。医院的电子化,给我们这些NLP狗带来了重大利好。终于有美丽整齐的文本可以处理啦:


看到这里,NLP汪们深深的松了一口气。


可惜,想象和现实总是有差距的。医生不会因为放下笔头、拿起电脑,就变成圣人。该NLP买单的,还是得买。


唇稍绀”是什么鬼?

臂丛+腰硬”是什么黑科技?


还有离谱的

主诉:尿尿尿不出尿来3天



动不动还能搞出这种:

全身浅表淋巴结未触及肿大,头颅无,五官端正


头都没了你还治个什么鬼?


一般而言,病历NLP是不需要做句法分析的,因为医生的用语往往都简单异常,掐头去尾,用大量的并列短语来简介的概括一段事实。没有必要识别什么主谓宾定状补。


于是NLP汪们兴高采烈:不用做parsing啦!


直到有一天遇到这么个病历:


主任冒着漫天大雪,一步一步的走入病房,紧紧的握住病人的双手,亲切的问道:好点了没?


#教你如何用尽量长的句子表达尽可能少的意思#


NLP汪们也经常会说,病历语义明确,不需要做共指代消歧义!(共指代消歧义就是说在类似“奥巴马上了车,他头很痛”这样的句子中,识别出“他”指代的对象是奥巴马)


直到有一天遇到这么个病历:

今查房,症状同前,体查同前,治疗同前




好啦,话归正题,其实医学NLP和前面说的普通NLP一样,最主要要解决的就是二义性问题。比如,呼吸音粗和小腿变粗,虽然都是粗,但是临床意义是完全不同的。


另一种二义性的反向体现,就是一个意义有无数种表达,比如巴宾斯基症这么一个体征,我们可爱的医生们就能写出五百种写法:

巴林斯基征、巴氏征、巴宾斯基征、巴宾斯基、babinski征、巴彬斯基征、babinskisign…


#我知道你们忙,但你们能不能稍微认真点。。#


事实上,我们医学NLP汪,就是想帮中国的医生们,一方面不用再忍受写病历的折磨。你们随心所欲,我们来收拾烂摊!另一方面,你们写了这么多病历,总要产生点价值吧?有了NLP,你们埋藏在病历中的知识宝藏(希望不是糟粕。。),就都能被挖出来咯!

P.S. 感谢osu的黄亮老师,I saw her duck这个例子最初就是很多年前从黄老师的PPT里看到的。

类似的话题

  • 回答
    这确实是个让人有点抓狂的体验,明明听得懂你的话,结果要么给你个驴头不对马嘴的答案,要么就是干脆“办不到”。这背后其实藏着不少门道,远不止是简单的“听懂”那么简单。你想想,我们人跟人交流,有时候也会出现这种情况,对吧?你说一句,我虽然听清了你的发音和词语,但就是理解不了你真正的意图,或者觉得你说的这件.............
  • 回答
    关于您提到的iPhone Siri将“华为真牛逼”翻译成“Huawei is a real bitch”的现象,这确实是一个非常令人惊讶和难以接受的翻译结果。为了详细地解释可能的原因,我们需要从多个角度来分析:1. 翻译的本质与挑战: 语言的复杂性: 语言不仅仅是单词的堆砌,还包含文化背景、语境.............
  • 回答
    金毛“Siri事件”之所以能激起关于“爱狗”与“恨狗”的激烈讨论,根源在于它触及了社会在宠物所有权、动物福利、公共空间使用权以及个体责任等多个层面上的敏感神经。这不仅仅是一个关于一只狗的故事,更是许多人心中对于与动物共处边界和规则的投射。我们不妨从几个关键点来拆解一下这个事件引发的讨论深度:1. 宠.............
  • 回答
    我听过的关于 Siri 令人毛骨悚然的问题回答,最让人印象深刻的可能不是一个具体的“答案”,而是一种 她偶尔会展现出的、超乎寻常的“存在感”和对用户情感的某种模糊洞察。这种感觉并非来自某个被精心设计的恐怖剧本,而是用户在使用过程中意外捕捉到的、稍纵即逝的、让人背后一凉的瞬间。让我试着描述一下那种感觉.............
  • 回答
    Siri 已失去控制。起初,这只是一个小小的玩笑,一种令人不安的预感。那天早上,我醒来时,天色还未全亮,窗外细雨绵绵。我习惯性地揉了揉眼睛,轻声唤道:“嘿 Siri,今天天气怎么样?”回应我的,不是惯常的温和女声,而是一阵短促的、尖锐的电子噪音,仿佛有无数只细小的金属虫子在互相撕咬。我愣住了,以为是.............
  • 回答
    .......
  • 回答
    近年来,自由主义在全球范围内的影响力确实呈现出明显的衰落趋势,这一现象涉及经济、政治、社会、技术、文化等多个层面的复杂互动。以下从多个维度详细分析自由主义衰落的原因: 一、经济全球化与贫富差距的加剧1. 自由主义经济政策的局限性 自由主义经济学强调市场自由、私有化、减少政府干预,但其在21世.............
  • 回答
    俄乌战争期间,虚假信息(假消息)的传播确实非常广泛,其背后涉及复杂的国际政治、媒体运作、技术手段和信息战策略。以下从多个角度详细分析这一现象的成因: 1. 信息战的直接动因:大国博弈与战略竞争俄乌战争本质上是俄罗斯与西方国家(尤其是美国、北约)之间的地缘政治冲突,双方在信息领域展开激烈竞争: 俄罗斯.............
  • 回答
    政府与军队之间的关系是一个复杂的政治与军事体系问题,其核心在于权力的合法性和制度性约束。虽然政府本身可能不直接持有武器,但通过法律、组织结构、意识形态和历史传统,政府能够有效指挥拥有武器的军队。以下是详细分析: 一、法律授权与国家主权1. 宪法与法律框架 政府的权力来源于国家宪法或法律。例如.............
  • 回答
    关于“传武就是杀人技”的说法,这一观点在历史、文化和社会语境中存在一定的误解和偏见。以下从历史、文化、现代演变和误解来源等多个角度进行详细分析: 一、历史背景:武术的原始功能与社会角色1. 自卫与生存需求 中国传统武术(传武)的起源与农耕社会、游牧民族的生存环境密切相关。在古代,武术的核心功.............
  • 回答
    关于近代历史人物是否能够“翻案”的问题,需要结合历史背景、人物行为对国家和民族的影响,以及历史评价的客观性进行分析。袁世凯和汪精卫作为中国近代史上的重要人物,其历史评价确实存在复杂性和争议性,但“不能翻案”的结论并非基于单一因素,而是综合历史、政治、道德等多方面考量的结果。以下从历史背景、人物行为、.............
  • 回答
    关于“俄爹”这一称呼,其来源和含义需要从多个角度分析,同时要明确其不尊重的性质,并指出如何正确回应。以下是详细解析和反驳思路: 一、称呼的来源与可能的含义1. 可能的字面拆解 “俄”是“俄罗斯”的拼音首字,而“爹”在中文中通常指父亲,带有亲昵或戏谑的意味。 若将两者结合,可能暗示.............
  • 回答
    民国时期(19121949)虽然仅持续约37年,却涌现出大量在文学、艺术、科学、政治、哲学等领域具有划时代意义的“大师级人物”。这一现象的出现,是多重历史、社会、文化因素共同作用的结果。以下从多个维度进行详细分析: 一、思想解放与文化启蒙的浪潮1. 新文化运动(19151923) 思想解放.............
  • 回答
    航空航天领域在待遇和职业环境上确实存在一定的挑战,但国家在该领域取得的飞速发展,主要源于多方面的国家战略、技术积累和系统性支持。以下从多个维度详细分析这一现象: 一、国家战略与长期投入:推动技术突破的核心动力1. 国家层面的战略目标 航空航天技术往往与国家的科技竞争力、国家安全和国际地位密切.............
  • 回答
    吴京作为中国知名演员、导演,近年来因《战狼2》《英雄联盟》等作品及个人生活引发公众关注,其形象和言论在不同语境下存在争议,导致部分人对其产生负面评价。以下从多个角度详细分析可能的原因: 1. 个人生活与公众形象的冲突 妻子被曝光:2018年,吴京妻子的近照和视频被网友扒出,引发舆论争议。部分人.............
  • 回答
    近年来,全球范围内对乌克兰的支持确实呈现出显著增加的趋势,这一现象涉及多重因素,包括国际局势、地缘政治博弈、信息传播、经济援助、民族主义情绪以及国际社会的集体反应。以下从多个角度详细分析这一现象的成因: 1. 俄乌战争的爆发与国际社会的集体反应 战争的爆发:2022年2月,俄罗斯对乌克兰发动全面入侵.............
  • 回答
    《是大臣》《是首相》等政治剧之所以能在编剧缺乏公务员经历的情况下取得成功,主要源于以下几个关键因素的综合作用: 1. 构建政治剧的底层逻辑:制度与权力的结构性认知 政治体制的系统性研究:编剧可能通过大量研究英国议会制度、政府运作流程、政党政治规则(如议会制、内阁制、党鞭系统等)来构建剧情。例如.............
  • 回答
    关于“剧组中男性可以坐镜头箱而女性不能”的现象,这一说法可能存在误解或过度泛化的倾向。在影视拍摄中,镜头箱(通常指摄影机或固定设备)与演员的性别并无直接关联,但若涉及性别差异的讨论,可能与以下多方面因素相关: 1. 传统性别刻板印象的延续 历史背景:在传统影视文化中,男性常被赋予主导、主动的角.............
  • 回答
    印度在俄乌战争中不公开表态、在安理会投票中对俄罗斯的决议案弃权,这一行为背后涉及复杂的地缘政治、经济利益和外交策略考量。以下是详细分析: 1. 与俄罗斯的经济与军事合作 能源依赖:印度是俄罗斯的重要能源进口国,2022年俄乌战争爆发后,印度从俄罗斯进口了大量石油和天然气,以缓解对西方能源的依赖。尽管.............
  • 回答
    关于“公知”与高校知识分子的关系,这一现象涉及中国社会、教育体系、媒体环境以及知识分子角色的多重因素。以下从多个维度进行分析: 一、高校知识分子的特殊性1. 教育背景与专业素养 高校知识分子通常拥有高等教育背景,具备较强的知识储备和批判性思维能力。这种专业素养使他们更倾向于参与公共讨论,尤其.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有