百科问答小站 logo
百科问答小站 font logo



如何评价 2015 版的 Magi 搜索引擎? 第1页

  

user avatar   ji-yi-chao 网友的相关建议: 
      

2019 年更新 (找回我的知乎账号啦!):

经过多年的发展积累,Magi 逐渐把重心从搜索转移到了更有价值且更具挑战性的开放领域信息抽取,特此更新以示区分。请移步新的回答:

以下为 2015 年关于当时的 Magi 项目的原回答,从 2019 年穿越来的朋友可以感受下那个深度学习还未爆发的时代哈哈:


感谢大家的测试和关心,也感谢各位友人前辈能看完我这废话连篇的文章!

不知道 Magi 的朋友可以看这个短短3分钟的介绍视频:Magi by Peak Labs,最近就开始 beta 了。本着不软文的原则,我不放产品地址,也不呼吁大家来 apply for beta,我也保证不在今后任何推广中提及本帖和视频的数据、影响、反馈。

Magi 一词源于《圣经》马太福音 (Magi 原读作/ˈmædʒaɪ/,为区分所以产品读作/'mædʒɪ/或/'mægɪ/)。马太福音中, 东方三贤士 Caspar、Balthasar、Melchior 合称 Magus (即波斯文中的 Magi),分别代表神所造万物、普世观念、万主之主的法则 —— Magi 搜索引擎凭借与之对应的知识图谱、概率统计、神经网络三种工具 (文章后半部分有说明), 模拟人类求索的三大要素: 事实、舆论、直觉。当然,如果你也是个宅的话,一定知道动画《Evangelion》中也有 Magi,虽然设定略有不同,但对我们的启发很大,何况这个设定如此带感哈哈。





看此贴的应该多是专业人士或业内朋友,所以无需我多费口舌介绍。主要发散性地解答常被问到的一个问题:Magi 和 Wolfram Alpha、IBM Watson 有什么异同?


Alpha 和 Watson 是我个人十分佩服的产品,相较之下 Magi 才刚刚上路,成熟度有差距。我个人更是不敢妄下任何优劣结论,只以一个心怀尊敬的晚辈的角度来讲讲。毕竟从产品设计角度来说,异同明确:


相同之处——定位类似,都是围绕数据和逻辑的基础服务。


三者都是严肃的知识逻辑引擎服务,用流行的话说叫“认知计算”。它们不是娱乐向的问答机器人,对于无法回答的问题,无论是 Alpha 还是 Magi 都不会回复你一个抠鼻子的表情;也不是个人助理,不会帮你设闹钟或唱歌讲笑话;也不是 Web App 入口或框计算,不会有非统一的结果呈现,也几乎没有人工定向优化介入 (至少 Magi 是这样, Alpha 大量基于独有的专家数据),所有输入都利用在本地的数据用统一的表达结构和自动化的逻辑处理生成输出,额,就是这么拗口...


事实上,这类基础服务是很多智能产品所必需的。如 Siri 中的科学计算就是使用 Wolfram Alpha,而 Magi 能让这些助理和机器人更聪明更全面,对于更多非预设的通用问题能够直接给出答案,而非 “下面是关于【有哪些茅盾文学奖得主】的网页”。语音助手需要考虑很多垂直细分领域和人性化功能,比如 LBS 服务、加日历设闹钟,而 Magi 则专注于非垂直的东西,即通用数据和逻辑 (详见下文差异部分)。我们从一开始就是以做服务的思想规划产品,这就是为什么我们自己不做语音助手,甚至 Magi 的网页、图片搜索都不提供翻页按钮。Magi 本身有多少用户我们不太在意,更有成就感的是让 Magi 成为无处不在的台前或幕后英雄。事实上,早在公布前 Magi 就已经悄悄与一些大大小小的产品展开合作,甚至有的已经上线服务几百万用户数个月了,我们将在合作方同意的前提下陆续公布出来一些 ;-)


我相信以后的泛 AI / 弱 AI 领域将会很细分。有一天,当人脑对电脑的生物接口(脑机接口)足够成熟时,这些零散的产品将一同颠覆人类的教育和认知过程,想象一下:每个人从有自我意识开始,就能借助体内植入的芯片和长效电极,通过思考从 Magi 获得知识和逻辑结果。那时,孩子们永远不用背《唐诗三百首》了,因为谁都会,老师只要教学生做人和使用这些知识即可。现在,每个人都用至少12年的基础教育来学习和重复前人的知识与经验,而在未来,也许只需要6年就够了!就算省下来的6年智力活跃期没用来探索前人未入之境,谈谈恋爱也是极好的。又比如,学习演奏吉他时,耳朵试听到和弦的声音波形,上传到 Alpha 进行傅里叶变换,得到音高成分后通过 Magi 获得对应指法,最后直接刺激神经让手指精确地按下琴上的品位...... 如果让我再进一步展开想象,以后不仅知识是共享的,人脑的闲置资源也可以共享,做到“脑联网” (我瞎编的词,还蛮cool呢):比如我在看动画休闲时,我左脑的一部分就可以临时短路掉,并“租”给需要的公司兼职写程序。甚至,可以用脑子的一部分资源,与他人的一部分形成临时的统一行为体:比如我闲置的设计能力可以跟A闲置的编程能力和B闲置的写作能力生成一个组合的“人”去 Peak Labs 当产品经理。但愿我能活到这 Stand Alone Complex 的一天,如果没活到的话,死后就把我的脑子装到卫星里,发射到太空做云计算吧,我通过“脑补”来给大家提供各种去马赛克服务,做到真正的“透明计算”;还能通过“脑放”来让你的小米活塞化身 K3003, 括弧笑。


不同之处——要解决的问题不同、背后的技术方法不同。


Technically,这三者是的前端逻辑相似,但数据采集和处理方法不同:


Wolfram Alpha 是计算性引擎 (Computational Engine) + 权威的人工整理的数据。Alpha 对科学计算的能力十分强大,这源于它背后强大的专业数据和 Mathematica、Wolfram Language的深厚积累。但也因此,Alpha 的覆盖面比较垂直,对更多广泛的、接地气的东西无从处理,毕竟数据源不同。而 Magi 是使用爬虫的,除了少数垂直数据源接入,都是来自网络 (新闻、论坛、问答、Wiki 等等),通过我们开发的文本/超文本转结构化信息片段抽取修正模型 (Flat Text to Structuralized Chunk) 和多来源交集消歧来获得较为可靠的知识,只需初期一定量的配置,即可做到后期 unsupervised 的增长和纠错,可以说是一生二,二生三,三生万物。所以与Alpha 不同,Magi 能覆盖哪些东西,不是我们说的算,而是网络和数据说的算。我也必须承认这种模式带来的弊端,即时效性和可靠性权衡困难:目前 Magi 大概有几天左右的信息滞后,这是为了从多个来源收集足够的佐证 (新闻或事件要转载开来也是需要时间的),也让那些大规模出现的谣言冷却并淘汰从而避免污染主数据库 (比如xxx死了这种日常假新闻)。虽然信息时效性尚有不足,但 Magi 的处理实时性设计指标要比 Alpha 和 Watson 高,因为 Magi 是可以作为搜索引擎使用的,响应速度和并发能力要跟网页搜索部分不相上下,疾如岛风!


恩,我们未来也会为 Magi 赋予更强大的科学计算能力,但目前还是优先服务好大众用户。另外值得一提的是,Alpha 和 Mathematica 之父——Stephen Wolfram 的一个观点: “不需要造出通用AI”。事实上,上述三个产品没有一个是真正狭义的“人工智能”,都是取巧的办法。另外,我对 AI 二字也是心存敬畏+怀疑的复杂态度,我们在连生物智慧都尚未搞明白的当下,“人工智慧”却来得如此名正言顺而又情理之外。自主和自动的界限到底在哪里?总之,在一切还尚无定论前,现在的 AI 只是把客观规律性发挥到极致从而伪装出来的假的主观能动性。有学界预测说2025年-2040年会出现强人工智能?这已超出我的专业范畴,我和大家一样拭目以待!


啊又扯远了。。。回归正题说说 Watson ~


Watson 现在是 IBM 商业解决方案编制,我没体验过,所以只能讲讲参加 Jeopardy 时的那个 Watson 给我带来的思考。首先不得不感慨英文真是 NLP friendly 啊,自带空格、5W1H、时态明确、句式规范,君复何求!用那个脍炙人口的经典问题来说:“When 60 Minutes premiered, this man was the U.S. President.”,假如我们要做一个专门回答这类问题的程序,怎么做最方便?四个关键:疑问词、量纲、三元组、填空,然后请自行领悟~ 简单粗暴但弊端也显而易见——对问题和数据的规范性要求较高。这就是为什么 Magi 现在要用三种方法同时处理一个问题:Magi 将每一个输入问题都分发到标准知识图谱、概率统计、神经网络这三种不同的策略,各有优先级,冲突时进行投票,最后才呈现给用户。可以看文章上面截图中的三个例子,其实标准知识图谱也能响应第二个关于暴雪娱乐的问题,只是其结果是概率统计结果的子集或真子集,但它并不是无意义的,因为它肯定了统计结果。同理,(就我的经验和理解) 神经网络和狭义的 Deep Learning 适合处理连续的感知, 而不适合独立去处理离散的逻辑,但是除了适合它的特定问题外 (图3),它的结果在更大的系统内也是有决策价值的。我们还从 Watson 身上学到了很重要的一点,就是容忍自然语言中的众多歧议,比如下面截图中这个看起来很简单的例子。《刀剑神域》同名对象可存在多种歧议,爬虫获取新闻或网页文本后,提取算法根据上下文决定 domain 和深度。Domain 的准确性和丰富性是至关重要的,否则 Watson 就无法处理好 tricky 的 “60 Minutes”。我们开发 Magi 的大部分时间都花在了 domain 的自动派生和修正算法上,因为它贯穿数据采集、索引、查询三端,更是不依赖人工编辑 / UGC 的可持续发展方法。



总结来说,Alpha 的精髓在计算知识,Watson 的精髓在信息处理,Magi 的精髓在数据学习。可以说,Magi 的核心就是“用 / 信息 / 修正 / 信息提取算法 / 的算法”。哦对,Magi 还有一个重点就是中文!Alpha 和 Watson 都是英文的,Magi 是中文的。别笑,这个真的区别很大。还是那个道理,假如中文自带空格+5W1H的话,我的天空星星都亮了,都亮了,亮了,了。

就先说这么多吧,以后想到什么就补充 ;-)




  

相关话题

  NLP文本分类的本质是不是其实是找相似,对于要分类的句子,在训练集里找最相似的句子? 
  2020-2021年NLP有什么核心技术的更迭吗?或者有什么推动领域发展的paper吗? 
  如何看待华为 4 月 25 日发布的盘古智能大模型?在这个行业处于什么水平? 
  硕士方向,选择迁移学习还是自然语言处理? 
  如何看待2021年秋招算法岗灰飞烟灭? 
  2020-2021年NLP有什么核心技术的更迭吗?或者有什么推动领域发展的paper吗? 
  深度学习中,模型大了好还是小了好呢? 
  Bert中的词向量各向异性具体什么意思啊? 
  cv/nlp等方向的就业困难是全球性的吗? 
  有哪些特殊的搜索引擎? 

前一个讨论
《哈利·波特》中有哪些有趣的冷知识?
下一个讨论
颜值比较高的日本女明星有哪些?





© 2024-06-02 - tinynew.org. All Rights Reserved.
© 2024-06-02 - tinynew.org. 保留所有权利