百科问答小站 logo
百科问答小站 font logo



如何评价 2021 年 12 月新改版的知识引擎 magi.com? 第1页

  

user avatar   ji-yi-chao 网友的相关建议: 
      

利益相关:Magi 开发者。本文将分段陈述我们这两年的工作进展,讲解其中的亮点和不足之处。为求通俗易懂本文仅涉及少量技术细节,关注技术的朋友可将本文视作后续更深入的文章的索引。由于本文撰写于知乎评论功能暂停期间,如果您有任何建议或疑问欢迎直接联系我们~ 根据目前的反馈,我们还整理了一份常见问题与解答:


2019 年底,Magi 项目突然火了,但我们没有跟进更多的宣传活动。事实上,当时的 magi.com 并不是作为一款满足普通用户日常使用的 “搜索引擎” 而设计的,所以看到用户和媒体的推荐,甚至有幸作为人工智能与搜索引擎创新案例进入 CNNIC 互联网报告 时,我们虽然很兴奋,但更多的是惶恐:因为我们深知面向大众的互联网产品往往只有一次机会,与其误打误撞跟着风口缝缝补补强推不匹配的产品,闭门练内功才是正道。

我们用了近两年的时间重构了整个 Magi 系统,并在其基础上构建了全新的 magi.com。2019 年的 magi.com 只能算是 Magi 系统的 shell,主要用来给客户演示。那时我们将全部精力都投入到了 “基于不可靠的纯文本由机器自动构建尽量可信的知识图谱” 这一使命上,其核心任务以一个字来概括就是 “”。而本次 2021 版的 magi.com 则是围绕着用户设计的,意在让人更自然地与知识进行交互,同样以一个字来概括就是 “”。

当然,magi.com 并不是要取代传统搜索引擎的使用场景。任何搜索引擎的使命都是整理并检索信息,magi.com 和传统搜索引擎的本质区别在于信息的组织形式。传统搜索引擎围绕文档 (document) 构建 (例如微信中的一篇文章、百度中的一个网页、抖音中的一个视频):用户搜索得到的结果是未经加工的原始内容,且文档之间是孤立的;而 magi.com 则是围绕知识 (knowledge) 构建的:利用 AI 对原始内容进行理解后,为用户提供更细粒度的结果,且每个结果都是综合多个文档的内容而来的。因此,我们将 magi.com 定位为一个知识引擎,满足用户定向获取密集知识的需求,具体而言:

  • 定向:用户是带着问题来的,而不是在 “刷”,此时进行推荐反而是一种干扰,这与现在主流的视频和文章推荐场景截然相反;
  • 密集:搜索常发生在紧凑的事务中,例如工作中收集信息时,用户期望的不是大量罗列 “XX号” 文章或链接,而是能一目十行的综述、报表、答案;
  • 知识:功能性质的需求已被各 App 分流,更不需要再做天气、股票等小工具,用户搜索目的相对集中在知识和资源,知识尤指不被单一平台控制的通识信息。

基于上述思考,本次 magi.com 在以下八个方面带来了重大升级:

1. 知识抽取

知识图谱自动构建技术是 Magi 项目的根基,此次我们在 Open Information Extraction (OpenIE) 和 One-shot Relation Extraction (RE) 两方面均有突破。

一方面,我们引以为傲的通用开放信息抽取模型 Ireul 得到了全面升级,全新模型更强的泛化能力进一步提升了 magi.com 中结果的丰富度,同时更优秀的抗干扰能力使得系统面对互联网中质量参差不齐的文本时表现更加稳定。此前 Ireul 通过精巧的神经网络模型实现了不限定领域、不预设关系、不利用格式、不依赖句法、不绑定语言的信息抽取能力,但也正是因为其独特的模型设计导致了难以将序列形式的自然语言进行充分并行,巨大的计算量最终转化成了部署时高昂的 GPU 成本。本次,我们利用 oneDNN 和 OpenVINO™ 将重构后的模型部署在了 CPU 环境上,在同样的成本下可实现 2.58 倍的推理性能提升。更大的吞吐量将直接体现在 Magi 知识图谱的规模增长速度和 magi.com 对新知识收录的延迟上。

另一方面,我们受 GPT-3 启发并实现了 one-shot 信息抽取能力,即只需要少至一个样本方可定制的信息抽取模型。全新的模型能够同时支持从 unary 到 n-ary 的抽取范式,可满足实体识别、二/三元关系抽取、事件/事理图谱构建等场景。如果说 OpenIE 是全能选手,one-shot RE 则是速成专家,后者能够以较低的标注成本为特定领域进行定向优化,从而赋能垂直行业:好比一个天资聪颖的新员工,您只需将工作演示一遍,他便会掌握诀窍并从容处理后续的类似工作。此项新能力不仅服务于 magi.com,其稍后将作为 Magi One 服务以 API 形式对开发者和企业用户开放,以显著降低自然语言理解技术在行业落地的门槛。

由于知识图谱构建相关内容专业性较强,本文不做展开。OpenIE 部分可阅读下方 2019 版技术介绍以初步了解,本次更新的详细信息和更多最新进展请关注我们后续的技术分享文章。

此处还要额外声明一下,由于本次升级是一次彻底的重构,我们选择让 Magi 从零开始学习,将过往数年的原始数据“回放”给新系统,用最新的技术去重新理解过往的所见所闻。为了让大家尽早体验到新系统,我们将海量的数据划分成了多个不同优先级的队列,其中热门新闻相关的队列已经追上了实时,而其他队列仍在全力追赶中。目前,排除新闻队列之后,整体回放进度为 36% 左右,还需要一定时间才能进入理想状态。

2. 实体消歧

“苹果” 二字可能指一种水果,也有可能指一家公司;“孙悟空” 可能是故事中的斗战胜佛,也可能是 MOBA 游戏中的英雄;同名的人可能是企业家、运动员、演员...... 人类在见到这些名词时,能立刻结合上下文和自身的知识储备做出区分。这个对人类来说不值一提的本能,却是人工智能的一大难题。

假如把实体消歧问题限定于静态的语料和有限的类型,我们可以使用朴素的分类算法将同名的实体进行准确分类。然而,Magi 项目旨在追求规模化的知识工程,系统每一秒都在接收全新的信息,直面动态增长的语料和近乎无限的实体类型。不妨类比图像分类任务,若训练数据集中规定了猫、狗、鸟等类型的动物,那么当前的有监督分类模型可以取得比肩人类的准确度,但假如某一天科学家们发现了一种全新的动物,则已有模型无法准确将其照片进行分类。不幸的是,这样的新鲜事物在 Magi 所面对的数据集——互联网中每秒都在发生着。

面对这个挑战,我们没有妥协,而是选择了最难的一条路:全新研发的信息提取系统在从一篇文档中尝试提取知识时,会使用上下文敏感的语言模型将被提取实体与关系、所在片段、来源文档编码成多组向量一同保存。离线分析系统在遇到同名实体时,首先会利用上述数据进行无监督聚类,降噪后再对每一个簇分别进行核心上义词选举,进而命名该义项。上述过程每时每刻都在进行,新学到的知识会让对应实体的义项进行动态的分裂、归并、重命名。最终,我们实现了零预设的动态实体消歧义,并为 magi.com 的实体结果增设了义项筛选工具栏。对于问题类查询,Magi 会自动根据问题语境来推断合适的义项并给出对应的知识图谱结果。

不难看出,动态消歧义所需的计算量极大,且在终身学习系统中容易受模型更迭引发数据不一致。为此,我们重构了任务队列、聚合管线、索引系统,实现了基于可达性检测的数据淘汰机制并能保证最终一致性。

3. 意图理解

构建知识图谱时,Magi 倾向于以规范的文本记录知识,但用户在进行查询时的用语却是千奇百怪的。假如询问一个人 “勇士队老大是谁?”,想必他会反问 “你所谓的老大是指?”。正是由于这种不对称性和不确定性,很多被保存在知识图谱中的信息难以被检索到。

事实上,在开源图数据库方案中,支持模糊匹配已经十分难得,多数情况下都会要求用户使用规范的关键字或是 GQL/SPARQL 等结构化查询语言来发起检索。为了实现面向用户的知识引擎服务,我们为 magi.com 研发了基于机器学习的意图理解模型 Leliel 并使其与全新的知识图谱索引系统紧密配合。Leliel 与信息抽取模型 Ireul 共享部分网络结构和权重,以避免出现向量空间不一致问题。与 Ireul 一样,Leliel 也是基于我们的原创性研究和独有数据而构建的,且我们承诺没有使用任何用户的查询历史进行训练。

有了 Leliel 的加持,Magi 的知识图谱不仅能支持模糊搜索,还能对查询的意图进行理解并给出多种解读。例如,搜索 “勇士队老大是谁” 时,Magi 会将问题同时解读为查询 a. 勇士队的老板;b. 勇士队的总裁;c. 勇士队中年龄最大的球员,并分别给出答案。

我们意识到,Leliel 所以带来的查询意图理解能力不仅适用于知识图谱领域,也可以大幅提升其他搜索系统的召回能力。因此,我们将会把与 Magi 系统解耦的独立 Leliel 模型作为 Model-as-a-Service (MaaS) 服务的一部分提供给开发者和企业用户,并同时提供适用于传统关键词搜索的兼容接口。

4. 语义搜索

知识图谱与搜索技术相辅相成,2019 版 magi.com 中首次使用了我们自主研发的分布式索引引擎 Ramiel,其原创的索引结构设计让我们以远低于基于 ElasticSearch/lucene 等开源方案的 TCO 实现了性能敏感的 web 搜索和近实时的知识图谱搜索。

此次,我们对搜索基础设施进行了自下而上的重大升级,基于 Intel® Optane™ DC Persistent Memory (DCPMM) 持久内存硬件构建了可增量更新的稠密向量索引,并在此基础上实现了数百维百亿级别的全量语义搜索,即初次召回时就基于近似最近邻搜索,而非仅用于小范围精调排序。

传统搜索引擎通常使用倒排索引技术将文档中的关键词编入能够快速检索的索引中,用户在发起搜索时,包含问题中关键词的文档将被召回作为结果候选。关键词索引模式在过去的三十多年中获得了极大的成功,但事实上它预设了一个与现实情况不符的前提:能解答某问题的文档中必须包含该问题的文本才能被搜到。也正是因为这个基本矛盾,用户和内容创作者们都被迫了解并练就了权宜之计:用户们学会了在脑中把自己的问题转换成由空格划分的多个关键词,若搜不到满意的结果还要调整关键词再试试运气;创作者们更是深谙 SEO 之道,即使让文字变得啰嗦也要把相关的关键词一一覆盖,大家所唾弃的营销号其实就是该问题的终极体现。甚至可以说,由于这个天生的缺陷,传统搜索引擎从未能够完全利用它们所收录的内容。

Magi 全新的语义搜索系统则使用了与传统搜索完全不同的方法,文档的相关性不再由关键词的匹配度决定,而是通过对内容进行理解,由问题和候选文档所表达的信息的关联性/因果性来衡量。根据用户问题所选出的文档,不再需要重复提及问题文本,只需要逻辑上能够解答该问题即可。用一个最极端的例子来说,虽然 magi.com 主要收录中文内容,但由于不再依赖关键词机制,所以无论使用哪种语言来询问,都能获得相关的结果,甚至是从右向左书写的阿拉伯语都可以。

此前,语义搜索的大规模应用面临诸多技术和成本挑战,在这里要特别感谢 Intel 对我们的支持以及对 PMem 技术的持续创新,大容量持久内存能显著减少集群中的分片数,让近似最近邻搜索等次线性时间复杂度的算法能最大化利用资源。目前,语义搜索技术已经全量应用在了 magi.com 的 web 搜索和知识图谱搜索中,在数百维百亿级别的超大规模索引下能达到 sub-second 级别的响应延迟。在未来,该架构还可以支持跨文本、音频、图片、视频的多模态搜索。

5. 直接回答

语义搜索摆脱了关键词的限制,实现通过对内容的理解来配的文档。但是仅找到文档却不代表大功告成,我们还需要革新搜索的最后一步——结果高亮,并使其与知识图谱有机结合。

传统搜索引擎结果页面中,通常会高亮显示匹配的关键词。人们似乎已经习惯了这种使用体验,但也不难发现这其实是反直觉的:假如我想知道 “荷兰豆的原产地是哪里”,传统的搜索高亮逻辑会将 “荷兰豆” “原产地” 这两个已知的字眼通篇加红强调,而想要知道的答案却需要从大量正文中去寻找。另一方面,在以知识为核心的语义搜索场景下,结果中的文本可能完全不包含问题关键词,所以传统的复读机式的高亮无法适用。

针对上述问题,我们为 magi.com 研发了机器阅读理解模型 Tabris,它能够代替用户去阅读搜索结果中的内容,在数十毫秒内将最值得用户去关注的片段挑选出来。与典型的 SQuAD 任务目标不同,该模型会同时预测两个输出:相关性较高且表意完整的高亮结果,以及满足 textual entailment 且言简意赅的直接回答结果。这两种输出分别用于满足观点性和事实性两类问题。值得一提的是,与基于离线计算精选回答的方案不同,Magi 的直接回答是在用户发起搜索时配合语义搜索在最新的语料上实时计算得到的,因此其覆盖面为无限大,不受任何领域限制,时效性也更强。即使不了解原理上的差异,用户也不难发现 magi.com 能回答更千奇百怪的问题。当然,这种激进的做法也带来了更大的不确定性,为了避免对用户造成误导,magi.com 的直接回答都会明确给出来源上下文供用户进一步判断。

通过实现直接回答能力,magi.com 在客观的知识图谱之外增加了对主观问题的处理能力。不仅如此,事实性直接回答还为 Magi 知识图谱提供了额外的双重验证机制,系统会捕获每次知识图谱和直接回答给出不一致结果的情形,然后基于权重投票决定最后的输出,无形之中致敬了《Neon Genesis Evangelion》中的 MAGI 超级计算机。

6. 数值计算

传统信息抽取常聚焦于实体之间的关系的提取,而我们认为数值属性同样非常重要。知识图谱中的数值信息可以用来进行过滤和排序,进而满足各种上游应用。例如,舰船爱好者可以通过调用知识图谱接口来获得各种航空母舰的数据,然后分析各种型号舰船的排水量和航速之间的相关性。

目前,依靠人工编辑的知识图谱具有较高的准确性和标准统一的数值信息,但其覆盖面和更新频率都无法满足日益增长的需求;Magi 通过人工智能技术将知识图谱的构建自动化,并在此前成功实现了数值信息的抽取。然而,互联网和各种自然语言文档中对数值的表达方式却各不相同,造成了可以提取但难以标准化的局面:同样的物理量可以不同的单位表示,而同名的单位却又存在歧义,例如 “秒” 可能是时间单位也可能是角度单位。

为了让知识图谱中的数值具有可计算性,我们研发了基于统计学习的自然语言数值提取和标准化模块 Sandalphon,其不仅能够从自然语言文本中提取出混杂阿拉伯数字和汉字的数值信息,还能通过自动求反函数将单位统一成国际单位制 (Système International d'Unités) 的标准量纲。当遇到具有歧异的单位时,Sandalphon 能够通过分析上下文预测最可能的量纲:例如,在中文语境下讨论天气时 “度” 一般指温度单位摄氏度,而描述建筑时 “度” 更可能是角度单位。对于 “马赫” 等常用的无量纲数,Sandalphon 也会根据常见场景提供换算。对于范围数值,Sandalphon 记录整个范围区间,并计算均值等统计量以便于对比和排序。除此之外,Sandalphon 还能够理解自然语言中表达的不确定性概念,并将知识图谱中的数值标记为近似值。

magi.com 中点击数值类型的结果时,知识详情面板中的 “数值” 部分将展示 Sandalphon 提取出的结果。完整的数值信息将在 Magi 知识图谱 API 服务中提供给开发者和企业用户。

7. 时间脉络

为了追踪信息被提及频次随时间变化的趋势,全新的 magi.com 提供知识元组粒度的时间轴采样。相关统计并非类似 Ngram Viewer 般基于关键词组合共同出现的频次,而是基于语义关系自下而上构建的。前者的方法缺陷在于许多情况下统计出的结果并不能准确反映客观事实随时间变化的趋势。设想这样一个场景,一个球员在退役之后又回到自己的球队担任教练,此时一个基于关键词共现频次的系统尝试归纳总结球队教练随时间的更迭时,不同文章中该球员姓名、球队名称、以及 “教练” 这三个关键词共同出现的情况不论在该球员现役阶段还是教练阶段都会高频发生。在没有更多外部信息支持的情况下,这样的简单统计难以总结出该信息正确的时间顺序和断点。magi.com 采用的基于语义关系的统计,可以有效避免此类错误,从而能够在没有额外人工介入的情况下,正确归纳总结事实随时间变化的情况。

Magi 系统在对知识进行可信性评估时,交叉验证机制是重要的信号,其背后的逻辑是某一事实若被更多高质量来源在不同上下文中用差异化的表达方式提及则更可靠。然而较新的信息需要一定时间才能积累足量的介绍与讨论,对于 Magi 来说就难以进行多来源的交叉验证,因此可靠性会打折扣。可信度和时效性如同跷跷板一样难以平衡,两者间也无法互相替代,最终我们决定把这个选项留给用户:magi.com 的结果卡片中新增了排序切换选项,用户可以根据需求自行选择以何种逻辑排序展示知识图谱结果。

8. 隐私保护

全新的 magi.com 依然将用户隐私保护视为重中之重。例如,传统搜索引擎的搜索联想/补全功能的构建主要依靠分析大量用户的交互行为日志,而 Magi 则摒弃了这一成熟方案,转而由人工智能自主产生联想内容:通过对 Magi 知识图谱进行离线数据挖掘主动找出适合的问题建议,完全无需窥视用户的搜索记录。这对用户和我们来说是双赢:用户的隐私得到了保护,不会有较为私人的查询记录出现在他人的联想中;我们也避免了被低质量或有害内容操控的可能性。同样,历史记录保留在您的本地,可以方便地清除,我们也不会对其进行分析。整个 magi.com 除了用于人机验证的防御性 Cookie 之外,不使用任何追踪和分析性的 Cookie

magi.com 不仅无需注册,且不强制下载 App。magi.com 的 App 基于低权限的 Progressive Web Apps (PWA) 技术构建,这既是出于产品形态也是出于对用户隐私和体验的考虑。事实上,市面上大部分产品都可以用 PWA 来实现,开发一个 native app 带来的优势主要是如下三点:权限、渠道、推送。系统权限可以提升体验,也可以用来监听用户;分发渠道可以扩大受众,也可能被冒用或注入;通知推送可以传达“你想知道的”,也可以硬塞“想让你知道的”。因此,我们主动选择了受限的 PWA 模式,毕竟跟用户说 “我们没有监听你” 肯定不如 “我们无法监听你” 更有说服力。即使之后我们推出 native app,也一定会继续支持 PWA,以满足这些稍显精神洁癖的用户,毕竟我们自己就是其中一员。


不足之处

说完了新东西,按照惯例还是要盘点一下当前的不足。本次更新填上了之前大部分的坑,而现在又有了新的 future work,包括但不限于:

有限的收录范围

此次我们启用了很多激进的新技术,出于语义搜索下的内容安全考虑,magi.com 的来源收录范围与上一版相比反而缩小了。实际上我们的知识图谱构建引擎还是会看全网的内容,但一般给出的结果我们会优先展示比较安全的,还请大家谅解。由此引申的一个问题就是使用体验可能对程序员不够友好,尤其是查文档时(这我只能向你们推荐 devdocs.io 啦)。在技术逐渐稳定后,我们会进一步加大对内容安全的投入,在合法合规的前提下,尽可能提供更丰富的内容

错误与潜在风险

只要是人工智能就都会犯错,深度学习的基本特性决定了几乎不存在 100% 正确的模型,尤其是复杂度极高的自然语言处理领域。但难度不是借口,我们深知算法错误可能带来的潜在风险:小到给出片面的回答,大到输出带有歧视或偏见的结果。因此,我们一直非常注重 Magi 系统各个环节的可解释性,并努力将可解释性直接呈现给终端用户:例如点击知识结果时,magi.com 不会直接跳转,而是稍显 “绕路” 地呈现一个包含可信度评估、来源上下文、原理说明链接的详情页面,用户在该详情页才能点击结果发起进一步搜索,这种 what -> why -> what 的流程约束自然没有 what -> what 来的简单粗暴,但我们相信这是更负责任做法;又如 Magi 仅会将一部分结果标为低可信度,但不会武断地隐藏掉而导致 “主流” 意见垄断。我们希望研发负责任的人工智能,并认为人工智能不应擅自删减内容,算法没有资格代替人类做出最后的评判。Magi 始终致力于成为辅助用户独立思考的工具,而不是输出结论的黑盒

繁琐的安全措施

新版本的 magi.com 加强了一系列反爬虫措施,甚至为此牺牲了一些正常用户的使用体验,但我们真的别无选择。Magi 处理每一个 query 都需要调动至少三个大规模神经网络模型,并完成复杂的查询。这些计算都是非常昂贵的,我们自然希望把资源用在满足用户的需求上。而事实上,在过去的两年中,我们几乎每天都在与恶意爬虫和网络攻击对抗:从刷无意义 query 消耗系统资源的简单脚本,到纯人工外包过验证的数据工厂,直到后来在灰产社群看到我们被明码标价悬赏...... 和大家熟知的搜索引擎一样,Magi 也是基于爬虫技术来收集公开数据。但与上面提到的恶意爬虫不同,Magi 的爬虫遵守严格的行为准则,且尊重被抓取对象的偏好设置。我们深知 Magi 的建立离不开开放互联的互联网,所以我们不想搞 “app内查看全部”、“注册可见” 等壁垒,只需一个链接,您就能得到全部。但是,开放互联不等于可以被无节制索取。世界上最大的非盈利网站 Wikipedia 其实也深受恶意抓取的影响,每多一个恶意爬虫,就可能有一万个普通用户的访问受影响。所以 Wikipedia 不建议进行页面抓取,而是选择公开他们的数据集。—— Magi 也选择了同样的方式,事实上,Magi 项目相关的开放数据集已经被下载了超过 10000 次,申请制的数据集也免费提供给了国内外各高校院所的 100 余组申请者。另一方面,被持续网络攻击和抓取恰恰证明了 Magi 项目的价值,证明了我们做的事情不仅有意义,而且不是别人想做就能做的。我们会继续站着走下去。


全新的 magi.com 是我们秉承昨日之互联网精神,融汇今日之先进技术,交上的属于明日的答卷。我们用了 7 年时间走到了这里,前方的路已没有脚印可以追随,但我们的愿景却前所未有的清晰:

“融会 人类知识,贯通 人工智能。”

"To be the shared brain for human, AI behind AI."

愿 来自东方的智者 寻得人工智能之圣杯。

May the Magi find the Holy Grail of Artificial Intelligence.


最后唠叨一下免责声明:

  • magi.com 之内容系 Magi 人工智能系统根据您的指令自动生成的结果,不代表我司赞成该结果及其来源的内容或立场。本文中的截图拍摄于 2021 年 8 月至 12 月内测期间的不同时段,不保证与当前结果一致。
  • 本文中代词的使用根据 联合国性别包容性语言《中文性别包容性语言指南》选择,“他” 系未表明性别信息时的默认选项,为中立、中性的虚指。
  • Magi (μάγοι) 一词源自 《新约圣经·马太福音》,指代 the Wise Men from the East,即来自东方的智者。项目以此命名仅表达来自中国(东方)的人工智能(智者)的美好寓意,我司无任何宗教立场。同时 MAGI 一词也在致敬庵野秀明作品《Neon Genesis Evangelion》中的同名超级计算机对我们的启发。

user avatar   santo-sports 网友的相关建议: 
      

技术层面打95分,产品层面打59分。


是不是一秒破防。

站在普通用户角度说,这一代的magi,还是NLP的技术展示,难称之为web搜索产品。

知识图谱,更贴近的其实是百科产品,比如维基百科、百度百科。因为信息和知识毕竟不同。

知识是个性化的,吾之蜜糖彼之砒霜,一个内容我能从里面学到东西,学到了,这对我来说是知识。

为什么做知识图谱,大家都是做垂直某一个领域的。因为底层数据上,本来这就是个枚举文本并过滤的场景,信息量不够、信息质量不够,没人买账。我把金融的知识汇总一起,给投资人看,或者把医疗论文汇总一起,给医生看。都是做了个性化的,并提供了用户知识储备外的实用价值,所以都能称之为知识。

信息不是,互联网早就信息泛滥了。做的越通用,价值越低,不是因为技术好不好,爬的数据多不多。而是因为用户不垂直,也就不是真正意义上的知识。这点要能解决也是今日头条做的事,是个性化推荐的事,要定义人,给人标签化。

所以,勇士队老大是谁(magi团队在意图理解当中举的例子),这种问题是知识还是信息。就算我是个篮球迷,真的会有用户这么问么,个人表示怀疑。

既然第一代magi已经实现了信息组织形式的重构。那么,为啥还要做第二代Magi?核心逻辑是拿B端项目,还是更好的技术展示,希望能得到创始团队解答。

magi的第一代,我19年就用过。

彼时谷歌、百度搜索引擎的卡片,还没现在这么多应用。

magi好的地方在于,坚持自己选择的方向。我们该对每个AI应用和技术进步保持敬意,也给创新以时间。

我看到这次的更新信息,其实最有用的,是在工程上,Magi解决了更实际的问题。比如——

此前 Ireul 通过精巧的神经网络模型实现了不限定领域、不预设关系、不利用格式、不依赖句法、不绑定语言的信息抽取能力,但也正是因为其独特的模型设计导致了难以将序列形式的自然语言进行充分并行,巨大的计算量最终转化成了部署时高昂的 GPU 成本。本次,我们利用 oneDNN 和 OpenVINO™ 将重构后的模型部署在了 CPU 环境上,在同样的成本下可实现 2.58 倍的推理性能提升。更大的吞吐量将直接体现在 Magi 知识图谱的规模增长速度和 magi对新知识收录的延迟上。

至于实体消歧、意图理解、语义搜索,技术上有量变,没有质变,各家都在做,大同小异。

数值计算和时间脉络倒都是新亮点。

数值计算,开始以为是自动四则运算的功能,后来发现不是,而是量纲的换算。感觉这个功能应该叫“单位换算”。


时间脉络这个技术,我觉得可以吹爆。不过显然需要问对问题,但总比需要触发词来解决的技术好太多了。



刚刚开始体验第二代magi,再用几天,如果有新的理解,再回来回答。

如果是泛知识领域的工作者,又不是需要时效性较高内容,并对信息质量也没有要求绝对准确的情况下。Magi相对一般的检索还是可以提升一部分效率的。

看看这前面有多少个限定。。。

也能理解magi难做,反过来想,这些技术百度就做不出来么,我也不这么认为。

真心希望magi好,加油!




  

相关话题

  如何看待 TI7 上与 Dendi solo 的 OpenAI? 
  人工智能是否毁灭人类? 
  未来 3~5 年内,哪个方向的机器学习人才最紧缺? 
  有哪些结合医学、计算机、人工智能的研究领域? 
  简要概括人工智能? 
  如果围棋已经被人工智能完全破解,得出某色必胜,那围棋还有什么意义? 
  如何看待《搜索引擎百度已死》一文?百度沦为百家号的引流工具这一描述是否准确?百度的「护城河」是什么? 
  弟弟估分能上清北,选人工智能还是网络新媒体(新闻传播类)专业? 
  如何看待关于“数据结构与算法基础”的重要性? 
  你爱上了一个人,你们俩一起游玩,一起逛街,最后发现你爱的只是一个高级智能机器人,你怎么想? 

前一个讨论
一个人天天买彩票①一天内只要买到中奖就不买了,不中奖就继续买 ②只要不中奖就不买了,哪个策略更好?
下一个讨论
怎么评价《我的二哥二嫂》?





© 2024-12-25 - tinynew.org. All Rights Reserved.
© 2024-12-25 - tinynew.org. 保留所有权利