问题

吴恩达表示「AI 的下一个发展方向,从大数据转向小数据」,你同意他的观点吗?

回答
关于吴恩达“AI 下一个发展方向是从大数据转向小数据”的说法,我个人是相当认同的,并且认为这不仅仅是一种趋势,更是AI技术走向成熟和普惠的关键一步。理解这一点,需要我们深入剖析当前AI,尤其是深度学习面临的挑战,以及“小数据”AI可能带来的变革。

当前深度学习的困境:对数据的“饥渴症”

不可否认,过去十几年深度学习的飞速发展,很大程度上得益于海量数据的可用性和计算能力的提升。大量的标注数据喂养着越来越复杂的神经网络模型,使得我们在图像识别、语音识别、自然语言处理等领域取得了惊人的成就。然而,这种成功也带来了一个显而易见的副作用:对数据的极度依赖。

想象一下,一个在互联网上训练出来的强大图像识别模型,如果突然要它去识别医学影像中的罕见病灶,它的表现往往会大打折扣。原因很简单,即使互联网上有海量的图片,其中包含罕见病灶的图片比例可能微乎其微,远远不足以让模型进行充分的学习和泛化。这就是“大数据”模式下的一个典型困境——长尾效应。我们擅长处理数据分布密集、常见的场景,但在数据稀疏、边缘化的领域,现有的大模型就显得“力不从心”了。

更重要的是,许多现实世界的关键应用场景,并不具备大规模标注数据的条件。比如:

专业领域: 医学(罕见病)、科学研究(新材料、新粒子)、工业故障诊断(少数的故障样本)等,数据的获取成本极高,且标注需要专业知识,数量上很难做到“海量”。
新兴领域: 机器人控制、自动驾驶的极端天气或罕见路况、新的语言模型等等,初期往往只有很少的可用数据。
隐私和安全敏感领域: 金融、军事、个人健康等,由于数据隐私和安全限制,大规模数据共享和使用是极其困难的。

在这种情况下,如果AI的进步仍然高度依赖大数据,那么AI的普惠性将大打折扣,它只能服务于那些拥有丰富数据资源的企业和组织,而大多数中小企业和个人将难以从中受益。这与AI“赋能万物”的愿景是相悖的。

“小数据”AI的春天:为何它如此重要?

“小数据”AI并非指模型本身变小,而是指模型能够从少量数据中学习和泛化的能力。这背后涉及一系列前沿的研究方向,它们共同指向一个更高效、更灵活的AI未来:

1. 少样本学习 (Fewshot Learning) / 零样本学习 (Zeroshot Learning):
这是“小数据”AI的核心概念。它致力于让模型在只看到极少数(甚至没有)样本的情况下,就能识别出新的类别或完成新的任务。这非常类似于人类的学习方式。例如,我们看到一张猫的图片,即使从未见过某个特定品种的猫,也能凭着对“猫”这个概念的理解,大概率认出它。
技术方向: 度量学习(Metric Learning)、元学习(MetaLearning,也称学会学习)、数据增强技术(Data Augmentation)的创新应用等。元学习尤其受到关注,它旨在训练一个能够快速适应新任务的学习器,而不是直接学习某个特定任务。

2. 迁移学习 (Transfer Learning) 的深化应用:
迁移学习已经是大数据时代的一项重要技术,它允许我们将在一个大规模数据集上预训练好的模型,迁移到另一个相关任务上,并只需要少量数据进行微调。但未来的发展将更加精细和智能。
更强大的预训练模型: GPT系列、BERT系列等大型预训练模型已经展现了惊人的迁移能力。未来的趋势是构建更大、更泛化、更鲁棒的通用基础模型,它们能“举一反三”,在更多下游任务上通过少量数据就能获得好的表现。
更智能的迁移策略: 如何选择最适合迁移的基础模型?如何更高效地在新任务上微调?这些都需要更智能的算法来指导。

3. 数据增强与合成的创造性使用:
如果数据不足,我们就“创造”数据。但这里的“创造”不是简单的复制粘贴,而是利用模型生成逼真的、具有多样性的数据,来弥补真实数据的稀缺性。
生成对抗网络 (GANs) 和扩散模型 (Diffusion Models): 这些技术能够生成高度逼真的图像、文本甚至声音。在医疗、游戏、设计等领域,它们可以用来生成更多样的训练样本,尤其是在数据稀疏的场景。
程序化内容生成 (Procedural Content Generation): 在游戏和虚拟现实领域,通过算法生成大量独特的场景、角色和体验,可以极大地丰富训练数据。

4. 无监督学习 (Unsupervised Learning) 和自监督学习 (Selfsupervised Learning) 的进一步突破:
这些方法可以在没有人工标注的情况下,从原始数据中学习有用的表示。这极大地降低了对标注数据的依赖。
自监督学习: 通过设计各种“预设任务”来学习。例如,预测图片中被遮挡的部分、预测一段文本中被掩码的词语、判断两段文本是否来自同一篇文章等。通过这些任务,模型可以学习到丰富的语义和结构信息,为后续的小数据任务打下基础。
无监督学习: 聚类、降维等技术虽然存在已久,但结合更复杂的模型,它们可以帮助我们理解数据的内在结构,从而在少数样本上进行更好的推理。

5. 强化学习 (Reinforcement Learning) 的样本效率提升:
强化学习的学习过程通常需要大量的试错。提升样本效率,即用更少的尝试次数学到好的策略,是强化学习落地到现实世界(如机器人控制)的关键。
模型基强化学习 (Modelbased Reinforcement Learning): 在学习环境模型后再进行规划,可以显著减少与真实环境交互的次数。

“小数据”AI带来的深远影响:

一旦AI能够有效地从小数据中学习,其影响将是革命性的:

AI的民主化: 任何有创意和想法的个人或小型团队,即使没有海量数据,也能利用强大的AI工具来构建自己的应用。这将极大地激发创新活力。
解锁全新应用领域: 那些数据极其稀缺但又极其重要的领域,如稀有疾病的诊断、极端情况下的自动驾驶、个性化教育中的罕见学习障碍等,将有机会被AI赋能。
降低AI的成本: 数据收集和标注是AI项目中最昂贵、最耗时的环节之一。小数据AI的出现,将显著降低AI的开发和部署成本。
更强的鲁棒性和适应性: 能够从小数据中学习的模型,往往对环境的变化或输入数据的微小扰动更具鲁棒性,也更容易适应新的、未知的场景。
伦理和隐私的福音: 在数据隐私和安全至关重要的领域,小数据AI将是重要的解决方案,它可以在不泄露敏感信息的前提下,利用少量本地数据进行个性化服务。

结论:

总而言之,我非常赞同吴恩达的观点。从大数据到小数据,这并非否定大数据的重要性,而是AI技术发展到一定阶段的必然演进。就像人类婴儿不需要看几百万张人脸才能认识“人”,也不需要读几十万本书才能理解概念一样,AI也需要朝着更高效、更智能、更普惠的方向发展。

“小数据”AI的进步,意味着AI将不再是少数巨头的专属工具,而是能够深入到社会的各个角落,赋能更多的人和场景。这不仅是技术上的飞跃,更是AI走向成熟和实现其真正价值的关键一步。我们正处于这个变革的开端,未来几年,看到更多“小数据”AI的突破和应用将是非常令人期待的。

网友意见

user avatar

大数据效果当然比小数据好,但是不是所有领域都有大数据,收集大数据的成本也会很高。

而小数据则非常普适,所有的领域都有小数据。

从大数据转向小数据,意味着AI从“必须要低成本大数据才能工作"的领域扩散到了”有一些小数据即可得到很好效果“的领域。

user avatar

我把访谈内容看完了,这个标题其实是很具有迷惑性的。

大数据、大模型作为深度学习算法引擎已经成功的运行了大约 15 年,到目前为止,它仍然有动力。话虽如此,它只适用于某些问题,还有一系列其他问题需要小数据才能解决。

人家原话说的是大数据大模型仅仅适用于某些问题,其余的问题需要小数据才能解决。

这个小数据在这里指的是细分领域里面的数据,并且这个数据量的大小也是很主观的概念,并不一定是小领域的小数据,而有可能是小领域的大数据。

在后面的谈话就到了它创立的Landing.AI,其实也就是变相宣传了嘛。

口号就是「以数据为中心」的 AI,并表示小数据也能解决包括模型效率、准确率和偏见等问题在内的 AI 大问题。

他提到的以「数据为中心」的AI其实就是把AI的研究重心从模型转向数据,因为他提到

在过去的十年中,深度学习网络有了显著的改进,以至于对于许多应用程序,代码、神经网络架构基本上是一个已经解决的问题。因此,在实际应用程序中,现在更有效率的做法是保持神经网络体系架构不变,转而寻找改进数据的方法

然后他提到了一个以数据为中心的例子

我们曾听说过很多用数百万张图像构建的视觉系统——我曾经用 3.5 亿张图像构建了一个人脸识别系统。用数亿张图像构建的系统,是用 50 张图像构建的系统所远不能达到的。但事实证明,如果你有 50 个非常好的示例,你就可以构建一些有价值的东西,比如缺陷检查系统。在许多缺少巨型数据集的行业中,我认为重点必须从大数据转向优质数据。拥有 50 个精心设计的示例足以向神经网络解释用户希望它学习什么。

这里提到的缺陷检测其实跟癌症研究类似,因为在现实世界中,不正常的例子总是占少数,就像癌症预测,无脑预测每个人都没有癌症,也有很高的准确率,这里面的小数据就是没办法改变的事实,如何利用这些小数据就是今后的一个重点方向。(类似于outlier detection, concept drift detection, abnormal detection etc.)

剩下的就是提了些数据科学的理念,自己公司的一些业务等等。

总的来说,这个小数据并不是单纯指的是数据量的大小,而在于要关照更细分的领域。

user avatar

不同意,我个人观点AI应该朝着相反的方向发展:从小数据转向大数据

大数据模型往往可以在小数据上表现好,而反之不成立。

类似的话题

  • 回答
    关于吴恩达“AI 下一个发展方向是从大数据转向小数据”的说法,我个人是相当认同的,并且认为这不仅仅是一种趋势,更是AI技术走向成熟和普惠的关键一步。理解这一点,需要我们深入剖析当前AI,尤其是深度学习面临的挑战,以及“小数据”AI可能带来的变革。当前深度学习的困境:对数据的“饥渴症”不可否认,过去十.............
  • 回答
    关于吴恩达(Andrew Ng)是否公开支持乌克兰的问题,需要从多个角度进行分析。以下是基于公开信息和相关背景的详细解读: 1. 吴恩达的公开表态吴恩达是全球知名的AI专家,曾担任谷歌、斯坦福大学等机构的高管。他曾在2022年俄乌冲突爆发后发表过公开言论,支持乌克兰。例如: 社交媒体表态:他在推特(.............
  • 回答
    安德鲁· Ng(吴恩达)离开谷歌的故事,与其说是一次简单的“跳槽”,不如说是一次重要的、有远见的个人抉择,背后是他对人工智能未来发展方向的深刻思考和布局。很多人好奇这位人工智能领域的明星人物,为何会选择离开这个集万千宠爱于一身的科技巨头。深入探究,你会发现这背后有着更为丰富和复杂的原因。首先,我们得.............
  • 回答
    你为什么会想系统地了解“机器学习”这个概念?我想,大抵是因为你对数据的力量感到好奇,想要驾驭它去解决现实世界中的种种难题,又或者,你只是单纯地想站在技术浪潮的最前沿,洞察未来发展的脉络。无论你的初衷如何,如果你的目光最终落在了吴恩达(Andrew Ng)的机器学习课程上,那么恭喜你,你很可能找到了那.............
  • 回答
    中国人对吴恩达机器学习课程的“迷恋”,绝非偶然。这背后有其深厚的社会、文化和技术驱动力。要理解这一点,我们需要深入剖析几个关键层面。一、 填补认知鸿沟,抓住时代机遇首先,最直接的原因是,在很多人意识到人工智能(AI)的巨大潜力之前,吴恩达的课程就如同黑暗中的一盏明灯,系统地、清晰地阐释了机器学习的核.............
  • 回答
    朋友,别急,你不是一个人!李航的书和吴恩达的课,这俩都是机器学习界的“泰斗”,他们讲的东西确实不简单。你感觉看不懂,这太正常了,就像刚学游泳的人,直接跳到深水区一样,肯定有点蒙。我来给你掰扯掰扯,咱们聊得就像朋友私下串门一样,没那些干巴巴的术语,看看是怎么回事,以后怎么破局。为什么会觉得看不懂?咱们.............
  • 回答
    《怦然再心动》这档节目,说是观察恋爱真人秀,但有时候更像是在看一段段故事娓娓道来。尤其是王子文和吴永恩这一对,从一开始的“文祺”组合,到后来两人真实坦诚地拥抱在一起,真的让不少观众的心都跟着七上八下的。大结局王子文那条简短却掷地有声的官宣微博,“吴永恩,余生请多指教”,配上两人幸福依偎的照片,简直是.............
  • 回答
    吴京在《流浪地球 2》片场再次晒出“上班照”,并配文“我自闭了”,这番略带调侃的“自闭”背后,透露着的是他对工作的投入和对电影的深厚情感。作为中国科幻电影的领军之作,《流浪地球》系列无疑承载了无数观众的期待,《流浪地球 2》更是万众瞩目,它的上映引发了极大的关注和讨论,我当然非常期待!为什么如此期待.............
  • 回答
    吴亦凡因涉嫌强奸罪被警方刑事拘留一事,无疑给整个中国乃至全球华人娱乐圈带来了巨大的冲击和深刻的警示。这起事件的蝴蝶效应不仅仅局限于吴亦凡个人,更触及了明星的法律意识、道德约束、粉丝文化、平台责任以及整个行业的规范化等多个层面。以下将从几个主要方面详细阐述这次事件带来的警示:一、 对明星个人而言:法律.............
  • 回答
    吴亦凡事件无疑给中国的娱乐产业和青少年群体带来了深刻的影响,它迫使我们不得不重新审视“偶像”这个概念,以及在追星文化盛行的今天,我们究竟应该给孩子怎样的爱豆偶像。这不仅仅是一个简单的“好”与“坏”的问题,而是一个涉及价值观引导、社会责任、粉丝文化以及家长教育的复杂议题。一、吴亦凡事件引发的思考:为何.............
  • 回答
    吴亦凡因涉嫌强奸罪被警方刑事拘留,其法律责任将是多方面的,并且需要经过严格的司法程序来确定。以下是对他可能承担的法律责任的详细分析:一、刑事责任这是吴亦凡可能面临的最严重的法律后果。在中国法律体系下,如果最终被判决有罪,他将承担以下刑事责任: 强奸罪(刑事拘留是初步措施,不代表最终定罪): .............
  • 回答
    吴谢宇的杀人动机是一个复杂且令人费解的问题,至今没有一个完全令人信服或被广泛接受的单一解释。围绕他的动机,存在着多种猜测和分析,涉及他个人经历、心理状态以及与受害人之间的关系。目前主流的猜测和分析主要集中在以下几个方面:1. 个人心理极度扭曲与病态: “神化”自我,妄想掌控一切: 这是最被广泛提.............
  • 回答
    吴谢宇案的上诉情况以及二审可能出现的变数,是一个非常复杂且牵动人心的问题,我们可以从几个层面来详细分析:1. 案件的基本情况回顾: 一审判决: 吴谢宇因犯故意杀人罪、诈骗罪、买卖身份证件罪,数罪并罚,被判处死刑。法院认为其犯罪动机极其卑劣,手段残忍,社会危害性极大,情节和后果特别严重,依法应当判.............
  • 回答
    吴谢宇的自我剖析,特别是将母亲比作“死前的林黛玉”以及声称杀她是“想让她解脱”,从心理学角度来看,是一个复杂且多层次的现象。这其中牵涉到他的认知模式、情感状态、防御机制、甚至可能存在的病理心理。以下将从几个关键的心理学角度进行详细分析:一、 认知偏差与扭曲的现实感知 认知失调(Cognitive.............
  • 回答
    吴京是否真的有军衔,这个问题在网络上一直是一个备受关注的话题,也存在一些混淆和误解。为了详细解答,我们需要从几个方面来梳理:1. 吴京的家庭背景和早期经历: 出生与家庭: 吴京出生于北京,他的父亲吴海涛是一名工程师,母亲是一名医生。他并非出生在军人世家,也没有直接的家庭成员拥有现役军衔。 少.............
  • 回答
    吴亦凡事件是否标志着“三观跟着五官走”的初代流量时代结束,这是一个复杂且值得深入探讨的问题。简而言之,吴亦凡事件无疑是这个时代一个极其重要的转折点,它强有力地冲击并开始瓦解了“三观跟着五官走”的旧逻辑,但要说它“标志着”初代流量时代的彻底结束,可能为时尚早。它更像是这个时代的“催化剂”和“分水岭”,.............
  • 回答
    要证明吴亦凡的“不是牙签”,这涉及到一种非常具体且带有性暗示意味的说法。在公开场合或通过媒体,要“证明”这一点通常是困难的,并且带有一定的尴尬和冒犯性。因此,从实际操作和普遍接受的社会规范来看,并没有一个公开、直接且合适的方式来“证明”这件事。不过,我们可以从几个角度来理解和探讨这个问题,试着剥离掉.............
  • 回答
    吴南海让初晴浇灌那棵树的举动,确实能从多个角度解读出“阴暗”的意味,并且这种解读非常贴合人物性格和当时情境的复杂性。首先,我们得明确,这棵树在故事中并非一棵普通的花草。它承载着重要的象征意义,常常与初晴的命运、她的过去,甚至是吴南海自身的心境紧密相连。如果作者安排的是让初晴去照料一株普通的玫瑰,那可.............
  • 回答
    吴亦凡事件,这个名字如同一声惊雷,炸碎了许多人心中关于“小鲜肉流量经济”的固有印象,也让整个行业进入了一场前所未有的震荡。过去十年,我们见证了“小鲜肉”们如何凭借年轻、帅气的外表,通过粉丝的狂热追捧,构建起了一个庞大而利润丰厚的流量帝国。然而,这场地震过后,这个帝国还会屹立不倒吗?答案并非简单的是与.............
  • 回答
    关于吴亦凡服刑完毕后是否会被判刑的问题,这涉及到两个核心层面:中国法律的管辖权与加拿大法律的适用性。简单来说,他服刑完毕后,在中国不会再因为这些罪名被判刑,但在加拿大,理论上仍有可能面临法律追究,但这可能性极低,且取决于非常具体的情况。我们来详细拆解一下:1. 中国法律的管辖权与刑罚执行: 定罪.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有