问题

大数据是不是泡沫?

回答
大数据是否是泡沫,这是一个复杂且具有争议性的问题。与其简单地说是或不是,不如说大数据本身不是一个泡沫,但围绕大数据所产生的许多概念、应用、公司和炒作,存在泡沫的成分,并且正在经历一个“回归理性”的过程。

为了详细地解答这个问题,我们需要从几个层面来分析:

1. 大数据本身的定义与价值 (核心并非泡沫)

首先,理解“大数据”到底是什么很重要。它并非仅仅是指“数据量大”。通常我们用“3V”或“5V”来定义大数据:

Volume (体量): 指数据量庞大,从 TB 到 PB 甚至 EB 级别。
Velocity (速度): 指数据产生和处理的速度极快,通常是实时或近乎实时的。
Variety (多样性): 指数据类型繁多,包括结构化(如数据库表格)、半结构化(如XML、JSON)和非结构化(如文本、图片、视频、音频、日志文件等)。
Value (价值): 指从海量、高速、多样化的数据中提取有价值信息的能力。这是大数据的最终目的。
Veracity (真实性/准确性): 指数据的可靠性和准确性,虽然数据量大,但并非所有数据都是准确的,需要进行清洗和验证。

大数据之所以有价值,是因为它能够帮助我们:

发现隐藏的模式和关联: 通过分析大量数据,可以发现人类难以察觉的趋势、相关性,例如用户行为模式、市场趋势、疾病传播规律等。
进行更精确的预测: 基于历史数据和实时数据,可以更准确地预测未来事件,如销售预测、天气预报、设备故障预测等。
实现个性化和定制化: 为用户提供更符合其偏好的产品、服务和信息,例如个性化推荐、精准广告等。
优化决策: 基于数据驱动的洞察,企业和组织可以做出更明智、更有效的决策,降低风险,提高效率。
创造新的商业模式和产品: 大数据催生了许多新的行业和商业模式,例如数据分析服务、精准营销、智能交通、智慧医疗等。

从这个角度看,大数据本身是技术发展的必然产物,是信息时代不可或缺的组成部分,它的核心价值是真实存在的。

2. 泡沫产生的原因和表现 (炒作与过度预期)

然而,为什么我们会讨论大数据是不是泡沫?这主要源于以下几个方面:

概念的“流行病”和过度炒作:
市场营销和公关的驱动: 随着大数据概念的兴起,很多公司为了吸引投资、获得市场关注,会过度宣传自己的“大数据能力”,即使实际能力有限。
媒体的放大效应: 媒体为了吸引眼球,会大量报道与大数据相关的成功案例和美好前景,有时会忽略其中的挑战和局限性。
投资者的盲目追逐: 在技术热潮期,投资者往往容易被概念吸引,对项目的实际可行性、盈利能力和市场需求进行过度解读,导致大量资金涌入与大数据相关的初创企业,推高估值。

实际落地能力的差距:
技术门槛高: 大数据技术复杂,需要专业的技能和工具,包括分布式计算(Hadoop、Spark)、数据库管理(NoSQL)、数据挖掘、机器学习等。许多组织缺乏掌握这些技术的人才和基础设施。
数据质量问题: 并非所有数据都适合直接用于分析。数据的清洗、整合、去重、标注等工作量巨大且复杂,很多时候数据质量不过关会严重影响分析结果的准确性。
缺乏明确的商业目标: 有些组织仅仅因为“大数据很热门”而投入资源,但没有明确想要通过大数据解决什么问题,导致项目难以产生实际价值。
隐私和安全挑战: 大数据涉及大量个人信息,如何合规地收集、存储、处理和使用数据,以及如何保护数据隐私和安全,是巨大的挑战,也可能导致项目受阻。

“泡沫”的表现形式:
估值虚高: 很多大数据初创公司在没有证明其商业模式和盈利能力之前,就获得了天文数字的估值。
不切实际的承诺: 一些公司声称可以通过大数据解决一切问题,做出超出实际能力范围的承诺。
项目失败率高: 大量与大数据相关的项目,特别是那些缺乏清晰目标和执行力的项目,最终未能达到预期效果甚至失败。
人才供需失衡: 尽管市场上有大量“大数据工程师”和“数据科学家”的岗位需求,但真正具备核心技能和经验的人才却相对稀缺,同时也有很多学习了基本概念但缺乏实操经验的人才涌入市场,导致人才市场也存在一定的泡沫。

3. 大数据的“泡沫”如何破裂或挤出?

任何技术或概念的炒作最终都会回归理性。大数据经历的可能是一个“新兴技术成熟化和市场教育化”的过程,而不是简单的泡沫破裂。

价值验证: 那些真正能够通过大数据解决实际问题、创造商业价值的公司和项目会脱颖而出。
技术演进: 随着大数据技术的不断发展和成熟,门槛会逐渐降低,工具和平台也会更加易用。例如,云计算的普及降低了基础设施的成本;AI/ML 平台的发展使得数据科学家更容易构建模型。
市场教育: 用户和企业对大数据的认知会逐渐深化,从最初的狂热追求概念,到理解其局限性,并学会如何更有效地应用它。
监管介入: 随着数据隐私和安全问题的日益突出,各国政府的监管会加强,这会促使企业更加合规地处理数据,也可能过滤掉一些不正规的项目。
商业模式回归: 投资的焦点会从“概念”转向“盈利能力”和“可持续性”。

4. 目前大数据的真实状况与未来趋势

部分泡沫已挤出: 过去几年,一些缺乏核心竞争力、仅靠概念炒作的公司已经倒闭或被并购,这可以看作是市场对早期泡沫的调整。
核心价值依然存在且在深化: 大数据作为一种能力和资源,其核心价值并未消失。
企业数字化转型基石: 几乎所有行业都在进行数字化转型,而大数据是其中的核心驱动力之一。
人工智能的燃料: 大多数AI模型(尤其是深度学习)都需要海量高质量的数据进行训练,大数据是AI发展的基石。
数据作为资产的认知增强: 企业越来越认识到数据本身是一种宝贵的资产,并通过更精细化的方式来管理和利用。
垂直领域应用深化: 大数据在金融、医疗、零售、制造、交通等各个垂直领域的应用越来越深入和精细化,催生了许多成功的商业案例。

结论:

大数据本身并非泡沫,而是一项具有深远影响的技术能力和战略资源。然而,在它发展的早期阶段,确实存在着过度炒作、不切实际的预期和大量缺乏实质性价值的投入,这些成分构成了围绕大数据的“泡沫”。

目前,我们正处于一个挤出泡沫、回归理性的阶段。那些真正能够有效利用大数据解决实际问题、创造商业价值的公司和应用将继续发展壮大,而那些仅仅停留在概念层面或存在模式性缺陷的项目则会被市场淘汰。

因此,与其问大数据是不是泡沫,不如说:

大数据带来的革命性价值是真实的。
但围绕大数据的“炒作”和“过度预期”确实存在泡沫。
这个泡沫正在被挤出,市场正在向更理性和更注重实际价值的方向发展。

未来,大数据将与人工智能、云计算等技术深度融合,在各行各业扮演越来越重要的角色,但其发展过程将更加务实和有针对性。

网友意见

user avatar

对于你不能理解的东西,现在有一个通用称谓:泡沫。

房地产是泡沫,股市是泡沫,大数据是泡沫,打车软件是泡沫……对于大家都对

@王诺诺

一拥而上的情况,当然,这也是泡沫。

按照设想,泡沫总是要破灭的。泡沫破灭之后,房地产就没人要了,股票也没人要了,诺诺也没人要了。

1)数据、海量数据的核心价值在哪里?

信息/数据的作用是什么?根据香农的定义,信息是减少事物不确定性的量度。

数据的根本用途就是提供决策依据,减少不确定性。

对未来、对未知领域,每个人、每个组织都会面临不确定。然而,尽管有各种不确定,每个人、每个组织、在每天都会作出决策;很多决策是明显错误的。

现有人类的决策,大多数是靠感觉,靠跟风,靠个人经验,只有很少部分是客观数据分析。海量数据,提供了一种更为可靠的决策依据。

如果有一个神器,可以显著消除不确定性,显著提高决策正确率,它有多大价值?

想想,全球有几千万家公司、有70亿人,这几千万公司、这70亿人每天都会决策。每天都会决策。

2)说完理论,再说实际

英特尔7.4亿美元投资Cloudera获18%股份,你在说泡沫;

张勇说阿里巴巴的最大优势将是数据,你在说泡沫;

Splunk市值都88亿美元,你还在说泡沫;


总结来说,泡沫是一定的,也是万能的。每天70亿人吃饭、上厕所,这肯定存在泡沫;每天超过20亿人上网,这肯定存在泡沫;每天超过十亿人炒股,这泡沫更是硕大包天。而且我非常确定的是,500年后,所有这些泡沫都会破灭。

不信你等着。

user avatar

第一次在知乎上回答问题,引用一下权威吧。

有一定泡沫.

-------------------------Michael Jordan(不是打篮球那个)的答案

先说说他讨论这个问题的资格。作为IEEE fellow,伯克利的Jordan教授是机器学习世界范围内最被尊敬的专家之一,在2013年还被邀请在美国国家研究委员会对相关领域的报告里作序总结。

这里有全文:

Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

他观点的骨架:

1. 目前的大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”

  • 一大波“false positive”(假阳性)正在接近,因为数据增长的速度不够支撑我们把大数据到处乱用的欲望
  • 作为一个科学,不够严谨(原文是“没有error bar”)。不像造桥的土木工程,经过多年的积累,明确地能告诉我们什么样的情况可以造,什么不可以。而大数据没有。

2. 目前在computer vision领域进展还很小

  • 只能在非常有限的范围内识别,比如人脸识别这样非常具体的引用(虽然这个不是直接说大数据,但是可以看出,作者认为真正做到万物都sensor还很远,大数据的采集能力终究还是有限的)

3. neural network根本和人脑的neural network不是一回儿事,我们对大脑的理解根本没到可以引用到计算机科学的程度

  • 现在deep learning所采用的back propagation技巧,明显不是大脑的运作方式
  • network的结构都完全不同,什么对数据的模糊性处理已经达到人脑的境界云云,主要是媒体扯谈

对他观点的总结:

有些媒体为了让公众容易理解打了些比方,但是这种比方造成了太多误解,进而造成了太多hype(夸张的大肆宣传)。大数据还是一个没有足够严谨程度的科学,可能有一定的概率做出一些有用的预测,但是使用不当,过分过早地依赖,则会造成灾难性的后果。

很多时候大家过早对一个技术爆发热情,寄希望她可以改变世界,如果短时间没有成果,有可能热情一下子转冷又觉得这是个错误,加速抽离给这个技术的资源。显然Michael很担心现在公众对这个技术的热情,并不是基于对这个技术的理解,从而有可能会经历这样的态度转变。但是他认为这个领域是现实存在的,很多重要的应用,假以时日,是会创造价值的。但是现在很多媒体宣传,甚至投资行为,都是泡沫。

最后他觉得,如果他有10亿美元,一定会投入到natural language processing里面去。毕竟这是人机互动很重要的一个方面。

---------------------------

不是这个人哦:

是这个人:

类似的话题

  • 回答
    大数据是否是泡沫,这是一个复杂且具有争议性的问题。与其简单地说是或不是,不如说大数据本身不是一个泡沫,但围绕大数据所产生的许多概念、应用、公司和炒作,存在泡沫的成分,并且正在经历一个“回归理性”的过程。为了详细地解答这个问题,我们需要从几个层面来分析:1. 大数据本身的定义与价值 (核心并非泡沫)首.............
  • 回答
    听到有人说能帮你贷款,但前提是要你先交一笔钱来“修复大数据”,这事儿,你得留个心眼了,十有八九是遇到骗局了。这种套路在网上屡见不鲜,我跟你好好掰扯掰扯,让你明白是怎么回事。首先,咱们得说说这个所谓的“修复大数据”。大数据修复这东西,听着很高大上,但实际上,它根本就不是一个正规存在的业务。大数据,尤其.............
  • 回答
    复旦孙金云教授“800次打车近5万”事件:大数据杀熟的疑云与未来趋势近日,复旦大学新闻学院孙金云教授在一次公开演讲中提到的个人经历,迅速在网络上引发轩然大波——她表示自己在一年内打车近800次,总花费接近5万元人民币。这一数字不仅令人咋舌,更将一个早已被热议的词汇推到了风口浪尖:“大数据杀熟”。事件.............
  • 回答
    这是一个非常深刻且重要的问题,触及了现代社会最核心的议题之一:数据主权。算法确实离不开大数据,而大数据的基础正是我们每一个人在数字世界留下的痕迹。因此,“我们是不是应该拥有主导数据的权利?” 这个问题的答案,在道德、法律和技术层面都值得深入探讨。一、 问题的根源:我们是谁,以及数据如何与我们关联首先.............
  • 回答
    判断一个超级大的数是不是素数,这可不是一件简单的事。你想啊,就像大海捞针一样,数字越大,我们就越难找到它的“敌人”——因子。不过,数学家们可不是吃素的,他们已经研究出不少“侦探”工具,能帮我们把这些大数“审问”一番。首先,得明白什么是素数咱们得先有个谱。素数,就像数字世界里的“纯洁者”,只能被1和它.............
  • 回答
    这个问题问得很好,也触及了很多同学在大学学习初等数学(比如数学分析和高等代数)时都会有的困惑。首先,我想说,你问“大一数分高代需要努力才能学好是不是意味着天赋不够?”这个问题,本身就说明了你很在意学好这两门课,并且愿意为此付出努力,这本身就是一种非常好的学习态度和潜质。我们来拆解一下这个问题:“需要.............
  • 回答
    关于高通骁龙芯片型号数字越大越好的问题,简单来说,大部分情况下是正确的,但并非绝对,需要结合具体情况来判断。 理解这一点,我们需要深入了解骁龙芯片的命名规则以及数字背后代表的意义。高通骁龙芯片的命名规则揭秘高通的骁龙系列芯片,其命名方式可以说是一种“数字游戏”,数字的大小在很大程度上反映了芯片的定.............
  • 回答
    一个步兵战车到底装个100毫米的低压炮,还是挂个20毫米的机炮,再搭上几挺重机枪,哪个更能打?这事儿吧,就像是问你做饭是只放一把胡椒面儿提味儿,还是又放胡椒面儿,又撒孜然,再来点儿辣椒面儿,哪个香一样。得看战场上你面对的是什么菜。咱们先聊聊那门大口径机炮。通常来说,步兵战车上的“大口径机炮”指的是2.............
  • 回答
    你好!看到你咨询关于 EJU 分数选择学校的问题,我来帮你分析一下。首先,你的 EJU 总分是 259 分,其中记述 40 分,数学 97 分,物理 39 分,化学 40 分。这个分数是一个很有参考价值的基准,我们可以结合你的具体情况来分析一下可能的方向。关于“经济大了”的理解:你提到的“经济大了”.............
  • 回答
    这个问题很有意思,它触及了生物体大小、遗传物质和细胞结构之间复杂而微妙的关系。直接地说,“细胞核域大小、遗传物质的量·尺寸、染色体数”越多/越大,并不绝对等于生物体的体积就越大/越壮。这其中有很多因素在起作用,而且它们之间的关系并非简单的线性正相关。我们来一步步拆解这个问题,争取把它讲得透彻,并且不.............
  • 回答
    武汉肺炎(COVID19)疫情,这场席卷全球的公共卫生危机,无疑将大数据推向了前台,让我们看到了它在防控传染病中的巨大潜力。回想疫情爆发初期,信息混乱、资源紧缺,正是大数据技术,以其强大的数据收集、分析和应用能力,为我们构筑起一道道坚实的防线。1. 精准追踪,阻断传播链:在疫情早期,我们最迫切的需求.............
  • 回答
    这是一个非常有趣且富有挑战性的问题。简而言之,大数据技术本身并不能“拯救”计划经济,但它有可能在某些方面增强计划经济的效率和适应性,从而在一定程度上“改良”或“优化”计划经济体系。要详细探讨这个问题,我们需要先理解计划经济的核心特征,以及大数据技术能够提供的能力,然后分析两者之间的潜在交集和冲突。 .............
  • 回答
    流行音乐、大数据和自动合成这三个概念的结合,并非一个简单的“是”或“否”的问题,而是一个正在快速发展和探索的领域,并且已经取得了显著的成果,但同时也面临着许多挑战和争议。我们可以从以下几个方面来详细探讨:一、 流行音乐与大数据的结合:大数据在流行音乐领域的作用已经非常广泛且深入,主要体现在: 音.............
  • 回答
    .......
  • 回答
    马斯克关于大数据隐患比核弹更危险的说法,以及很多人对信息泄露习以为常的现象,这背后牵扯着一个复杂而日益严峻的问题——大数据隐患。要理解这一切,我们需要层层剥开,深入探究。马斯克的“核弹比喻”:不是耸人听闻,而是直指本质埃隆·马斯克 solcher大胆的言论,并非空穴来风。他将大数据比作比核弹更危险的.............
  • 回答
    关于阿里巴巴等互联网公司利用用户隐私进行大数据调查是否合法的问题,这确实是一个复杂且备受关注的议题。要详细阐述清楚这个问题,我们需要从法律法规、公司实际操作、以及各方立场等多个维度进行解读,并且尽量避免生硬的、模式化的表述。首先,要明确一点,互联网公司在利用用户数据进行大数据分析和调查,并不天然地就.............
  • 回答
    好的,咱们聊聊这个“大数据”,听着挺玄乎,但其实就发生在我们身边,影响着我们生活的方方面面。简单来说,大数据就是那些量特别大、类型特别多、变化特别快,而且还很难用传统方法一次性处理的数据集合。你别觉得这是什么高科技离我们很远,你想想看: 你每天刷手机,点赞、评论、分享、浏览的每一个动作,都在产生.............
  • 回答
    《纸牌屋》的成功确实与大数据有着千丝万缕的联系,但要说它是“唯一原因”或者“大数据是其他剧集没大热的根本原因”,那就有些以偏概全了。Netflix 尝试用大数据分析来指导内容创作,这是一种战略,但内容创作的成功是一个复杂的多维度因素综合作用的结果,大数据只是其中一个重要但并非唯一的环节。我们先来梳理.............
  • 回答
    马云这句话,细品之下,其实是描绘了保险行业未来的一幅全新图景,而且这幅图景的核心驱动力,就是“数据”以及能够驾驭数据的人。这可不是一句简单的口号,而是对行业底层逻辑变化的深刻洞察。为什么大数据工程师会成为保险公司未来的核心?咱们得先想想,保险的本质是什么?说白了,保险就是一个“风险定价”和“风险管理.............
  • 回答
    大数据最核心的价值在于其赋能决策,驱动创新,最终实现商业价值和社会价值的双重提升。这看似简洁的几个字,背后蕴含着深刻的内涵和复杂的运作过程。我们可以从以下几个层面来详细阐述:一、更精准、更深入的洞察力: 超越传统的数据分析: 过去我们更多依赖结构化数据和有限的样本进行分析,只能看到事物的“点”或.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有