问题

什么是大数据?

回答
好的,咱们聊聊这个“大数据”,听着挺玄乎,但其实就发生在我们身边,影响着我们生活的方方面面。简单来说,大数据就是那些量特别大、类型特别多、变化特别快,而且还很难用传统方法一次性处理的数据集合。

你别觉得这是什么高科技离我们很远,你想想看:

你每天刷手机,点赞、评论、分享、浏览的每一个动作,都在产生数据。你喜欢看搞笑视频,系统就会给你推送更多搞笑视频;你搜了某个商品,过两天广告就会满天飞。
你开车用导航,地图软件实时收集所有车辆的速度、位置信息,来告诉你哪里堵车,哪条路最快。
你网上购物,你看了什么、买了什么、评价了什么,都记录下来,商家能知道你的偏好,给你推荐更合适的商品。
甚至你家里那个智能音箱,它听你说话、回应你的指令,这也是在收集和处理数据。

所以,你看看,这些看似零散的碎片,加起来就是海量的信息。这还只是个人层面。放到整个社会、整个公司层面,那数据量简直是指数级增长。

为啥叫“大数据”?不就是数据多嘛?

“大数据”之所以特别,关键在于它不仅仅是“多”,还有下面几个显著的特点,通常被概括为“4V”或“5V”:

1. Volume (体量巨大):这是最直观的特点。你想象一下,全球每天产生的文本、图片、视频、音频、交易记录、传感器数据……这些数据量已经从 GB (吉字节) 升级到 TB (太字节),PB (拍字节),甚至 EB (艾字节) 级别了。传统数据库和处理工具根本吃不消。
2. Variety (种类繁多):数据不再是单一的表格形式。它包括:
结构化数据:比如你银行账户里的流水、公司的员工信息表,这些都有明确的格式和字段,很容易组织和查询。
半结构化数据:比如网页的 HTML 代码、JSON 文件,它有一定结构,但不是那么规整,需要解析才能用。
非结构化数据:这是大数据中增长最快也最难处理的部分。比如文字(邮件、社交媒体帖子)、图片、视频、音频、传感器信号等。这些数据没有预设的格式,需要更复杂的分析技术才能从中提取有用的信息。
3. Velocity (处理速度快):很多数据是实时产生、需要实时处理的。比如股票交易信息、银行卡支付信息、监控视频流。如果处理不及时,信息可能就失效了。这就需要能够快速响应和处理的技术。
4. Value (价值密度低):虽然数据总量巨大,但其中真正有价值的信息可能只占很小一部分,就像从沙子里找金子。需要通过复杂的分析才能把这些“金子”提炼出来。这同时也意味着,只要我们能找到价值,那价值是巨大的。
5. Veracity (真实性):数据不总是准确或完整的。可能有错误、缺失、重复或者歧义。比如传感器故障产生错误数据,或者用户输入错误信息。处理大数据时,如何保证数据的质量和准确性也是一个大挑战。

那为什么现在突然这么重视大数据?

过去,我们也有数据,比如公司有客户名单、销售记录。但现在之所以强调大数据,是因为我们有了更强大的技术和工具,能够处理这些海量、多样、高速变化的数据,并且从中挖掘出巨大的价值。

想想看,如果能通过分析顾客的购买习惯,预测他们下次会买什么;或者通过分析交通数据,优化城市交通信号灯;甚至通过分析基因数据,找到治疗疾病的新方法……这些都是大数据带来的可能性。

大数据具体能用来干嘛?

应用场景简直太多了,举几个例子:

商业领域:
精准营销:了解你的客户是谁,他们喜欢什么,预测他们的需求,然后给你推荐你最可能感兴趣的商品或服务。
风险控制:金融机构通过分析大量的交易数据,识别欺诈行为,评估信用风险。
运营优化:零售商分析销售数据,决定商品摆放、补货频率;物流公司分析交通数据,优化配送路线。
产品研发:根据用户反馈和使用数据,改进现有产品,开发新产品。
科学研究:
基因组学:分析海量的基因数据,研究疾病的遗传基础,开发新的药物。
天文学:处理来自望远镜的巨大数据量,发现新的天体和宇宙现象。
气候科学:分析长期的气象和环境数据,预测气候变化趋势。
公共服务:
城市管理:分析交通流量,优化公共交通系统;分析犯罪数据,提高治安水平。
医疗健康:分析病人的病历和治疗数据,发现有效的治疗方案,预测疫情爆发。
教育:分析学生的学习行为数据,个性化教学内容,提高学习效率。

大数据和我们有什么关系?

说实话,我们每个人都是大数据的贡献者,也是大数据价值的受益者(或者有时候是被“操纵”者)。

我们享受着更精准的广告推荐,更便捷的网上服务,更高效的城市交通。
但同时,我们的隐私、我们的行为习惯,也被记录、分析。这就带来了对隐私保护的担忧,以及如何规范数据使用的讨论。

总结一下,大数据不是一项技术,而是一种 趋势 和 一种思维方式 。它意味着我们拥有的信息量之大、之多、之杂,已经远远超出了我们过去的经验和能力范围。而如何有效地收集、存储、处理、分析这些数据,并从中发掘出对我们有用的价值,这就是大数据时代的核心挑战和机遇。

它正在深刻地改变着我们工作、生活、学习的方方面面,是一个值得我们持续关注和了解的领域。希望我这样讲,能让你觉得更接地气一些。

网友意见

user avatar

造数 - 跟新一代智能云爬虫一起探索大数据的乐趣

大数据 Big Data


据说,词源出自Alvin Toffler,上世纪70年代的作品《第三次浪潮》。

逝者 | 阿尔文·托夫勒:如何化解未来的冲击



虽然大数据是一个泛泛的概念词,但是关于大数据,关于大数据处理分析的话题近来持续升温,现在基本成了新一轮工业革命级别的话题。


大数据是什么,作为数据采集团队 ,我们很长的时间里一直也在思考,什么是大数据,大数据的前景和价值在哪里。



这篇文章里,我会跟大家一起分享我的看法以及各种有趣的内容和资源,它们关于:

  1. 什么是大数据
  2. 大数据的实践
  3. 大数据的应用场景



硬广:我们团队的帮助你零门槛采集数据:

造数 - 最好用的云爬虫工具 进击的爬虫工具!


最近都在说裁员,如果想知道互联网裁员潮对就业薪资是不是真的产生了持久的负面影响,可以用我们的工具,帮你定时每天采集几次生成列表看一看。


(一)什么是大数据


先听听行家的说法:


大数据就是多,就是多。原来的设备存不下、算不动。

————啪菠萝·毕加索


大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

_______Schönberger



移步ted:Kenneth Cukier: Big data is better data

America's favorite pie is?
Audience: Apple. Kenneth
Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone's second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn't see when you only had smaller amounts of it.


曾经人们以为最爱吃的派都是苹果派,不过当你有了更细致的数据,你会发现,苹果派受欢迎其实是一种妥协的结果:苹果派是每个人第二喜欢的口味。


拿到小尺寸派的数据以后你更发现,其实苹果派只能排到第四,第五位的样子了。

你有了更多数据,你就能看到之前你看不到的信息。



大数据最核心的价值是什么? - 商业 - 知乎 推荐@Han Hsiao这篇内容的结构十分清晰,对大数据的正面意义提出了非常清晰地探讨。

大数据听着很牛,实际上也很牛吗? - 人工智能 - 知乎 这里 @陈萌萌说的也特别好,怀疑她是不是真的是一个ai。

大数据最核心的价值是什么? - 商业 - 知乎,依然是这个问题, @刘飞的文章。



大数据是大数据的采集



大数据行业,本身是依托于数据源存在的服务性行业。


大数据最根本之处在于信息收集方式出现了重大变化与革新。大数据的出现与大量信息直接在网络呈现关系非常紧密。


微博、天猫、淘宝、微信等等都直接产生了大量包括定位、消息记录、消费记录、评价、阅读等等殊为庞大的信息,可以说互联网企业都自然的带有数据企业的标签。不过如果我们从数据的源头看的更仔细一些,还是会发现,其实很多数据依然是有巨大的采集与归类的需求。



Joel Selanikio:Transcript of "The big-data revolution in healthcare"

There's a concept that people talk about nowadays called "big data." And what they're talking about is all of the information that we're generating through our interaction with and over the Internet, everything from Facebook and Twitter to music downloads, movies, streaming, all this kind of stuff, the live streaming of TED. And the folks who work with big data, for them, they talk about that their biggest problem is we have so much information. The biggest problem is: how do we organize all that information?


现在人人都说大数据,但其实大家说的是 facebook,twitter,streaming 等等站点上每天产生的信息,做大数据的人呢,会觉得我们有的数据量实在太大了。


(组织信息仍然是最难的问题)

I can tell you that, working in global health, that is not our biggest problem. Because for us, even though the light is better on the Internet, the data that would help us solve the problems we're trying to solve is not actually present on the Internet. So we don't know, for example, how many people right now are being affected by disasters or by conflict situations. We don't know for, really, basically, any of the clinicsin the developing world, which ones have medicines and which ones don't. We have no idea of what the supply chain is for those clinics. We don't know -- and this is really amazing to me -- we don't know how many children were born -- or how many children there are -- in Bolivia or Botswana or Bhutan. We don't know how many kids died last week in any of those countries. We don't know the needs of the elderly, the mentally ill. For all of these different critically important problems or critically important areas that we want to solve problems in, we basically know nothing at all.


许多有效的数据还完全不在网络上,要依靠原始的方法来收集。数据方面还有很多基本层面的问题在非常多的领域非常明显。



有哪些「神奇」的数据获取方式? - Liu Cao 的回答 - 知乎 看到这里推荐一个 @Liu Cao

的回答。

严澜(lanceyan)的博客 - 技术分享 框架交流 大数据处理 架构搭建 机器人

强烈推荐:如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?其中 @Xiaoyu Ma



(二)大数据的实践


工具看这里:大数据分析一般用什么工具分析? - JavaScript - 知乎

最近看到个例子,说pokemon go 带给玩家运动量上的变化:


1、应用中的数据分析示例:·



六个月以后,大部分pokemon go 的玩家的运动量逐渐和 non-player基本一致了。

看来确实是一个能用相当效果的游戏。


2、交通状况大数据分析示例:






Susan Etlinger: What do we do with all this big data?

Now, there's a group of data scientists out of the University of Illinois-Chicago, and they're called the Health Media Collaboratory, and they've been working with the Centers for Disease Control to better understand how people talk about quitting smoking, how they talk about electronic cigarettes, and what they can do collectively to help them quit. The interesting thing is, if you want to understand how people talk about smoking, first you have to understand what they mean when they say "smoking." And on Twitter, there are four main categories: number one, smoking cigarettes; number two, smoking marijuana;number three, smoking ribs; and number four, smoking hot women.

这里非常有趣


(三)大数据的应用场景


先贴两个新闻观察:

京津冀大数据产业发展现状 | 报告 | 数据观 | 中国大数据产业观察_大数据门户 数据观 | 中国大数据产业观察_大数据门户


如今,在政策上,国家战略层面上,大数据受到的重视程度都越来越高。


应用场景上,现在分布在:

  1. 供应链和渠道分析&优化
  2. 定价分析与优化
  3. 欺诈行为分析&检测
  4. 设备管理
  5. 社交媒体分析&客户分析




《大数据时代》一书作者维克托认为大数据时代有三大转变:
第一,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。
第二,研究数据如此之多,以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度,将带来更好的洞察力和更大的商业利益。
第三,不再热衷于寻找因果关系,而是事物之间的相关关系。例如,不去探究机票价格变动的原因,但是关注买机票的最佳时机。”大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,而大数据则使数据来源更加多样化,不仅包括企业内部数据,也包括企业外部数据,尤其是和消费者相关的数据


据野史记载,中亚古国花剌子模有一古怪的风俗,凡是给君王带来好消息的信使,就会得到提升,给君王带来坏消息的人则会被送去喂老虎。从前的人喜欢批评这位君王的天真品性,以为奖励带来好消息的人,就能鼓励好消息的到来,处死带来坏消息的人,就能根绝坏消息。

在今天这个信息爆炸的时代,我们不一定能让信使一定送来好消息,但你可以让我们的爬虫定时给你送来最有用最合你需求的信息。


硬广

造数 - 新一代智能云爬虫

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有