问题

去哪找数据?怎么挖掘?

回答
找数据,我们不迷路!

想在数据的海洋里乘风破浪?别担心,这篇文章就是你的导航图,带你找到宝藏,并教你如何把它们变成闪闪发光的洞察。

第一站:数据宝藏在哪里?

数据的来源可不止你想象的那么少,它们就像散落在各处的宝石,等着你去发掘。

公开的宝藏(Open Data):
政府数据开放平台: 很多国家和地区都有专门的数据开放平台,里面你能找到经济统计、交通出行、环境监测、人口信息等各种官方数据。搜索“XX(国家/城市名)+ 数据开放平台”就能找到。
学术研究机构和大学: 高校和科研单位经常会发布一些研究报告和数据集,特别是在特定领域(如生物医学、社会科学)会有深入的数据。可以关注它们的官方网站或研究项目页面。
国际组织: 世界银行、联合国、世界卫生组织等都会公开大量全球性的数据,比如经济发展、贫困率、健康指标等等。
非营利组织(NGOs): 很多关注环保、人权、教育的NGO也会收集和发布相关数据。
开源项目和社区: 比如GitHub上有很多开源项目,里面可能包含与项目相关的各种数据。一些数据科学社区也会共享数据集。
新闻媒体和研究报告: 有时新闻报道或市场研究报告会引用一些公开数据,可以顺藤摸瓜找到源头。

你自己的宝藏(Proprietary Data):
公司内部数据: 如果你在公司工作,那么你最有价值的数据很可能就在公司内部。这包括:
用户行为数据: 网站点击流、App使用记录、交易记录、客服互动记录等等。
业务运营数据: 销售数据、库存数据、生产数据、营销活动效果数据等等。
财务数据: 收入、成本、利润等。
个人数据(需谨慎): 如果是个人项目,你可以通过自己创建的数据收集方式来获取数据,比如:
问卷调查: 在线问卷工具(如SurveyMonkey, 腾讯问卷)可以帮助你设计和分发问卷。
传感器数据: 如果你做物联网项目,传感器收集的数据就是你的宝藏。
网络爬虫(需遵守规则): 对合规网站进行数据抓取。但一定要注意遵守网站的robots.txt文件和用户协议,避免侵犯隐私或版权。

市场上的宝藏(Commercial Data):
第三方数据供应商: 有些公司专门收集和出售数据,例如消费者行为数据、市场调研数据等。这些数据通常需要付费购买。
API接口: 很多服务提供商(如社交媒体、地图服务、天气服务)都提供API接口,你可以通过编程方式获取实时或历史数据。

第二站:如何挖掘这些宝藏?

找到了数据,下一步就是如何把它们变成有用的信息,这就需要你的挖掘技巧了。

1. 明确你的目标:你想解决什么问题?你想了解什么?
这是最最重要的一步!没有目标,你就如同在黑暗中摸索。
举个例子: 如果你想了解用户为什么会在某个电商平台停止购买,你的目标就是找出用户流失的关键因素。

2. 数据收集(Getting the Data):
明确数据需求: 根据你的目标,列出你需要哪些类型的数据。例如,了解用户流失可能需要用户的购买历史、浏览记录、搜索关键词、售后反馈等。
选择合适的工具和方法:
内部数据: 联系IT部门或数据团队,了解数据存放位置和获取方式。可能需要SQL查询数据库,或者访问数据仓库。
公开数据: 直接下载CSV、Excel等格式的文件,或者通过API接口获取。
网络爬虫: 学习使用Python的Scrapy或BeautifulSoup等库进行数据抓取。请务必注意爬虫的礼仪和法律法规。
API: 学习使用Postman等工具测试API,或者直接用代码调用API获取数据。

3. 数据清洗与预处理(Cleaning and Preparing Data):
这是数据挖掘中最耗时但也至关重要的一步。原始数据往往是不完美的,你需要让它们变得“干净”和“有序”。
处理缺失值:
删除含有缺失值的记录(慎用,可能丢失太多信息)。
用平均值、中位数、众数填充。
用回归模型预测填充。
用特定值(如“未知”)填充。
处理异常值:
识别(通过可视化、统计方法如Zscore或IQR)。
删除(慎用)。
平滑(如均值滤波)。
替换(如用相邻值或阈值)。
数据格式统一: 日期格式、文本编码、数值单位等。
重复值处理: 删除重复的记录。
数据类型转换: 将文本型数据转为数值型(如编码分类变量)。
数据合并与连接: 将来自不同源的数据整合在一起。

4. 数据探索性分析(Exploratory Data Analysis EDA):
在深入建模之前,先和数据“聊聊天”,了解它们的脾气。
描述性统计: 计算均值、中位数、标准差、最大值、最小值、百分位数等,了解数据的分布特征。
数据可视化: 这是最直观的方式。
直方图(Histograms): 查看单个变量的分布。
散点图(Scatter Plots): 查看两个数值变量之间的关系。
箱线图(Box Plots): 比较不同类别数据的分布情况。
条形图(Bar Charts): 展示分类数据的频率或数值。
折线图(Line Charts): 展示数据随时间的变化趋势。
热力图(Heatmaps): 展示相关性矩阵或多维数据的模式。
相关性分析: 计算变量之间的相关系数,了解它们之间的线性关系强度。
分组分析: 按某个类别分组,计算该组的统计量,找出差异。

5. 特征工程(Feature Engineering):
从原始数据中创造出对模型更有用的新特征。这是提升模型性能的关键步骤。
创建新特征:
从日期中提取年、月、日、星期几、是否周末等。
合并现有特征,如“总销售额 = 单价 × 数量”。
计算比例或比率,如“用户活跃天数比例”。
对分类变量进行编码(如独热编码 OneHot Encoding, 标签编码 Label Encoding)。
对数值变量进行分箱(Binning),将其离散化。
特征选择: 选择对目标变量最相关的特征,剔除冗余或无关的特征,可以提高模型效率和准确性。常用的方法有:
基于统计的:皮尔逊相关系数、互信息。
基于模型的:使用模型的特征重要性(如决策树、随机森林)。
过滤法:直接根据统计指标筛选特征。
包裹法:将特征选择作为模型训练的一部分。
嵌入法:在模型训练过程中进行特征选择。

6. 模型选择与训练(Model Selection and Training):
根据你的目标和数据类型,选择合适的算法。
分类问题(预测类别): 逻辑回归、决策树、随机森林、支持向量机(SVM)、K近邻(KNN)、朴素贝叶斯。
回归问题(预测数值): 线性回归、多项式回归、岭回归、Lasso回归、决策树回归、随机森林回归。
聚类问题(发现分组): KMeans、DBSCAN。
降维: PCA、tSNE。
深度学习: 如果数据量巨大且有复杂的非线性关系,可以考虑神经网络。
模型训练: 将数据划分为训练集和测试集(或验证集),用训练集训练模型,并使用测试集评估模型性能。

7. 模型评估与调优(Model Evaluation and Tuning):
评估模型是否达到了你的目标。
回归模型评估: Rsquared (决定系数), MSE (均方误差), RMSE (均方根误差), MAE (平均绝对误差)。
分类模型评估: 准确率 (Accuracy), 精确率 (Precision), 召回率 (Recall), F1Score, ROC曲线和AUC值。
模型调优: 使用交叉验证、网格搜索、随机搜索等方法调整模型参数,以获得更好的性能。

8. 结果解读与应用(Interpretation and Application):
最后一步是将你的分析结果转化为可执行的见解和行动。
解释模型: 理解模型为什么做出这样的预测或划分。例如,哪些特征对用户流失影响最大?
讲故事: 将数据分析结果用清晰、易懂的语言呈现给非技术人员,可以用图表辅助说明。
制定行动计划: 基于你的发现,提出具体的改进建议或业务策略。比如,如果发现价格是用户流失的关键因素,那么可以考虑调整定价策略。

一些重要的“软技巧”:

保持好奇心和批判性思维: 不要盲目相信数据,多问“为什么”。
持续学习: 数据科学领域发展迅速,不断学习新的工具和方法。
注重沟通: 与团队成员、业务方保持良好的沟通,确保你的分析方向与目标一致。
文档记录: 详细记录你的数据来源、处理过程、分析方法和结果,方便复盘和分享。
耐心和毅力: 数据挖掘是一个不断试错和优化的过程,需要耐心和坚持。

找到数据并从中挖掘出有价值的信息,就像是一位侦探在无数线索中寻找真相。只要掌握了方法,并且保持那份探究的热情,你一定能在数据的世界里大有收获!

网友意见

user avatar
本文转自简道云的知乎回答有哪些「神奇」的数据获取方式?

已经将网站汇总成表格,大家可以下载查看:【简道云汇总】110+数据网站


如果你不是会爬虫的技术流,那下面这110+网站可以解决你90%的数据需求。

首先,常见的公开数据网站在hao.199it.com/都可以搜索到。

除此之外,补充上面没有的一些网站,一共110+,按需选择:

金融财经数据

  1. 同花顺数据中心:提供股票债券等金融数据
  2. 和讯数据:提供各种股票、基金、外汇、债券等实时数据,有付费,有免费
  3. 零壹财经:大大小小的网贷数据、排行榜等
  4. 金融数据网:提供每日的黄金、汇率、农产品、汽油价格的相关数据
  5. 萝卜投研:提供股市、证券等数据,多以数据研究报告形式展示
  6. 金融界:提供股市、融资等各种资金流向数据,以及丰富的财报和研报
  7. 东方财富网:提供多国的股票、财税、行业、消费等大量丰富的经济数据
  8. 吉林金融网:提供吉林的融资、市场数据
  9. 搜狐证券:提供货币、外汇、行业、市场等宏观数据
  10. CCER经济金融数据库:提供企业财务年度数据、股票收益数据等数据库下载
  11. 香港金融管理局:提供香港的各种经济及金融数据,以宏观数据为主
  12. 世纪未来:数据服务平台,提供银行业务研究、金融大数据等各种付费数据
  13. 新浪财经:提供国内国民经济、行业信息、对外经贸、居民收入等各种宏观的经济数据
  14. 司尔亚司数据信息有限公司:覆盖超过195+个国家的经济数据库,数据全面但收费
  15. INSEE数据:法国统计与经济研究院公开数据
  16. 投中研究院:提供投资领域的分析报告,网站更新频率较高

互联网数据

营销查询:

  1. 5118 / chinaz:支持查询网站排名及发展趋势、百度收录情况等信息
  2. 百度指数:百度旗下/以百度网民行为数据为基础的数据分享平台,支持查询需求图谱
  3. 微信指数:微信旗下/基于微信大数据分析的移动端指数,打开微信→搜索“微信指数”可用
  4. 移动观象台:基于移动设备用户的操作行为,提供应用、公众号排行等,以及大量数据报告
  5. 新榜/微小宝/易赞:几款工具比较类似,支持查看公众号排行、看公众号人群画像等功能
  6. 阿里指数:阿里旗下/反映淘宝平台市场动向的数据分析平台

报告分析:

  1. 易观智库:199IT导航的母网站,权威的互联网数据平台,涵盖战略新兴产业、电商互联网、共享经济、社交营销、移动互联网以及其他互联网服务的数据及分析报告
  2. 艾瑞网:高频率更新互联网前沿的新闻资讯、分析报告,旗下包括艾瑞指数、艾瑞咨询等
  3. 艾媒网:艾媒与艾瑞无关,艾媒网发布的研究报告多偏向移动互联网方向
  4. CBNDdata:以阿里巴巴的商业数据库为基础,输出产业经济分析报告
  5. QuestMobile:周期性地发布一些关于APP的研究报告
  6. 阿里研究院:阿里旗下/发布研究电商等方向趋势的数据报告,内容多与阿里相关
  7. 360研究报告:360旗下/移动、PC、网站、企业、诈骗等安全领域的研究,以及大数据等非安全领域的研究
  8. 中国互联网信息研究中心:经国家主管部门批准组建的管理和服务机构,经常发布一些有价值的互联网信息报告
  9. 中国信通院:针对互联网多个行业的发展趋势,发布白皮书,角度较为宏观
  10. 中国互联网数据平台:提供全国各地区互联网发展报告、基础数据及研究分析报告,数据及报告偏向学术性研究
  11. 清博大数据:提供微信、微博、头条榜单数据,各种研究报告、数据报告、舆情报告及行业热点
  12. 数据观:丰富的前沿行业资讯,及部分研究报告下载
  13. 腾讯大数据:数据服务平台,提供调查研究、移动互联网及特色数据报告,质量较高
  14. 大数据世界:提供大数据相关资讯、应用案例、技术方案及资料下载

地理数据

水土气候数据:

  1. 水土保持生态建设网swcc.org.cn/
  2. 黄河风情yellowriver.org/
  3. 黄河流域数据中心henu.geodata.cn/index.j
  4. 黄土高原水土保护数据库loess.csdb.cn/
  5. 数字黑河heihe.westgis.ac.cn/Def
  6. 大气科学数据库data.iap.ac.cn/
  7. 中国气象科学数据cdc.cma.gov.cn/
  8. 中国气象科学数据共享服务网cdc.cma.gov.cn/
  9. 全球森林土地覆盖动态fao.org/gtos/gofc-gold/
  10. FRA 2000edcsns17.cr.usgs.gov/gl全球森林资源
  11. NOAAnoaa.gov/美国国家海洋和大气管理局
  12. NCDC http://lwf.ncdc.noaa.gov/oa/ncdc.html美国国家气候数据中心
  13. 国际水管理研究所iwmidsp.org/iwmi/info/m
  14. 气候研究所cru.uea.ac.uk/
  15. 植被覆盖数据vgt.vito.be/

环境数据:

  1. 黄土区农业与生态环境数据分中心loess.geodata.cn/
  2. 东北黑土农业生态数据库blackland.csdb.cn/defau
  3. 中国西部环境与生态科学数据中心westdc.westgis.ac.cn/
  4. 西部数据中心westdc.westgis.ac.cn/da
  5. 黄土高原区域数据共享运行服务中心loess.geodata.cn/Portal

遥感数据:

  1. 地面站RS地图查询cs.rsgs.ac.cn/cs_cn/que
  2. 甘肃省基础地理信息中心cehuiju.gansu.gov.cn/5c
  3. 遥感数据网络资源ecology.bnu.edu.cn/gejp
  4. 中国遥感数据网ids.ceode.ac.cn/
  5. GLCF glcf.geodata.cn/etm/Wel
  6. GIS FORUM http://www.gisforum.net/全球最大的GIS中文门户网站
  7. 遥感数据共享ids.ceode.ac.cn/

其他自然人文数据:

  1. 地理国情监测云平台 dsac.cn/
  2. 中国资源卫星应用中心 cresda.com/cn/profile.h
  3. 中国自然资源数据库 data.ac.cn/index.asp
  4. 中国科学院资源环境科学数据中心 resdc.cn/resdc/first.as
  5. 中国地球系统科学数据共享网 geodata.cn:8086/Metadat
  6. 国家地球系统科学数据共享服务平台 geodata.cn/
  7. PM25.in | PM2.5(细颗粒物)及空气质量指数(AQI)实时查询!:中国空气质量监测实时数据pm25.in/
  8. 国际科学数据服务平台 datamirror.csdb.cn/inde
  9. 原始数据搜索 wist.echo.nasa.gov/api
  10. 中国科学院资源环境科学数据中心 resdc.cn/resdc/first.as
  11. 世界聚集人口数据 beta.sedac.ciesin.columbia.edu
  12. 光谱数据分析网站 modis.gsfc.nasa.gov/
  13. 美国航空航天局NASA daac.gsfc.nasa.gov/
  14. 城市轨道交通ntsg.umt.edu/
  15. 人地系统主题数据库webpanda.iis.u-tokyo.ac.jp

影像数据:

  1. USGS Earth Explorer:提供Landsat、MODIS等数据
  2. ESA’s Sentinel Mission:提供Sentinel系列卫星数据,可以下载欧洲航天局所属的影像数据
  3. NOAA CLASS:提供高品质大气数据集,包括美国国防部(DoD)、极地作战环境卫星(POES)、NOAA的地球静止环境卫星(GOES)以及其他派生数据
  4. NASA Reverb:提供多种类数据,包括:Aqua, Terra, Aura, TRMM, Calipso, NASA DC, JASON, ENVISAT等
  5. EOLi:欧洲航天局的地球观测目录和订购服务的客户,通过Java 程序下载数据,支持的数据包括:Envisat, ERS, IKONOS, DMC, ALOS, SPOT, Kompsat, Proba, IRS, SCISAT.
  6. INPE:提供中巴资源卫星数据
  7. Bhuvan Indian Geo-Platform of ISRO:提供印度境内的MS-1, Cartosat,,OceanSat and ResourceSat数据以及全球的NVDI数据、南亚国家的CartoDem Version -3R1数据和北印度洋的气候数据

政府数据

  1. 新加坡政府公开数据:提供新加坡各类数据
  2. 美国政府公开数据:提供美国全国各类数据
  3. 法国政府公开数据:法国政府开放数据平台
  4. 英国政府公开数据:提供英国各类数据
  5. 国家数据:中国国家统计局权威数据
  6. 中国统计年鉴:1999年至今中国统计年鉴,国家统计局官网,提供单页Excel文件下载
  7. 中国统计信息网:全国及各级政府各年度统计公报、年鉴等,为收费数据
  8. 年鉴汪:全国城市统计数据搜索引擎,浏览免费,下载收费
  9. 伦敦市公开数据:提供伦敦人口、就业、环境等各类数据
  10. 国土资源部:国土资源部对外公开的信息报告

其他细分行业数据

  1. 中研网数据:提供医疗、房产、制造业、服务业、零售消费、车辆等全行业数据
  2. 中国报告大厅:提供各行各业的基础数据、调查报告、分析报告、预测报告,种类丰富
  3. CADMAPPER:世界各大城市的DXF文件,原始数据源为OSM,NASA,USGS
  4. 亚马逊网络服务公共数据集:跨科学云数据平台,包含化学、生物、经济等多个领域的数据集
  5. Awesome Public Datasets:Github公共数据搜集项目,自然科学、社会科学覆盖较面,包含各个细分领域的数据库资源。
  6. figshare:数据分析与研究成果共享平台。
  7. 英国公开数据浏览工具:James Trimble制作的英国数据可视化浏览工具集;
  8. 数据法国:法国各类数据的可视化呈现;
  9. DataEye:基于国内游戏、汽车行业数据,进行多角度的行业调查报告撰写发布
  10. CBO中国票房:基于国内票房数据,统计票房排行、上座率等信息。
  11. 易车指数:反映国内汽车销售市场,为购车者或汽车从业者提供参考的数据指数
  12. 高德地图:支持实时查看国内交通情况,此外高德周期性提供一系列数据报告
  13. 房天下:提供中国指数研究院和CREIS中指数据,展示国内房地产数据情况
  14. 艺恩:CBO中国票房数据的提供方,提供一些行业数据报告,如动漫IP价值研究报告



有了数据之后,剩下的事情就是分析和展示数据了,这里介绍一下FineBI数据分析工具,如果你经常用Excel,可以用下这个数据分析工具,能很大程度上提高效率。

FineBI工具在这里:

数据分析工具,操作非常简单,设计页面类excel,直接拖拽数据字段就能生成图表。可选择的图表类型非常多,有很多创意十足的图表令人眼前一亮,系统自带的配色方案也好看。进阶一点的话,还可以拿来制作Dashboard。

主要面对的是业务人员,不懂编程的也可快速上手,根据自己需求设计出仪表板来进行分析,不再麻烦技术人员去一个个要需求,浪费时间不说,还不能做出自己想要的效果。自己分析得出想要的结果,最终帮助企业做出正确的经营决策。它的可视化效果也是非常不错的。

user avatar

找数据是一个非常有意思的话题。不管我们做什么工作,对于数据的需求都是越来越大,因为很多决策通过数据比经验会更加靠谱,通过数据能够更好地掌握市场、竞品等信息,能够发现很多表面的观察得不到的深刻见解。

很多时候数据可以帮助我们解决信息不对称的情况,可以让你快速地去了解一个不熟悉的领域,所以找到有价值的数据很重要。

1.数据开放平台

其实有一些免费的数据开放平台,是可以供我们直接下载数据使用的。

Google Dataset Search:Google发布的数据搜索平台,通过搜索你可以快速定位自己想要的数据信息,并能够快速地找到提供你所需数据的站点和资源。

UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老,但依然活跃在科研学者的视线中。

CEIC:最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

搜数网:已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

亚马逊:来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。

github:大神整理的非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。


2.政务开放数据

现在政府对于数据的开放、共享越来越重视,也希望更多的数据分享出来,被更多的企业、研究机构参考、应用,发挥更大的价值。所以无论是国家层面,还是省市地区,都有比较有价值的数据开放平台。

国家数据:数据来源中华人民共和国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,全面又权威。

中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。

深圳市政府数据开放平台:交通、文娱、就业、基础设施等数据。

上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等12个重点领域数据。

贵州省政府数据开放平台:贵州省在政务数据开放方面做的确实不错。

现在国内的其他很多地区也有类似的平台,在收集数据的时候可以有针对性地去寻找。

Data.gov:美国政府开放数据,包含气候、教育、能源金融等各领域数据。如果需要获取美国的一些政务数据可以去这里收集。


3.竞赛平台及数据交易网站

数据科学竞赛网站通常是很好的数据获取渠道,企业的、政府的数据都有可能通过比赛的形式分享出来,可以经常去关注这类的网站,获取相关的数据。 同时,也有一些可以直接购买数据或者数据接口服务的网站,有一些性价比比较高的数据集也可以付费获取。

DataCastle:国内专业的数据科学竞赛平台。为高校学生和在职人员提供正规的数据挖掘比赛以及数据科学方向的技能学习。比赛和训练中有很多可以用于学习、研究分析的数据集。

Kaggle:全球最大的数据竞赛平台。举办的竞赛数量非常可观,相应的竞赛数据是非常好的资源。比较好的一点是,Kaggle上面有很多大神分享的自己的数据探索、数据挖掘项目可以参考。

天池:阿里旗下数据科学竞赛平台。

数据堂:专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

优易数据:由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。


4.数据报告/行业报告

虽然在数据报告、各种年鉴中你不太能够获得完整的数据集,但往往可以获取一些非常关键的信息和数据,这些信息量可能本身较小,但很多时候也有非常重要的作用。

比如市场规模,业务增长,某些领域的关键指标,平均数、中位数等等,这些数据其实可以给我们的市场调研、商业分析很多重要的信息,而这些东西很多能够在行业报告中找到。

艾瑞网-行业报告:有非常多的互联网行业分析报告,包含各个分支,特别是很多新兴的领域,都有更新的行业报告,对了解行业趋势,提取关键数据很有帮助。

友盟+:友盟提供的报告主要是基于移动应用的数据,如果是做移动医用产品相关的调研和分析,这里应该有很多满足你需求的数据。

阿里研究院:阿里基于淘宝等电商平台的数据的报告分享,对于电商发展趋势,消费数据的收集比较有帮助。

企鹅智酷:腾讯出品的行业报告。不仅局限于互联网行业研究,有更多的关于生活、消费等领域的调研和分析。

IDC:关于全球厂商硬件出货量的数据报告。

易观:非常多的各行业分析报告。


5.指数平台

指数平台提供的数据也比较有限,并不是完整的数据集,但是能够提供一些很关键的数据,给我们调查研究的时候提供关键信息。

百度指数:指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。

阿里指数:国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。

友盟指数:友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。

爱奇艺指数:爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。

微指数:微指数是新浪微博的数据分析工具,微指数通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。分为热词指数和影响力指数两大模块,此外,还可以查看热议人群及各类账号的地域分布情况。

除了以上指数外,还有谷歌趋势搜狗指数360趋势艾漫指数等等。


6.网络爬虫

网络爬虫是一种比较通用的数据获取方式,通过编程的方式可以比较自定义地获取网页的数据,这样可以获取的数据范围和量级都能大大增加。

比如各行业的网站,音乐、旅游、房产、电商、金融、教育……我们平时浏览的网站都有大量的实时更新的数据可以爬取,当然要规范爬虫,同时爬取的数据不能随意分享。

关于可以爬取的网站,可以参考这个回答:


从如何获取数据到对数据进行清洗整理规范化,以及数据的探索分析、预测,以及最终的报告展示,这个完整的数据分析流程,决定了我们最终从数据中获得哪些洞见,并对我们最终的决策产生影响。

如果你希望系统学习数据分析,以Learning by doing 的形式,给你推荐DC学院的这个训练营:

数据分析师训练营-DC学院

课程模拟实际的数据分析工作环境,按照项目流程的路径,带你一步步训练数据分析综合技能,达到专业数据分析师的水平。

添加微信号(datacastle2019),回复“数据分析”,送你一份《数据分析师成长指南》,以及一份可以高效学习数据分析资料包。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有