本文转自简道云的知乎回答:有哪些「神奇」的数据获取方式?
已经将网站汇总成表格,大家可以下载查看:【简道云汇总】110+数据网站
如果你不是会爬虫的技术流,那下面这110+网站可以解决你90%的数据需求。
首先,常见的公开数据网站在https://hao.199it.com/都可以搜索到。
除此之外,补充上面没有的一些网站,一共110+,按需选择:
营销查询:
报告分析:
水土气候数据:
环境数据:
遥感数据:
其他自然人文数据:
影像数据:
有了数据之后,剩下的事情就是分析和展示数据了,这里介绍一下FineBI数据分析工具,如果你经常用Excel,可以用下这个数据分析工具,能很大程度上提高效率。
FineBI工具在这里:
数据分析工具,操作非常简单,设计页面类excel,直接拖拽数据字段就能生成图表。可选择的图表类型非常多,有很多创意十足的图表令人眼前一亮,系统自带的配色方案也好看。进阶一点的话,还可以拿来制作Dashboard。
主要面对的是业务人员,不懂编程的也可快速上手,根据自己需求设计出仪表板来进行分析,不再麻烦技术人员去一个个要需求,浪费时间不说,还不能做出自己想要的效果。自己分析得出想要的结果,最终帮助企业做出正确的经营决策。它的可视化效果也是非常不错的。
找数据是一个非常有意思的话题。不管我们做什么工作,对于数据的需求都是越来越大,因为很多决策通过数据比经验会更加靠谱,通过数据能够更好地掌握市场、竞品等信息,能够发现很多表面的观察得不到的深刻见解。
很多时候数据可以帮助我们解决信息不对称的情况,可以让你快速地去了解一个不熟悉的领域,所以找到有价值的数据很重要。
其实有一些免费的数据开放平台,是可以供我们直接下载数据使用的。
Google Dataset Search:Google发布的数据搜索平台,通过搜索你可以快速定位自己想要的数据信息,并能够快速地找到提供你所需数据的站点和资源。
UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老,但依然活跃在科研学者的视线中。
CEIC:最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。
搜数网:已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。
亚马逊:来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。
github:大神整理的非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。
现在政府对于数据的开放、共享越来越重视,也希望更多的数据分享出来,被更多的企业、研究机构参考、应用,发挥更大的价值。所以无论是国家层面,还是省市地区,都有比较有价值的数据开放平台。
国家数据:数据来源中华人民共和国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,全面又权威。
中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。
北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。
深圳市政府数据开放平台:交通、文娱、就业、基础设施等数据。
上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等12个重点领域数据。
贵州省政府数据开放平台:贵州省在政务数据开放方面做的确实不错。
现在国内的其他很多地区也有类似的平台,在收集数据的时候可以有针对性地去寻找。
Data.gov:美国政府开放数据,包含气候、教育、能源金融等各领域数据。如果需要获取美国的一些政务数据可以去这里收集。
数据科学竞赛网站通常是很好的数据获取渠道,企业的、政府的数据都有可能通过比赛的形式分享出来,可以经常去关注这类的网站,获取相关的数据。 同时,也有一些可以直接购买数据或者数据接口服务的网站,有一些性价比比较高的数据集也可以付费获取。
DataCastle:国内专业的数据科学竞赛平台。为高校学生和在职人员提供正规的数据挖掘比赛以及数据科学方向的技能学习。比赛和训练中有很多可以用于学习、研究分析的数据集。
Kaggle:全球最大的数据竞赛平台。举办的竞赛数量非常可观,相应的竞赛数据是非常好的资源。比较好的一点是,Kaggle上面有很多大神分享的自己的数据探索、数据挖掘项目可以参考。
天池:阿里旗下数据科学竞赛平台。
数据堂:专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。
优易数据:由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。
虽然在数据报告、各种年鉴中你不太能够获得完整的数据集,但往往可以获取一些非常关键的信息和数据,这些信息量可能本身较小,但很多时候也有非常重要的作用。
比如市场规模,业务增长,某些领域的关键指标,平均数、中位数等等,这些数据其实可以给我们的市场调研、商业分析很多重要的信息,而这些东西很多能够在行业报告中找到。
艾瑞网-行业报告:有非常多的互联网行业分析报告,包含各个分支,特别是很多新兴的领域,都有更新的行业报告,对了解行业趋势,提取关键数据很有帮助。
友盟+:友盟提供的报告主要是基于移动应用的数据,如果是做移动医用产品相关的调研和分析,这里应该有很多满足你需求的数据。
阿里研究院:阿里基于淘宝等电商平台的数据的报告分享,对于电商发展趋势,消费数据的收集比较有帮助。
企鹅智酷:腾讯出品的行业报告。不仅局限于互联网行业研究,有更多的关于生活、消费等领域的调研和分析。
IDC:关于全球厂商硬件出货量的数据报告。
易观:非常多的各行业分析报告。
指数平台提供的数据也比较有限,并不是完整的数据集,但是能够提供一些很关键的数据,给我们调查研究的时候提供关键信息。
百度指数:指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。
阿里指数:国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。
友盟指数:友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。
爱奇艺指数:爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。
微指数:微指数是新浪微博的数据分析工具,微指数通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。分为热词指数和影响力指数两大模块,此外,还可以查看热议人群及各类账号的地域分布情况。
除了以上指数外,还有谷歌趋势、搜狗指数、360趋势、艾漫指数等等。
网络爬虫是一种比较通用的数据获取方式,通过编程的方式可以比较自定义地获取网页的数据,这样可以获取的数据范围和量级都能大大增加。
比如各行业的网站,音乐、旅游、房产、电商、金融、教育……我们平时浏览的网站都有大量的实时更新的数据可以爬取,当然要规范爬虫,同时爬取的数据不能随意分享。
关于可以爬取的网站,可以参考这个回答:
从如何获取数据到对数据进行清洗整理规范化,以及数据的探索分析、预测,以及最终的报告展示,这个完整的数据分析流程,决定了我们最终从数据中获得哪些洞见,并对我们最终的决策产生影响。
如果你希望系统学习数据分析,以Learning by doing 的形式,给你推荐DC学院的这个训练营:
课程模拟实际的数据分析工作环境,按照项目流程的路径,带你一步步训练数据分析综合技能,达到专业数据分析师的水平。
添加微信号(datacastle2019),回复“数据分析”,送你一份《数据分析师成长指南》,以及一份可以高效学习数据分析资料包。