问题

如何获取微观数据?

回答
获取微观数据是一个复杂但至关重要的过程,因为它能帮助我们深入理解个体行为、市场动态、经济运行以及社会现象。微观数据指的是关于个体、家庭、企业、产品、交易等最小经济单位的信息。下面我将详细介绍获取微观数据的几种主要途径和关键步骤。

理解微观数据的类型

在深入探讨获取方法之前,了解微观数据的类型非常重要:

个体层面数据: 关于个人的信息,如年龄、性别、教育程度、收入、就业状况、消费习惯、健康状况、行为模式等。
家庭层面数据: 关于家庭的信息,如家庭收入、支出、结构、住房情况、拥有资产等。
企业层面数据: 关于企业的信息,如企业规模、行业、员工数量、财务报表、生产数据、创新活动、市场份额、管理结构等。
产品/服务层面数据: 关于具体产品或服务的信息,如价格、质量、特征、生产成本、销售量、用户评价等。
交易层面数据: 关于具体交易的信息,如交易时间、地点、价格、数量、参与方、支付方式等。

获取微观数据的途径

获取微观数据主要有以下几种途径:

一、一手数据收集 (Primary Data Collection)

这是最直接但也是最耗时和耗成本的方式。一手数据是研究者自己设计和收集的数据。

1. 调查 (Surveys):
定义: 通过问卷或访谈收集信息。
类型:
横截面调查 (Crosssectional Surveys): 在特定时间点收集不同个体的/家庭的/企业的样本数据。例如,某一年对全国1000个家庭的收入和消费进行调查。
纵向/追踪调查 (Longitudinal/Panel Surveys): 在一段时间内反复追踪同一批个体/家庭/企业,收集他们随时间变化的数据。例如,每年追踪同一批学生,了解他们的教育和就业轨迹。
方法:
问卷调查:
在线问卷: 通过电子邮件、社交媒体、专业调查平台(如SurveyMonkey, Qualtrics, 问卷星)分发。优点是成本低、速度快、易于分析;缺点是参与率可能不高,样本可能不具代表性。
纸质问卷: 在特定地点(如街头、会议、家庭访问)发放。优点是覆盖范围广,可能更具代表性;缺点是成本高、分发和回收效率低、数据录入费时。
电话调查: 通过电话进行问卷访问。优点是比在线问卷更具互动性,可以澄清问题;缺点是电话覆盖率下降,电话骚扰导致回应率低。
访谈:
结构化访谈: 严格按照预设问题顺序和措辞进行。
半结构化访谈: 有预设核心问题,但允许根据受访者回答进行追问和深入探讨。
非结构化访谈: 自由交流,更侧重于探索性研究。
关键步骤:
确定研究目标和问题: 需要收集什么信息来回答你的问题?
设计问卷/访谈提纲: 问题需要清晰、无歧义、避免引导性。考虑问题顺序、封闭式/开放式问题。
确定抽样方法: 如何选择有代表性的样本?(随机抽样、分层抽样、整群抽样等)。样本量是关键。
进行预测试 (Pilot Testing): 在小范围内测试问卷,发现问题并修改。
数据收集: 执行调查计划。
数据清理和录入: 检查错误,录入数据库。
数据分析: 根据研究目标进行统计分析。

2. 实验 (Experiments):
定义: 通过控制变量和处理,观察其对特定结果的影响。常用于因果关系研究。
类型:
实验室实验 (Lab Experiments): 在受控环境中进行,例如,测试消费者对不同产品设计的偏好。
现场实验 (Field Experiments): 在真实环境中进行,但研究者仍尝试控制一些变量。例如,对两组商店同一商品进行不同价格促销,观察销售量的差异。
随机对照试验 (Randomized Controlled Trials RCTs): 最严格的实验设计,参与者被随机分配到处理组或对照组。
挑战: 可能成本高昂,伦理问题,结果的可推广性问题。

3. 观察法 (Observation):
定义: 直接观察个体行为、事件或现象,并进行记录。
类型:
参与式观察 (Participant Observation): 研究者融入被观察群体进行观察。
非参与式观察 (Nonparticipant Observation): 研究者不参与被观察活动,只是旁观记录。
应用: 记录消费者在超市的购物路径和选择,观察工人工作流程等。

二、二手数据利用 (Secondary Data Utilization)

这是更常见也更有效率的获取微观数据的方式。二手数据是指已经由其他人或机构收集并发布的、可供研究者直接使用的数据。

1. 政府统计机构发布的数据:
特点: 数据量大、权威性高、覆盖面广、定期更新。
主要来源:
中国国家统计局 (National Bureau of Statistics of China NBS): 发布国民经济和社会发展统计公报、年鉴、月报等。其中包含大量基于抽样调查的微观数据(如居民收支、工业企业、服务业企业等)。
各省市统计局: 发布本地区的统计数据。
专业统计部门: 如人力资源和社会保障部、农业部、海关总署、税务总局等,在其业务范围内也会发布相关微观数据。
获取方式:
官方网站下载: 很多数据会以表格、PDF、Excel等形式发布在统计局的官方网站上。
统计年鉴: 这是最常用的获取历史数据的方式,包含了详细的行业、地区和个体经济单位的汇总和部分微观信息。
专门的数据平台/数据库: 国家统计局等机构可能会有更专门的数据查询平台。
示例:
中国家庭收入调查 (China Household Income Project CHIP): 由北京大学中国经济研究中心组织实施,提供了大量关于中国家庭收入、消费、资产和人力资本的微观数据。这是学术研究的重要资源。
中国工业企业数据库 (China Industrial Enterprise Database): 由国家统计局提供,包含中国规模以上工业企业的详细数据,如行业、地点、产品、投入产出、员工、工资等。这是研究中国工业经济和企业行为的宝贵资源。
中国服务业数据库: 类似工业企业数据库,但覆盖服务业。

2. 学术研究机构和大学发布的数据库:
特点: 通常是特定研究项目产生的,数据可能更专业、更深入,但覆盖面可能不如政府数据广。
获取方式: 通过学术研究机构的网站、数据仓库或直接联系研究者。
示例:
中国金融研究数据库 (China Financial Research Database): 包含上市公司财务数据、股票市场数据等。
中国劳动力市场数据库 (China Labor Market Database): 关于劳动力供求、工资、就业等信息。

3. 国际组织发布的数据:
特点: 具有国际可比性。
主要来源:
世界银行 (World Bank): 提供各国经济、社会、环境等方面的宏观和微观数据。
国际货币基金组织 (IMF): 提供金融和经济数据。
联合国 (UN): 各类统计数据。
获取方式: 官方网站。

4. 企业和商业数据:
特点: 通常是市场化的、有商业价值的数据。
来源:
商业数据库提供商: 如万得信息 (Wind)、东方财富 (Eastmoney)、Choice, Refinitiv, Bloomberg 等,它们收集、整理和销售上市公司财务数据、股票数据、行业数据、宏观经济数据等。这些通常需要付费订阅。
电商平台数据: 如淘宝、京东、拼多多等,它们拥有海量的消费者购买行为、商品信息、价格数据。这些数据通常不对外开放,但可以通过合作或购买第三方分析服务获得。
社交媒体数据: 如微信、微博、抖音等,包含用户行为、兴趣、互动信息。获取需要遵守平台政策,并可能涉及爬虫技术(需谨慎)。
支付平台数据: 如支付宝、微信支付等,包含交易信息。出于隐私保护,通常非常难以直接获取。
传感器和IoT设备数据: 智能设备(如智能家居、可穿戴设备、智能汽车)产生大量实时微观数据。
企业自身的运营数据: 如CRM系统、ERP系统中的客户信息、销售记录、生产日志等。只有企业内部人员才能访问。

5. 网络抓取 (Web Scraping):
定义: 利用程序自动从网站上提取信息。
应用: 可以用来抓取公开的商品价格、用户评论、招聘信息、新闻报道等微观数据。
关键点:
遵守网站robots.txt协议和法律法规: 尊重网站的爬虫政策,避免非法抓取。
使用合适的工具: Python (BeautifulSoup, Scrapy), R (rvest) 等库可以实现网页抓取。
数据清洗和处理: 抓取到的原始数据往往需要大量清洗和格式化才能使用。
挑战: 网站结构变化可能导致抓取失效,需要持续维护。

三、混合方法 (Hybrid Approaches)

在很多情况下,研究者会结合使用一手数据和二手数据来达到最佳效果。例如,使用政府统计的行业平均数据作为背景,然后通过自己的调查来收集更具体的企业运营细节。

获取微观数据的注意事项与挑战

1. 数据质量和可靠性:
准确性: 数据是否真实反映了情况?是否存在测量误差?
完整性: 数据是否缺失?缺失比例多大?缺失的原因是什么?
一致性: 不同来源的数据之间是否存在矛盾?
时效性: 数据是否过时?

2. 数据访问权限和成本:
很多有价值的微观数据是受保护的,需要申请、付费或建立合作关系才能获得。例如,一些政府统计的微观样本数据可能只提供给学术研究者,并且需要签署保密协议。
商业数据库通常是昂贵的。

3. 隐私和伦理问题:
处理包含个人身份信息的微观数据时,必须严格遵守隐私保护法规(如中国的《个人信息保护法》)。
需要匿名化处理,确保数据无法追溯到具体个人。
研究设计需要考虑伦理审查。

4. 数据处理和分析能力:
微观数据往往量大、杂乱,需要专业的统计学、计量经济学或数据科学知识来进行清洗、转换和分析。
了解数据结构、变量含义、可能存在的偏差是关键。

5. 代表性问题:
即使获得了大量数据,如果抽样方法不当,或者数据来源存在系统性偏差,那么从样本数据得出的结论可能无法推广到总体。

总结获取微观数据的关键步骤

1. 明确研究问题: 你想了解什么?这决定了你需要什么样的数据。
2. 识别数据来源: 思考哪些机构或平台可能拥有你所需的数据。是需要一手收集还是可以利用二手数据?
3. 评估数据可行性: 考虑数据是否可访问、成本、质量、隐私等问题。
4. 制定收集计划: 如果是一手数据,设计好调查问卷或实验方案,规划好抽样。如果是二手数据,找到具体数据来源并了解其获取方式。
5. 执行收集/获取: 按照计划进行数据收集或下载/购买。
6. 数据清洗和预处理: 这是最耗时但也是最关键的一步。检查错误、处理缺失值、进行变量转换、标准化等。
7. 数据分析和解释: 使用合适的统计方法来分析数据,并根据研究问题解释结果。

获取微观数据是一个系统工程,需要耐心、细致和专业知识。对于初学者来说,从政府发布的公开统计数据入手,并学习数据处理和基础统计分析技能是比较现实的起点。随着研究的深入,可以逐渐探索更复杂和专业的数据获取途径。

网友意见

user avatar

谢谢知乎圆桌的邀请 @Joe De。我很多年前做过两个,都是地级市层面的,一个方言数据库,一个市委书记数据库。

方言数据库:最开始写paper并没有想到用这个,手里本来只有统计局地级市层面的经济数据,文章写了几个版本后发现卖点不够,故事讲的不够新颖,模型也并不算创新,审稿人不认帐。后来打算改变策略,引入新的变量,也就是这个方言,从而把原本只写"政治边界与经济影响"的故事改成了"政治与方言(做为文化的一个proxy),谁对经济的影响更显著"这么个故事。

数据库本身是基于县级层面的数据,大概2,477个县的方言,通过不同的归类方法(aggregate),最终得到对应地级市层面的主要方言。数据方面主要来自于中国语言地图集现代汉语方言大辞典等著作。这个数据库,与其说是自己(和一位认真负责的助研 - 南大的小伙子,目前已脱离学术去了华泰)一点点的收集和系统化,不如说是基于前人多年的辛苦成果,我们将其电子化(量化)。换了个讲故事的策略后效果还是显著的 - 论文经过1年多的反复修改,最终发在了Journal of Comparative Economics:Economic integration in China: Politics and Culture

方言数据库一瞥,以及基于这个方言数据画的中国方言地图(其中一张):



官员数据库:这个的研究方向一开始就定好了,所以曲折不多,投稿等相对都比较顺。最开始的启发来源于国内关于官员晋升那层看不见的天花板的讨论(比如人民网的官员天花板困局),以及张军和周黎安等老师关于中国地方官员晋升锦标赛模式这方面的研究等。对这方面有兴趣的朋友可以移步我另一篇回答:钱粮胡同:有什么分析中国经济的好书推荐?,里面介绍了张军老师的一本书:《不为公众所知的改革》。

这本书写的很真实,读的时候就感觉好像在和作者聊家常一样,舒服自然...就像张军自己说到的,这本书就好像一本回忆录,从莫干山会议年轻经济学者们是如何激烈争论价格改革的,到巴山轮会议上经济学家讨论当时的中国应该怎样调控正在经历通货膨胀的宏观经济,再到深圳特区试验的前后,通篇充满有意思的故事和照片,读起来感觉畅快有料。

如果更偏学术一点的话,可以读读:张军和北大周黎安老师合编的《为增长而竞争 - 中国增长的政治经济学》,读后能够对这个领域的研究有一个比较快速详细的了解。

话说回来,这个官员数据库也是地级市层面的,收集了1990年到2011年期间23个省份234个地级市898位市委书记的个人公开信息,同时还做了几十份问卷调查。数据来源一般都是人民网,百度以及各地方政府网站。如果有些信息已经看不到了,会通过google cache或者其他渠道获得。

不得不说的是,我比较幸运,在做这两个数据库的时候都遇到了极其给力的助研。官员数据库的助研认真,耐心而且专业(华政的一个小姑娘,后来回归老本行读了法律),不光是巨大的官员信息收集工作(数据库和变量等已经提前设计好),还有官员的官职等分类工作:收集需要的是耐心和责任心,确保了数据的完全与准确;分类就比较难了,需要对中国政治系统有较深的了解,对于不同官员的官职级别,异地交流等都有比较清晰的认识,如此,才可以准确的分类并追踪样本期间官员的调动和晋升等过程。数据库不仅收集了基本的信息,如性别,年龄,民族,出生地,教育经历等,也包含了各种政治相关信息。基于这些数据,我们就可以创建衍生变量,来详细了解官员这些年的晋升路径,以及是否有一些潜在的规律可循。

官员数据库一瞥:

论文最后发在了Modern China,有兴趣的朋友可以移步:Career Backgrounds of Municipal Party Secretaries in China

想说的是,其他答案提到的相对公开或常规的微观数据库对于研究或练手还是有价值的,获取也相对容易。然而,如果讲故事的水平还不够高,或是吨位不够,或者是方法/ 模型还没到惊为天人的份儿上,那就静下心来,花些时间自己做个数据库,对于研究或发表还是有帮助的 - 哪怕仅仅是设计数据库以及信息收集的过程,中间也会学到很多,这本身就是一种学习与锻炼。

憋不住多废话两句,虽然自己动手获取微观数据既花时间也未必有直接的收益(论文发表),然而我还是比较鼓励有生之年有志之士多少要尝试一次。做个未必准确的类比(重在体会精神):我现在不做学术了,在金融业,工作原因平时会接触大量的数据,有些部门(比如某些银行的压力测试部门),他们利用大型数据是直接拿来就放到模型里用,数据背后对应的每一家公司或是业务,他们完全没概念,数据对于他们来说就是数字,没别的,更别提数据本身的质量问题等,也因此在最终得出压力测试结果的时候,我总是持有保留意见(但是只要能忽悠央行就算过关) - 这类如果放在学术圈儿,有点类似那些拿来公开数据套几个模型就跑不深挖的人。还有一些部门,也做大量的数据收集和模型分析,然而这些部门会先把对应的公司或业务和不同的部门反复讨论,搞懂数据本身再跑模型,这个过程有点像自己收集微观数据一样,虽然费时费力,但是对于数据本身会有更深刻的认识,解释力也会变强。

无论怎样,我觉得,不管你倾向于直接获得CHIPs或CHNS,还是愿意自己动手建个独特的数据库,抑或把两者结合起来使用,重点不在于你用什么做什么,而是本身对研究的态度

想混,怎么搞都能过关;想严肃点儿,态度决定一切

user avatar

我们

明尼苏达人口中心

IPUMS International

项目提供了 1982 年和 1990 年的

中国人口普查 1% 样本

,行政区划具体到地级。此外还有其他 70 多个国家的人口普查数据可以免费下载。

如果对美国问题感兴趣,

IPUMS USA

IPUMS CPS

绝对不容错过。IPUMS USA 公开的 complete count 数据最新更新到 1880 年美国人口普查。我们现在手上正在处理 1940 年美国人口普查的 complete count 数据,预计在 2017 年上线。如果研究者有需要的话可以和我们联系,获取最新的原始数据。我们还提供

在线分析

1850 - 2012 年美国每年的 ACS 样本和每十年的人口普查 1% 样本的功能,免费注册后即可使用。

除美国外,

North Atlantic Population Project

项目还提供了加拿大、英国、冰岛、挪威和瑞典的 complete count 人口普查历史数据。下载都是免费的。

暂时处于公测阶段的

Terra Populus

项目则整合了世界各地的人口与环境数据,其中包括地理、气象等多方面的信息。

讲个有意思的事情。美国人口普查数据的原始记录有一部分是从摩门教的 LDS Church 那里拿来的。为什么 LDS Church 会有这些资料呢?因为摩门教认为,如果你受了洗礼,那么你也可以为你已经死去的祖先洗礼,并且与你的祖先在天堂重聚。因此,摩门教徒的一大爱好就是拼命去搜集各种与自己祖先有关的资料。事实上,世界上最大的系谱网站 Ancestry.com 的数据很多都是从 LDS Church 那里得到的。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有