谢谢知乎圆桌的邀请 @Joe De。我很多年前做过两个,都是地级市层面的,一个方言数据库,一个市委书记数据库。
方言数据库:最开始写paper并没有想到用这个,手里本来只有统计局地级市层面的经济数据,文章写了几个版本后发现卖点不够,故事讲的不够新颖,模型也并不算创新,审稿人不认帐。后来打算改变策略,引入新的变量,也就是这个方言,从而把原本只写"政治边界与经济影响"的故事改成了"政治与方言(做为文化的一个proxy),谁对经济的影响更显著"这么个故事。
数据库本身是基于县级层面的数据,大概2,477个县的方言,通过不同的归类方法(aggregate),最终得到对应地级市层面的主要方言。数据方面主要来自于《中国语言地图集》和《现代汉语方言大辞典》等著作。这个数据库,与其说是自己(和一位认真负责的助研 - 南大的小伙子,目前已脱离学术去了华泰)一点点的收集和系统化,不如说是基于前人多年的辛苦成果,我们将其电子化(量化)。换了个讲故事的策略后效果还是显著的 - 论文经过1年多的反复修改,最终发在了Journal of Comparative Economics:Economic integration in China: Politics and Culture。
方言数据库一瞥,以及基于这个方言数据画的中国方言地图(其中一张):
官员数据库:这个的研究方向一开始就定好了,所以曲折不多,投稿等相对都比较顺。最开始的启发来源于国内关于官员晋升那层看不见的天花板的讨论(比如人民网的官员天花板困局),以及张军和周黎安等老师关于中国地方官员晋升锦标赛模式这方面的研究等。对这方面有兴趣的朋友可以移步我另一篇回答:钱粮胡同:有什么分析中国经济的好书推荐?,里面介绍了张军老师的一本书:《不为公众所知的改革》。
这本书写的很真实,读的时候就感觉好像在和作者聊家常一样,舒服自然...就像张军自己说到的,这本书就好像一本回忆录,从莫干山会议年轻经济学者们是如何激烈争论价格改革的,到巴山轮会议上经济学家讨论当时的中国应该怎样调控正在经历通货膨胀的宏观经济,再到深圳特区试验的前后,通篇充满有意思的故事和照片,读起来感觉畅快有料。
如果更偏学术一点的话,可以读读:张军和北大周黎安老师合编的《为增长而竞争 - 中国增长的政治经济学》,读后能够对这个领域的研究有一个比较快速详细的了解。
话说回来,这个官员数据库也是地级市层面的,收集了1990年到2011年期间23个省份234个地级市898位市委书记的个人公开信息,同时还做了几十份问卷调查。数据来源一般都是人民网,百度以及各地方政府网站。如果有些信息已经看不到了,会通过google cache或者其他渠道获得。
不得不说的是,我比较幸运,在做这两个数据库的时候都遇到了极其给力的助研。官员数据库的助研认真,耐心而且专业(华政的一个小姑娘,后来回归老本行读了法律),不光是巨大的官员信息收集工作(数据库和变量等已经提前设计好),还有官员的官职等分类工作:收集需要的是耐心和责任心,确保了数据的完全与准确;分类就比较难了,需要对中国政治系统有较深的了解,对于不同官员的官职级别,异地交流等都有比较清晰的认识,如此,才可以准确的分类并追踪样本期间官员的调动和晋升等过程。数据库不仅收集了基本的信息,如性别,年龄,民族,出生地,教育经历等,也包含了各种政治相关信息。基于这些数据,我们就可以创建衍生变量,来详细了解官员这些年的晋升路径,以及是否有一些潜在的规律可循。
官员数据库一瞥:
论文最后发在了Modern China,有兴趣的朋友可以移步:Career Backgrounds of Municipal Party Secretaries in China
想说的是,其他答案提到的相对公开或常规的微观数据库对于研究或练手还是有价值的,获取也相对容易。然而,如果讲故事的水平还不够高,或是吨位不够,或者是方法/ 模型还没到惊为天人的份儿上,那就静下心来,花些时间自己做个数据库,对于研究或发表还是有帮助的 - 哪怕仅仅是设计数据库以及信息收集的过程,中间也会学到很多,这本身就是一种学习与锻炼。
憋不住多废话两句,虽然自己动手获取微观数据既花时间也未必有直接的收益(论文发表),然而我还是比较鼓励有生之年有志之士多少要尝试一次。做个未必准确的类比(重在体会精神):我现在不做学术了,在金融业,工作原因平时会接触大量的数据,有些部门(比如某些银行的压力测试部门),他们利用大型数据是直接拿来就放到模型里用,数据背后对应的每一家公司或是业务,他们完全没概念,数据对于他们来说就是数字,没别的,更别提数据本身的质量问题等,也因此在最终得出压力测试结果的时候,我总是持有保留意见(但是只要能忽悠央行就算过关) - 这类如果放在学术圈儿,有点类似那些拿来公开数据套几个模型就跑不深挖的人。还有一些部门,也做大量的数据收集和模型分析,然而这些部门会先把对应的公司或业务和不同的部门反复讨论,搞懂数据本身再跑模型,这个过程有点像自己收集微观数据一样,虽然费时费力,但是对于数据本身会有更深刻的认识,解释力也会变强。
无论怎样,我觉得,不管你倾向于直接获得CHIPs或CHNS,还是愿意自己动手建个独特的数据库,抑或把两者结合起来使用,重点不在于你用什么做什么,而是本身对研究的态度。
想混,怎么搞都能过关;想严肃点儿,态度决定一切。
我们
明尼苏达人口中心的
IPUMS International项目提供了 1982 年和 1990 年的
中国人口普查 1% 样本,行政区划具体到地级。此外还有其他 70 多个国家的人口普查数据可以免费下载。
如果对美国问题感兴趣,
IPUMS USA和
IPUMS CPS绝对不容错过。IPUMS USA 公开的 complete count 数据最新更新到 1880 年美国人口普查。我们现在手上正在处理 1940 年美国人口普查的 complete count 数据,预计在 2017 年上线。如果研究者有需要的话可以和我们联系,获取最新的原始数据。我们还提供
在线分析1850 - 2012 年美国每年的 ACS 样本和每十年的人口普查 1% 样本的功能,免费注册后即可使用。
除美国外,
North Atlantic Population Project项目还提供了加拿大、英国、冰岛、挪威和瑞典的 complete count 人口普查历史数据。下载都是免费的。
暂时处于公测阶段的
Terra Populus项目则整合了世界各地的人口与环境数据,其中包括地理、气象等多方面的信息。
讲个有意思的事情。美国人口普查数据的原始记录有一部分是从摩门教的 LDS Church 那里拿来的。为什么 LDS Church 会有这些资料呢?因为摩门教认为,如果你受了洗礼,那么你也可以为你已经死去的祖先洗礼,并且与你的祖先在天堂重聚。因此,摩门教徒的一大爱好就是拼命去搜集各种与自己祖先有关的资料。事实上,世界上最大的系谱网站 http://Ancestry.com 的数据很多都是从 LDS Church 那里得到的。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有