提供论文的 Stata 数据和程序是非常有帮助的学术资源,它们能够让其他研究者复现研究结果、学习分析方法,或者在现有基础上进行进一步的探索。以下是一些提供此类资源的网站,并附有详细说明:
1. 专门的学术数据存档和共享平台:
ICPSR (Interuniversity Consortium for Political and Social Research):
特点: ICPSR 是全球最大、历史最悠久的社会科学数据存档机构之一。它收集、保存和传播大量重要的社会科学数据,包括许多与经济学、政治学、社会学、心理学等领域相关的调查数据。许多学术论文(尤其是社会科学领域的)使用的原始数据都可以在这里找到。
如何查找 Stata 数据和程序:
数据搜索: 访问 ICPSR 网站 (www.icpsr.org),使用关键词搜索你感兴趣的研究主题、研究者姓名、项目名称等。
访问权限: ICPSR 的很多数据是免费公开的,但有些数据集可能需要通过你的大学或机构 membership 来访问。
数据格式: ICPSR 通常会提供多种数据格式,包括 SAS、SPSS、Stata、CSV 等。在下载页面,你需要选择 Stata 格式。
程序/代码: ICPSR 本身并不直接提供论文中使用的具体 Stata 程序(`.do` 文件),但它通常会提供详细的数据文档(Codebook),其中包含了变量定义、数据结构等信息,这对于复现分析至关重要。论文作者可能会在其个人网站或期刊的补充材料中提供程序。
适用领域: 尤其适合社会科学、政治学、经济学、公共卫生等领域。
TESS (The Teaching and Learning Electronic Study System):
特点: TESS 是 ICPSR 的一个项目,专门为教学目的提供数据和支持材料。它包含一些经过清理和标注的数据集,非常适合用于教学和学习。
如何查找 Stata 数据和程序: 类似于 ICPSR,你可以在 TESS 中搜索数据集,并查找是否提供 Stata 版本。TESS 提供的数据集通常更易于理解和使用。
适用领域: 主要面向教学,但数据也同样有研究价值。
Replication Data Centers (例如,JSTOR, Harvard Dataverse, Figshare, Zenodo 等):
特点: 越来越多的期刊要求作者在发表论文时,将用于研究的数据和分析代码存储在可信的第三方数据存储库中。这些数据中心提供了数据存储、版本控制和共享的平台。
如何查找 Stata 数据和程序:
期刊要求: 查看你感兴趣的论文发表的期刊是否有数据共享政策。
在论文中寻找链接: 很多论文会在引言、方法部分或专门的“数据和代码可用性”章节,提供指向这些数据中心的链接。
直接搜索:
JSTOR: 搜索你感兴趣的论文,有时会在论文的页面找到相关数据集的链接。
Harvard Dataverse: (dataverse.harvard.edu) 是一个非常大的学术数据存储库,许多大学和研究机构都设有自己的 Dataverse。你可以尝试在 Harvard Dataverse 中搜索关键词,或者查找特定大学的 Dataverse。
Figshare: (figshare.com) 是一个通用的科研数据共享平台,许多科学家会在这里上传他们的数据和代码。
Zenodo: (zenodo.org) 由欧洲核子研究组织 (CERN) 运营,也是一个通用的科研数据共享平台,通常也包含代码。
查找格式: 在这些平台上,下载选项通常会列出多种文件格式,包括 Stata 的数据文件(`.dta`)和程序文件(`.do`)。
适用领域: 涵盖范围广泛,从经济学、社会科学到自然科学、计算机科学等都有。
2. 经济学领域的数据和程序:
IZA (Institute of Labor Economics) Discussion Papers:
特点: IZA 发布大量关于劳动经济学的讨论论文,其中许多作者会附带他们的研究使用的 Stata 代码和数据。
如何查找 Stata 数据和程序:
访问 IZA 网站 (www.iza.org)。
在“Publications”或“Discussion Papers”部分,搜索你感兴趣的论文。
打开论文页面后,通常会有一个“Data”或“Code”的链接,点击即可下载。数据格式通常是 Stata,程序也是 `.do` 文件。
适用领域: 劳动经济学、人力资本、劳动力市场等。
NBER (National Bureau of Economic Research) Working Papers:
特点: NBER 是美国经济研究的重要机构,其工作论文是经济学研究的前沿。许多 NBER 论文也会提供数据和代码。
如何查找 Stata 数据和程序:
访问 NBER 网站 (www.nber.org)。
在“Working Papers”部分搜索。
许多论文页面会提供一个“data”或“code”的链接,指向作者自己的网站或专门的数据存储库。
适用领域: 宏观经济学、微观经济学、国际经济学、金融经济学等。
AEA (American Economic Association) Data and Code:
特点: AEA 的一些期刊(如 American Economic Review, American Economic Journal 系列)现在强烈鼓励或要求作者提供数据和代码。他们通常会指引作者将这些材料存放在专门的数据中心。
如何查找 Stata 数据和程序:
查看 AEA 的期刊网站,例如 AER 网站,通常会有关于“Data and Code Availability”的说明。
论文中会直接引用数据存储的链接,通常是 Harvard Dataverse 或作者自己的网站。
适用领域: 经济学各个分支。
Wooldridge's Textbook Data and Programs:
特点: Jeffrey M. Wooldridge 是计量经济学领域的权威学者,他撰写的《Introductory Econometrics: A Modern Approach》和《Econometric Analysis of Cross Section and Panel Data》等教材,提供了大量用于教学和练习的 Stata 数据集和分析程序。
如何查找 Stata 数据和程序:
访问 Jeffrey M. Wooldridge 的个人网站 (通常在大学网站下,搜索 "Jeffrey Wooldridge Michigan State University")。
在网站上找到与他的书籍相关的部分,通常会提供一个链接,下载所有教材配套的数据和程序文件。这些通常是 `.zip` 格式的压缩包,解压后包含 Stata 的 `.dta` 数据文件和 `.do` 程序文件。
适用领域: 计量经济学、经济学方法论。
3. 特定研究领域的网站和作者个人网站:
作者个人网站: 许多教授和研究人员会在他们的大学网页上维护一个个人网站,其中会列出他们的出版物,并提供研究中使用的“数据”或“代码”的下载链接。这是找到特定论文数据和程序最直接的方式之一。
如何查找: 在 Google 等搜索引擎中搜索“论文作者姓名 + University”或“论文作者姓名 + Personal Website”。然后浏览其网站上的出版物列表,寻找数据和代码链接。
研究项目或实验室网站: 一些大型研究项目或大学的研究实验室会有一个专门的网站,用于发布项目成果和相关数据。
4. GitHub 和其他代码托管平台:
特点: 越来越多的研究人员将他们的研究代码托管在 GitHub 等平台上,并将其与他们的论文关联起来。GitHub 不仅可以存储代码,还可以上传数据文件。
如何查找 Stata 数据和程序:
在论文中寻找链接: 很多论文会明确指出其代码托管在 GitHub 的哪个仓库。
在 GitHub 上搜索: 如果你知道研究的关键词、作者姓名或者项目名称,可以尝试在 GitHub (github.com) 上搜索。你可以搜索仓库名称,也可以搜索仓库的描述或文件内容。
查找数据和程序: 在 GitHub 仓库中,你可以找到 `.do` 文件(Stata 程序)和 `.dta` 文件(Stata 数据),或者其他格式的数据文件。
适用领域: 几乎所有使用编程进行研究的领域。
如何有效地搜索和使用这些资源:
1. 从论文出发: 最直接的方式是查找你感兴趣的论文,并阅读其中关于数据和代码可用性的部分。作者通常会明确说明数据和代码的来源或链接。
2. 使用关键词搜索: 当你不知道具体哪个平台时,可以使用搜索引擎(Google Scholar, Google)配合关键词进行搜索。例如:“[论文标题] data stata”、“[作者姓名] code stata”、“[研究主题] replication data stata”。
3. 注意数据许可和使用条款: 在下载和使用数据时,务必仔细阅读数据提供方的许可协议(License)或使用条款。有些数据可能仅限于学术研究用途,不能用于商业目的,或者需要引用数据来源。
4. 理解数据的结构和变量: 数据通常会附带详细的文档(Codebook),解释每个变量的含义、编码方式以及数据的来源。务必仔细阅读这些文档,才能正确理解和使用数据。
5. 理解 Stata 程序: Stata 的程序 (`.do` 文件) 是一个文本文件,包含了执行数据分析的 Stata 命令序列。你需要将这些命令在 Stata 命令窗口中执行,或者将 `.do` 文件加载到 Stata 的 Dofile Editor 中运行。理解程序逻辑有助于复现分析。
6. 复现研究的挑战:
数据可用性: 有些数据可能因为隐私、版权或其他原因无法公开。
程序复杂性: 有些代码可能非常复杂,或者依赖于特定的软件版本或库。
“黑箱”问题: 有时作者提供的代码可能不完整,或者某些步骤没有明确说明,导致复现困难。
总而言之,寻找论文的 Stata 数据和程序需要耐心和技巧。从作者的论文出发,利用专门的数据存档平台和代码托管平台,并善用搜索引擎,将大大提高你找到所需资源的几率。