没有实际例子进行解释,说服力是往往不够的,所以我就拿跑回归一事来说吧。
在跑回归的时候,答主的这个问题有时就非常明显。
要在自然科学领域,比如生物学,实验的方法往往是有限的,如果你要分析青霉素对菌落的影响,只需要找两组培养皿,其他条件一样,一组加青霉素,一组不加,一共就只有两种操作方法,简单粗暴。
这是由于自然科学的实证具有三种特性,1:变量容易测量,2:误差小,3:变量容易控制,因此实验的方法很容易被优化,正如安娜·卡列琳娜原则,优秀的实验方法总是有限的。
而在社科中,这三种特性都普遍不存在:
1:首先我们来说一下,说变量难以测量的问题,举个例子,你要用统计方法分析学生学习兴趣对学生考试成绩的影响,好了,那么问题来了,你怎么测量学生的学习兴趣呢,你怎么知道这群学生对量子力学的兴趣要比另一群学生对量子力学的兴趣浓厚呢?就算你用问卷的方法说明了A群体学生比B群体学生对量子力学的兴趣浓厚?你如果不能测出这个“兴趣”的大小?又如何分析出“兴趣”对成绩的影响究竟有多大呢?
这时,你就需要一个“代理变量”(proxy variable),比如,你可以用一名学生之前选与量子力学相关课程的其他课程的数量来判断其对量子力学的兴趣,如果一名学生选修了大学物理或是相对论或线性代数等课程,那么就可以认为他是有兴趣的,他选的这些课越多,就说明了他的“兴趣”越浓厚。
这样,一个不可能被测量的变量——“兴趣”,就被转化成了一个可以测量的变量——“相关课程数”,但在这个过程中,你必须需要两条“理论”依据,那就是a:“一个学生对一个东西兴趣浓厚,就会更倾向于选这个方面相关的课”和b“大学物理,相对论,线性代数等课程,与量子力学是相关的。”
在这个例子中,如果没有这种“理论依据”,你根本就无法动手。
2:第二种情况是因为“误差”太大所带来的无穷种实证方法的问题。
再举个例子,你研究企业的资产与其创办时间的的关系。
如果你要运用最小二乘法,那么你首先得必须说明,企业资产与企业存续的时间之间有关系,而且这个关系是线性的。
你可以用一个经济学理论来说明企业发展期的资产和企业存续时间是成正比的,比如,一家企业人处于发展壮大的时期,必然发展时间越久,其总资产就越高,但这只能说明二者有正相关,不能说明二者的关系是确切线性的,即“成正比”的,为了说明这个问题,你还需要检验。
随后你找来了一堆企业的资产和创办时间来进行回归分析,结果发现连异方差检验没有通过。
在此时,你就更需要“经济学理论”来进行指导了,统计学告诉你异方差性的出现有三种可能:
a:你遗漏了解释变量,即还有对企业资产影响更大的解释变量被遗漏了,而且这个解释变量在你样本中的分布不是均匀的,要么主要分布在年龄大的企业一边,要么主要分布在年龄小的企业一遍。
而这个解释变量可以是,企业的初始资金,企业所在的行业,企业的员工数量等无穷多种变量,要说明其中哪一个是应该被添加到你的回归模型中,你必须,也只能借助于经济学理论。
在生物学上,不存在这样的问题,因为你可以以完全一样的操作制作出两个培养皿,然后给它们中的一个加青霉素,另一个不加,因为这两个培养皿的制作方法,所放的地方是一模一样的,所以唯一的区别只能是青霉素。
但在社会上,你根本不可能找到两个除了创立时间长短不同,其他条件都完全一样的企业,没有任何两个企业是足够相似的,两个企业差异的地方会有无数个,因而说明哪些差异的地方是无关紧要的,那些差异是紧要的,只能依靠理论。
b:导致异方差性的原因还有可能是你搜集数据是有观测误差,为什么有观测误差?你还是得靠理论来说明。
c:在这个例子中,导致异方差性的最可能原因是资产和创办时间之间根本不是线性关系,那么二者的关系如果不是线性的,会是怎样的呢?
如果没有经济学理论,你可以认为企业资产与经营时间的平方根成正比,你可以认为资产和经营时间的自然对数成正比,你还可以认为资产和经营时间的二分之三次幂成正比······,你有无数种尝试的方法,而且因为你样本个数是有限的,你还可以找到无数种消除样本中异方差的模型,但其中只会有一种是正确的。
然而经济学的理论告诉你,最应该采取的方法是取一个自然对数,即发展期的企业,其资产的自然对数和时间最有可能成正比,为什么?因为企业早期的发展往往是指数的,在市场足够大的时候,你今年赚了一个亿,你用这一个亿买进新的原材料扩大规模,明年肯定就不止赚一个亿了,今年你的资产翻了一番,明年再翻一番,那么后年的资产就应该是今年的四倍,早期企业资产的增加往往是指数性的。
3:选题也必须要有充分的理论依据,社科之所研究的对象,是社会的普遍关系,如果社会上有10种事物,他们两两间就会存在45种关系,如果有100种事物,那么就会有多打4950种两两关系,如果考察三件事物的关系,那么还会更加复杂。
用统计实证手段找到变化拟合非常好两个事物是非常容易的,比如,大千世界里猪的数量非常之多,总能找到某养猪场的一头猪,其体重的生长刚好与你的体重变化吻合,在过去的半年的数据显示,这头猪每长一斤肉,你就会涨半斤肉,而且这头猪每次长肉的时候你都正好长肉,如果我们不用任何有道理的令人信服的理论来说明这头猪的生长与你的体重增加的直接联系,而只看统计实证数据的分析,岂不是能说是这头猪的生长导致了你这个人体重的增加?
在做实验的时候,步骤往往是是提出问题,做出假设,随后再设计实验进行实证,而在社科中,因为其研究对象的复杂性,光是在做出假设的时候就要求你有相当高的理论素养了。
当然,其实任何时候,实验的目的都不过是在验证理论而已,如果没有理论的思想,那么不管你怎么实践,也无法总结出规律来。