问题

请问假设检验(hypothesis testing)的意义到底是什么,它的原理是什么样的?

回答
假设检验,这名字听起来有点学术,但它在我们生活中其实无处不在,只是我们没意识到。简单来说,它就是一种科学的、有条理的方法,来帮助我们判断一个“想法”(或者我们称之为“假设”)是不是真的值得相信。

假设检验的意义:我们为什么需要它?

想象一下,你是个侦探。你面前摆着一堆线索,你想知道某个嫌疑人到底有没有犯案。你不能凭感觉就定罪,也不能直接问他,因为他很可能撒谎。你需要收集证据,然后根据证据来分析,这个嫌疑人有没有犯罪的可能性。假设检验做的事情和侦探很像,只是它研究的不是罪犯,而是各种各样的科学问题、商业决策、甚至是我们日常的判断。

它的核心意义在于:

1. 客观决策的依据: 在很多情况下,我们需要做出重要的决定,比如一款新药是否有效?改进后的生产流程是否真的能提高产量?或者,我们相信的某个观点,是基于真实的现象,还是只是巧合?假设检验提供了一套客观的标准,让我们不至于因为个人偏见或随机波动而做出错误的判断。
2. 量化不确定性: 世界充满不确定性。即使我们收集了数据,也不能百分之百肯定我们的发现是真的。假设检验帮助我们量化这种不确定性,让我们知道,我们有多大的把握说这个“想法”是真的,或者有多大的可能性是假的。
3. 科学研究的基石: 在科学界,任何一项新的发现,都要经过严格的检验。科学家提出的理论、实验结果,都需要通过假设检验来验证其可靠性。它确保了科学知识的进步是建立在扎实证据基础上的。
4. 避免盲目相信: 很多人容易被某些表面的现象所迷惑。比如,某个人宣称某种产品能带来惊人的效果,但如果没有经过假设检验,我们很难判断这到底是真实的突破还是营销手段。假设检验帮助我们擦亮眼睛,不被轻易忽悠。

假设检验的原理:它是怎么运作的?

说到底,假设检验就是一个“以子之矛,攻子之盾”的过程。我们先假定一个我们想要证明或推翻的观点是真的(或者假的),然后收集证据,看这些证据是否“足够有力”来推翻我们最初的假定。

整个过程可以分解成几个关键步骤:

第一步:提出两个“对立”的假说

这就像侦探需要先锁定一个嫌疑人一样,我们需要先设定两个相互排斥的、关于事实的陈述。

零假设 (Null Hypothesis, H₀): 这是我们通常想要推翻的那个观点。它往往代表“没有效应”、“没有差异”、“没有变化”的陈述。比如,新药和安慰剂一样有效;改进后的生产流程并没有提高产量;平均身高没有变化。记住,零假设总是包含等号(=)。
备择假设 (Alternative Hypothesis, H₁ 或 Hₐ): 这是我们希望通过证据来支持的那个观点。它代表“有效应”、“有差异”、“有变化”的陈述。比如,新药比安慰剂更有效;改进后的生产流程提高了产量;平均身高发生了变化。备择假设往往是不等号(≠)、大于号(>)或小于号(<)。

举个例子:一家公司想测试新广告的效果。

H₀: 新广告对销售额没有影响(销售额没有变化)。
H₁: 新广告对销售额有影响(销售额变化了)。

第二步:收集证据(也就是数据)

光说不练假把式。我们需要用实际的数据来支撑我们的判断。这就需要我们设计合理的实验或者收集真实世界的数据。例如,我们可以比较新广告推出前后一段时间的销售数据,或者同时进行两个实验组(一组看新广告,一组看旧广告或不看广告),然后比较它们的销售额。

第三步:计算检验统计量(检验“证据”的强度)

这是最核心的数学部分。我们用收集到的数据来计算一个“检验统计量”。这个统计量就像是一个衡量我们看到的现象与零假设预期之间“差距”的指标。这个差距越大,说明我们看到的现象越“不符合”零假设。

计算检验统计量的方法有很多种,取决于我们研究的问题类型和数据的性质。常见的有:

t检验: 用于比较两组平均数是否有显著差异。
z检验: 类似于t检验,但通常在样本量很大或者总体方差已知时使用。
卡方检验 (χ² test): 用于分析分类变量之间的关联性。
F检验: 用于比较两组或多组方差是否有显著差异,或用于方差分析(ANOVA)。

第四步:确定显著性水平(设定一个“容忍度”)

我们知道,即使零假设是真的,我们偶然收集到的样本数据也可能因为随机性而与零假设的预期有所不同。所以,我们需要设定一个“底线”或者说“容忍度”,来决定我们愿意承担多大的风险,来错误地拒绝一个真实的零假设。这个“底线”就叫做显著性水平 (Significance Level),通常用希腊字母α(alpha)表示。

最常用的显著性水平是 0.05 (即 5%)。这意味着,我们愿意承担有 5% 的可能性,会因为随机误差而错误地拒绝了零假设(尽管它其实是真的)。换句话说,我们要求我们观察到的结果,至少要有 95% 的可能性,不是由零假设造成的。
当然,根据研究的严格程度,也可以选择 α = 0.01 (1%) 或 α = 0.1 (10%)。α越小,要求的数据证据就越强。

第五步:做出决策(是接受还是拒绝零假设?)

有了检验统计量和显著性水平,我们就可以做出决策了。有两种主要的方法:

1. 比较P值与显著性水平 (Pvalue approach):
P值 (Probability value): P值是指,在零假设为真的前提下,我们观察到当前样本数据或者比当前样本数据更“极端”的概率。
判断规则:
如果 P值 ≤ α (例如 P值 ≤ 0.05),说明我们观察到的结果在零假设下发生的概率非常小,小到我们觉得不大可能是偶然的。这时候,我们就拒绝零假设 (Reject H₀),并接受备择假设。这意味着我们有足够的证据支持备择假设。
如果 P值 > α (例如 P值 > 0.05),说明我们观察到的结果在零假设下发生的概率并不小,它可能是由随机因素造成的。这时候,我们就不能拒绝零假设 (Fail to reject H₀)。这并不是说零假设就是对的,而是说我们没有足够的证据来推翻它。

2. 比较检验统计量与临界值 (Critical value approach):
临界值: 根据我们选择的显著性水平α和我们研究的分布(比如t分布、z分布),我们可以查表或计算出对应的临界值。
判断规则: 将我们计算出的检验统计量与临界值进行比较。如果检验统计量“越过了”临界值(也就是说,它足够极端,偏离了零假设的预期),我们就拒绝零假设。

第六步:解释结果(告诉大家我们发现了什么)

最后一步是把我们的统计结论用通俗易懂的语言解释出来。

如果拒绝了零假设: 我们应该说明,我们有统计学上的证据支持备择假设。例如,“我们有足够的证据表明,新广告确实显著地提高了销售额。”
如果不能拒绝零假设: 我们应该说明,我们没有足够的统计学证据来推翻零假设。例如,“根据我们的数据,我们没有发现新广告对销售额有显著影响的证据。” 注意,这里不能说“接受零假设”,因为我们只是“未能拒绝”,不能证明它是真的,只是说明证据不足以推翻它。

举个更完整的例子:新药疗效检验

假设一家药厂研发了一种新药,声称能有效降低患者的血压。他们想知道这个声明是不是真的。

1. 提出假说:
H₀: 新药对降低血压没有显著效果(新药组患者的平均血压降低量等于安慰剂组)。
H₁: 新药对降低血压有显著效果(新药组患者的平均血压降低量大于安慰剂组)。

2. 收集数据: 药厂随机招募了100名患者,将他们分成两组:50人服用新药,50人服用安慰剂。一段时间后,记录两组患者血压的平均降低量。

3. 计算检验统计量: 假设他们计算后得到了一个t统计量,比如 t = 2.5。

4. 设定显著性水平: 他们决定使用 α = 0.05。

5. 做出决策:
P值方法: 他们查表或使用软件计算,发现当t=2.5,并且根据样本量和分布,P值是0.018。因为 0.018 < 0.05,所以他们拒绝零假设。
临界值方法: 对于一个双侧检验,当 α = 0.05 和相应的自由度时,临界值可能是 ±2.0。因为 2.5 > 2.0,所以他们也拒绝零假设。

6. 解释结果: “基于我们的研究,我们有统计学上的显著证据(P=0.018),表明这种新药确实能够显著降低患者的血压,其效果优于安慰剂。”

误区警惕:

“接受”零假设 vs. “未能拒绝”零假设: 这是最常见的误区。我们永远不能说“接受了零假设”。我们只能说,“没有足够的证据去拒绝它”。就像在法庭上,如果检方证据不足,不能判被告有罪,但这不代表被告是无辜的,只是说证据不足以定罪。
P值不等于效应大小: P值告诉你结果是否“显著”,但不告诉你这个“显著”有多大。一个非常小的效应,如果样本量足够大,也可能达到显著性。
统计显著不等于实际显著: 有时候,即使统计上显著,但实际效果可能微乎其微,不具备实际应用价值。
样本代表性问题: 假设检验的前提是样本是随机且有代表性的。如果样本有问题,即使检验结果“显著”,也可能是误导性的。

总而言之,假设检验就像是我们进行科学探索和理性决策时手中的一把精密尺子。它帮我们排除偶然性,权衡证据,从而更可靠地理解这个世界,并做出更明智的选择。

网友意见

user avatar

假设检验其实挺好懂:以小概率事件在一次观测中难以出现为基础,尝试接受或拒绝虚无假设(粗糙点说就是什么事情也没发生)的过程。

说起来,在假设检验中,根据实验和测试的要求,可以把100%的概率切成两块(粗糙一些):

  1. 备择假设:的确是假设中的变量产生了效应(比如,观测到的差异来自于药物的影响);
  2. 虚无假设:假设中的变量不能产生效应(比如,观测带的差异来自于随机误差)。

毫无疑问,两个假设互斥,概率之和等于1。

那么下面,就要用特定的假设检验方法(比如z-test,t-test,F-test等)计算,在虚无假设为真的假设下,此效应出现的概率。即先假设虚无假设为真(有点奥卡姆剃刀味道),然后计算观察到的效应到底多大概率可以出现。

倘若概率小于临界值(每个学科要求不同),即表明以虚无假设为真作为前提话,这样的结果出现的概率极小(也不是不可以,就是概率太低,比如扔100次正常硬币,次次朝上;你不能否认这可以出现,但是是扔100次一回的话,的确难以出现)。因此,尝试拒绝虚无假设,即接受备择假设。反之,接受虚无假设。

user avatar

我尽量用朴素的语言和简单的例子来说明假设检验。

我们现在有两套搜索引擎,就算是百度和搜狗,想看看哪家搜索做的更好。分别使用5个搜索词到百度和搜狗搜了一下,看了下前10个结果里我们想要的结果有几个。我们用满意度来评价每次搜索的效果,满意度就定义为 想要的结果 / 展示的结果,例如想要的结果有5个,展示结果10个,满意度就是0.5。我们把百度和搜狗的满意度绘制如下表:

搜索词 杨幂 艾尔登法环 JOJO的奇妙冒险 新概念英语 双城之战 均值
百度 0.6 0.4 0.5 0.8 0.3 0.52
搜狗 0.4 0.5 0.3 0.7 0.4 0.46
difference +0.2 -0.1 +0.2 +0.1 -0.1 0.06

似乎百度的搜索满意度均值高于搜狗的满意度均值,我们可以下结论说,百度搜索做的更好吗?

我们知道生活中有各种各样的随机事件,在搜索这件事上同样可能受到随机因素的影响,我们需要看看百度搜索满意度和搜狗搜索满意度的差异,是不是来自于偶然。(可能在这5个搜索词上搜狗的运气就是差一些呢?)

这时候,我们就不能只看均值了,不如来看看每个搜索词的胜负吧。

搜索词 杨幂 艾尔登法环 JOJO的奇妙冒险 新概念英语 双城之战 胜率
胜负 0.6

我们并不知道搜索满意度满足什么分布(这是另外一个话题了),我们不如认为这世界上有一个无上意志,每次搜索的时候,他就会掷一次骰子,骰子正面则让百度胜,骰子反面则让百度负。那我们来算算掷5次骰子,其中正面次数大于3次的累积概率(p-value的定义,单侧检验):

大跌眼镜的事情发生了,p-value是0.5 > 0.05,百度和搜狗没有显著的差异。因为之前观察到的差异完全可以用掷骰子解释。

上面做的事情就是假设检验,假设检验里的非参数检验方法 - 符号检验(sign test)

无论什么样的假设检验方法,本质上都是在验证我们看到的数据,是不是来自于偶然(随机)。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有