百科问答小站 logo
百科问答小站 font logo



请问假设检验(hypothesis testing)的意义到底是什么,它的原理是什么样的? 第1页

  

user avatar   hua-sha-94 网友的相关建议: 
      

假设检验其实挺好懂:以小概率事件在一次观测中难以出现为基础,尝试接受或拒绝虚无假设(粗糙点说就是什么事情也没发生)的过程。

说起来,在假设检验中,根据实验和测试的要求,可以把100%的概率切成两块(粗糙一些):

  1. 备择假设:的确是假设中的变量产生了效应(比如,观测到的差异来自于药物的影响);
  2. 虚无假设:假设中的变量不能产生效应(比如,观测带的差异来自于随机误差)。

毫无疑问,两个假设互斥,概率之和等于1。

那么下面,就要用特定的假设检验方法(比如z-test,t-test,F-test等)计算,在虚无假设为真的假设下,此效应出现的概率。即先假设虚无假设为真(有点奥卡姆剃刀味道),然后计算观察到的效应到底多大概率可以出现。

倘若概率小于临界值(每个学科要求不同),即表明以虚无假设为真作为前提话,这样的结果出现的概率极小(也不是不可以,就是概率太低,比如扔100次正常硬币,次次朝上;你不能否认这可以出现,但是是扔100次一回的话,的确难以出现)。因此,尝试拒绝虚无假设,即接受备择假设。反之,接受虚无假设。


user avatar   huo-hua-de-41 网友的相关建议: 
      

我尽量用朴素的语言和简单的例子来说明假设检验。

我们现在有两套搜索引擎,就算是百度和搜狗,想看看哪家搜索做的更好。分别使用5个搜索词到百度和搜狗搜了一下,看了下前10个结果里我们想要的结果有几个。我们用满意度来评价每次搜索的效果,满意度就定义为 想要的结果 / 展示的结果,例如想要的结果有5个,展示结果10个,满意度就是0.5。我们把百度和搜狗的满意度绘制如下表:

搜索词 杨幂 艾尔登法环 JOJO的奇妙冒险 新概念英语 双城之战 均值
百度 0.6 0.4 0.5 0.8 0.3 0.52
搜狗 0.4 0.5 0.3 0.7 0.4 0.46
difference +0.2 -0.1 +0.2 +0.1 -0.1 0.06

似乎百度的搜索满意度均值高于搜狗的满意度均值,我们可以下结论说,百度搜索做的更好吗?

我们知道生活中有各种各样的随机事件,在搜索这件事上同样可能受到随机因素的影响,我们需要看看百度搜索满意度和搜狗搜索满意度的差异,是不是来自于偶然。(可能在这5个搜索词上搜狗的运气就是差一些呢?)

这时候,我们就不能只看均值了,不如来看看每个搜索词的胜负吧。

搜索词 杨幂 艾尔登法环 JOJO的奇妙冒险 新概念英语 双城之战 胜率
胜负 0.6

我们并不知道搜索满意度满足什么分布(这是另外一个话题了),我们不如认为这世界上有一个无上意志,每次搜索的时候,他就会掷一次骰子,骰子正面则让百度胜,骰子反面则让百度负。那我们来算算掷5次骰子,其中正面次数大于3次的累积概率(p-value的定义,单侧检验):

大跌眼镜的事情发生了,p-value是0.5 > 0.05,百度和搜狗没有显著的差异。因为之前观察到的差异完全可以用掷骰子解释。

上面做的事情就是假设检验,假设检验里的非参数检验方法 - 符号检验(sign test)

无论什么样的假设检验方法,本质上都是在验证我们看到的数据,是不是来自于偶然(随机)。




  

相关话题

  你知道哪些让你怀疑智商的数学题? 
  若1+1=2,则雪是白色的,这是真命题吗? 
  如何看待中国矿业大学杨小军研究员宣称自己解决黎曼猜想? 
  比开方更高级的运算能否扩充复数域? 
  设σ(n)是n的所有正因数之和,如何证明存在无数个正整数n使得σ(n)是完全平方数? 
  如何能够快速恢复脑力? 
  为什么人类选择了十进制? 
  数学证明费了这么大劲把这些东西证明出来,对一个人的人生、对我们身处其中的这个世界,到底有什么影响呢? 
  我想了解一下:最小公倍数=两数乘积 / 最大公因数,出自于哪里? 
  MIT 学者算出 π=3.115,是 π 的值变了吗? 

前一个讨论
是哪部电影开创了丧尸片的先河?丧尸片盛行的原因又有哪些?
下一个讨论
如何看待人大代表建议「 对拐卖妇女知情不报者追究相应法律责任」 ?此举会带来哪些影响?





© 2025-01-03 - tinynew.org. All Rights Reserved.
© 2025-01-03 - tinynew.org. 保留所有权利