百科问答小站 logo
百科问答小站 font logo



最大似然估计法是如何实现的? 第1页

  

user avatar   li-dong-rong-41 网友的相关建议: 
      

一个问题一个问题往下答。。。


是如何想到设似然函数的?

直觉是有一个模型, 然后我们观测到的数据是,那我们想做的就是调整使得数据被观测到的概率最大。

但实际上有更有趣的几何解释。定义两个分布间的KL散度为

注意到

KL散度虽然不是对称的,但是它可以看作一种刻画概率分布间距离的手段,因为对任何分布, ,并且当且仅当。所以如果你把概率分布看作某个空间上的“点”的话,那么KL散度在一定程度上就刻画了这些“点”之间的距离。

那么这玩意儿跟极大似然估计有什么关系呢,关系就是极大似然估计可以看作是最小化KL散度。假设真实的参数是,那么真实的分布就是。

在极大似然估计里,我们要找到最大化的,这就等价于最大化:

又因为是定值,所以上面这个式子就等价于最大化

而根据大数定律,.

换句话说,在样本充分的情况下,极大似然估计可以被视为极小化与真实分布间的KL散度,也就在某种意义下等价于找到了一个分布,使得这个分布与真实分布间的“距离“最小。

除此以外,对于定义在有限离散空间上的分布,其KL散度满足Pinsker不等式:

考虑到距离是根正苗红的距离,所以从这个角度看的话,极大似然估计”极小化分布间距离“的意味就更加明显了。

为什么待估参数是在似然函数最大值时取得?

简单的原因(太长不看):因为在大多数情况下(你的参数空间性质比较好),极大似然估计是相合估计量(Consitent Estimator),也就是说极大似然估计依概率收敛到真实的参数,即

复杂的原因(数学定理):

假设你的参数空间为,并且在真实参数周围存在一个开邻域使得,那么如果:

(a) 在中的任一点都可微

(b) 存在g(x),使得对任意都有,并且

那么依概率收敛到真实的。

证明:超长超复杂,大概有一两页纸的样子,用了各种千奇百怪的放缩,懒得写了,有兴趣可以去查阅Keener的Theoretical Statistics 第九章.

上面的定理表明,如果你参数空间和似然函数的性质不算太差,那么极大似然估计一定可以依概率收敛到真实参数。当然,在现实生活中许多似然函数都是非凸的,所以在计算上如何求解极大似然估计一直是一个老大难问题。。。

为什么有些情况下,矩估计和最大似然估计的结果是相同的,有些情况下不是?

额。。。因为你用了不同的估计方法。。。?

不过问题不大,因为像极大似然估计一样,在模型不算太差的条件下,矩估计同样是相合估计量,也就是说在样本量足够大的情况下矩估计同样依概率收敛至真实参数。

参考资料

Larry Wasserman, All of Statistics

Keener, Theoretical Statistics

Raymond Yeung, Information Theory and Network Coding




  

相关话题

  统计学专业的学生应该具备哪些必备的知识? 
  第七次全国人口普查数据:中国总人口超 14.1 亿,10 年来保持低速增长,还有哪些信息值得关注? 
  这份知乎年龄统计结果,15~25 岁占比 70% 以上,大龄知乎网友都去哪里了? 
  一个计数器,按下一次有50%概率+1,有50%概率-1,平均按下多少次可以使结果为8? 
  以数据为基础从概率论的角度分析,飞机到底是不是最安全的交通工具? 
  随机变量和非随机变量有什么区别呢? 
  有没有适合入门统计遗传学的讲义或书? 
  如何对R中每一行数据求和? 
  什么叫做泛函空间的大数定律? 
  你所知道的的统计误用或统计(概率)悖论? 

前一个讨论
如何阅读PBRT3?
下一个讨论
你所读的计算机科学方向,有哪些不错的讲义(Notes)?





© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利