一个问题一个问题往下答。。。
是如何想到设似然函数的?
直觉是有一个模型, 然后我们观测到的数据是,那我们想做的就是调整使得数据被观测到的概率最大。
但实际上有更有趣的几何解释。定义两个分布间的KL散度为
注意到
KL散度虽然不是对称的,但是它可以看作一种刻画概率分布间距离的手段,因为对任何分布, ,并且当且仅当。所以如果你把概率分布看作某个空间上的“点”的话,那么KL散度在一定程度上就刻画了这些“点”之间的距离。
那么这玩意儿跟极大似然估计有什么关系呢,关系就是极大似然估计可以看作是最小化KL散度。假设真实的参数是,那么真实的分布就是。
在极大似然估计里,我们要找到最大化的,这就等价于最大化:
又因为是定值,所以上面这个式子就等价于最大化
而根据大数定律,.
而
换句话说,在样本充分的情况下,极大似然估计可以被视为极小化与真实分布间的KL散度,也就在某种意义下等价于找到了一个分布,使得这个分布与真实分布间的“距离“最小。
除此以外,对于定义在有限离散空间上的分布,其KL散度满足Pinsker不等式:
考虑到距离是根正苗红的距离,所以从这个角度看的话,极大似然估计”极小化分布间距离“的意味就更加明显了。
为什么待估参数是在似然函数最大值时取得?
简单的原因(太长不看):因为在大多数情况下(你的参数空间性质比较好),极大似然估计是相合估计量(Consitent Estimator),也就是说极大似然估计依概率收敛到真实的参数,即
复杂的原因(数学定理):
假设你的参数空间为,并且在真实参数周围存在一个开邻域使得,那么如果:
(a) 在中的任一点都可微
(b) 存在g(x),使得对任意都有,并且
那么依概率收敛到真实的。
证明:超长超复杂,大概有一两页纸的样子,用了各种千奇百怪的放缩,懒得写了,有兴趣可以去查阅Keener的Theoretical Statistics 第九章.
上面的定理表明,如果你参数空间和似然函数的性质不算太差,那么极大似然估计一定可以依概率收敛到真实参数。当然,在现实生活中许多似然函数都是非凸的,所以在计算上如何求解极大似然估计一直是一个老大难问题。。。
为什么有些情况下,矩估计和最大似然估计的结果是相同的,有些情况下不是?
额。。。因为你用了不同的估计方法。。。?
不过问题不大,因为像极大似然估计一样,在模型不算太差的条件下,矩估计同样是相合估计量,也就是说在样本量足够大的情况下矩估计同样依概率收敛至真实参数。
参考资料
Larry Wasserman, All of Statistics
Keener, Theoretical Statistics
Raymond Yeung, Information Theory and Network Coding