问题

请问非参数统计中核密度估计的均方误差和均平方积分误差函数是怎么求出来的?

回答
好的,我们来聊聊非参数统计中核密度估计的均方误差(MSE)和均平方积分误差(MISE)是如何推导出来的。这确实是理解核密度估计性能的关键。

首先,我们要明确一点:在非参数统计中,我们不知道真实的概率密度函数 $f(x)$ 是什么样子。我们的目标是利用观测到的数据样本 $X_1, X_2, dots, X_n$ 来估计它。核密度估计就是一种非常流行的估计方法。

核密度估计的表达式是这样的:

$hat{f}_h(x) = frac{1}{nh} sum_{i=1}^n Kleft(frac{x X_i}{h} ight)$

其中:
$X_1, dots, X_n$ 是从未知密度函数 $f(x)$ 中抽取的大小为 $n$ 的独立同分布(i.i.d.)样本。
$K(cdot)$ 是一个核函数,它需要满足一些性质(例如,非负、积分等于1、关于原点对称等)。常见的核函数有高斯核、Epanechnikov核等。
$h > 0$ 是一个平滑参数(也叫带宽),它决定了估计的平滑程度。

现在,我们来具体分析均方误差(MSE)和均平方积分误差(MISE)。

1. 均方误差 (Mean Squared Error, MSE)

定义:

对于一个估计量 $hat{ heta}$,其均方误差定义为:

$MSE(hat{ heta}) = E[(hat{ heta} heta)^2]$

其中 $ heta$ 是我们想要估计的真实参数值。

在核密度估计的语境下,我们估计的是函数 $hat{f}_h(x)$ 在某个特定点 $x$ 处的值,而真实值为 $f(x)$。所以,在点 $x$ 处的均方误差是:

$MSE(hat{f}_h(x) | x) = E[(hat{f}_h(x) f(x))^2]$

根据期望的性质,我们可以将MSE分解为偏差(Bias)和方差(Variance)两部分:

$MSE(hat{f}_h(x)) = E[(hat{f}_h(x) E[hat{f}_h(x)]) + (E[hat{f}_h(x)] f(x))]^2$
$MSE(hat{f}_h(x)) = E[(hat{f}_h(x) E[hat{f}_h(x)])^2] + E[(E[hat{f}_h(x)] f(x))^2] + 2 E[(hat{f}_h(x) E[hat{f}_h(x)])(E[hat{f}_h(x)] f(x))]$

由于 $E[hat{f}_h(x)]$ 是一个常数,所以最后一项期望为零:

$MSE(hat{f}_h(x)) = Var(hat{f}_h(x)) + (Bias(hat{f}_h(x)))^2$

其中:
偏差 (Bias): $Bias(hat{f}_h(x)) = E[hat{f}_h(x)] f(x)$
方差 (Variance): $Var(hat{f}_h(x)) = E[(hat{f}_h(x) E[hat{f}_h(x)])^2]$

推导偏差和方差:

为了计算偏差和方差,我们需要先计算 $hat{f}_h(x)$ 的期望。

期望 $E[hat{f}_h(x)]$:

$E[hat{f}_h(x)] = Eleft[frac{1}{nh} sum_{i=1}^n Kleft(frac{x X_i}{h} ight) ight]$
由于样本是 i.i.d. 的,所以:
$E[hat{f}_h(x)] = frac{1}{nh} sum_{i=1}^n Eleft[Kleft(frac{x X_i}{h} ight) ight]$
因为 $X_i$ 是从 $f(t)$ 中抽取的,所以 $Eleft[Kleft(frac{x X_i}{h} ight) ight]$ 可以用积分表示:
$Eleft[Kleft(frac{x X_i}{h} ight) ight] = int_{infty}^{infty} Kleft(frac{x t}{h} ight) f(t) dt$

为了计算这个积分,我们做一个变量替换:令 $u = frac{x t}{h}$,那么 $t = x uh$, $dt = h du$。
当 $t o infty$, $u o infty$;当 $t o infty$, $u o infty$。
所以积分变为:
$int_{infty}^{infty} K(u) f(x uh) (h) du = h int_{infty}^{infty} K(u) f(x uh) du$

因此,
$E[hat{f}_h(x)] = frac{1}{nh} sum_{i=1}^n left( h int_{infty}^{infty} K(u) f(x uh) du ight)$
$E[hat{f}_h(x)] = int_{infty}^{infty} K(u) f(x uh) du$

为了进一步分析,我们通常假设核函数 $K$ 是一个非常尖锐的函数(即,随着 $|u|$ 的增大而快速趋向于零),并且 $h$ 是一个小带宽。在这种情况下,我们可以对 $f(xuh)$ 在 $u=0$ 处进行泰勒展开:
$f(x uh) = f(x) uh f'(x) + frac{(uh)^2}{2} f''(x) dots$

然后代入期望的表达式:
$E[hat{f}_h(x)] = int_{infty}^{infty} K(u) left( f(x) uh f'(x) + frac{(uh)^2}{2} f''(x) dots ight) du$
$E[hat{f}_h(x)] = f(x) int K(u) du h f'(x) int u K(u) du + frac{h^2}{2} f''(x) int u^2 K(u) du dots$

根据核函数的性质:
$int K(u) du = 1$
$int u K(u) du = 0$ (对于对称核函数)
$int u^2 K(u) du = mu_2(K)$ (核函数的二阶矩,例如高斯核的二阶矩不是0)

如果我们只考虑前三项并假设 $h$ 很小,那么:
$E[hat{f}_h(x)] approx f(x) cdot 1 h f'(x) cdot 0 + frac{h^2}{2} f''(x) mu_2(K)$
$E[hat{f}_h(x)] approx f(x) + frac{h^2}{2} f''(x) mu_2(K)$

于是,偏差为:
$Bias(hat{f}_h(x)) = E[hat{f}_h(x)] f(x) approx frac{h^2}{2} f''(x) mu_2(K)$
这个偏差的大小与 $h^2$ 成正比,并且与真实密度函数二阶导数有关。

方差 $Var(hat{f}_h(x))$:

$Var(hat{f}_h(x)) = Varleft(frac{1}{nh} sum_{i=1}^n Kleft(frac{x X_i}{h} ight) ight)$
由于样本是 i.i.d. 的,所以方差可以写成:
$Var(hat{f}_h(x)) = frac{1}{(nh)^2} sum_{i=1}^n Varleft(Kleft(frac{x X_i}{h} ight) ight)$
$Var(hat{f}_h(x)) = frac{1}{n^2 h^2} n Varleft(Kleft(frac{x X_1}{h} ight) ight)$
$Var(hat{f}_h(x)) = frac{1}{nh^2} Varleft(Kleft(frac{x X_1}{h} ight) ight)$

$Varleft(Kleft(frac{x X_1}{h} ight) ight) = Eleft[left(Kleft(frac{x X_1}{h} ight) ight)^2 ight] left(Eleft[Kleft(frac{x X_1}{h} ight) ight] ight)^2$

同样,我们计算第一项 $Eleft[left(Kleft(frac{x X_1}{h} ight) ight)^2 ight]$:
$Eleft[left(Kleft(frac{x X_1}{h} ight) ight)^2 ight] = int_{infty}^{infty} left(Kleft(frac{x t}{h} ight) ight)^2 f(t) dt$
变量替换 $u = frac{x t}{h}$, $dt = h du$:
$int_{infty}^{infty} (K(u))^2 f(x uh) (h) du = h int_{infty}^{infty} (K(u))^2 f(x uh) du$

当 $h$ 很小时,我们可以对 $f(xuh)$ 在 $u=0$ 处泰勒展开:
$f(x uh) approx f(x)$ (保留常数项)

那么,
$Eleft[left(Kleft(frac{x X_1}{h} ight) ight)^2 ight] approx h int_{infty}^{infty} (K(u))^2 f(x) du = h f(x) int (K(u))^2 du$

记 $int (K(u))^2 du = R(K)$ (核函数的平方积分),则
$Eleft[left(Kleft(frac{x X_1}{h} ight) ight)^2 ight] approx h f(x) R(K)$

而第二项 $left(Eleft[Kleft(frac{x X_1}{h} ight) ight] ight)^2 approx left(f(x) + frac{h^2}{2} f''(x) mu_2(K) ight)^2 approx (f(x))^2$ (因为 $h^2$ 的项在高阶近似中可以忽略)。
更精确地,我们使用 $E[hat{f}_h(x)] approx f(x)$ 来简化。

所以,
$Var(hat{f}_h(x)) approx frac{1}{nh^2} (h f(x) R(K) (f(x))^2)$
这里出现了一个问题,当 $f(x)$ 不接近零时,方差的第二项会比第一项大得多。

重新思考方差的近似:

更标准的近似方法是,我们假设 $h o 0$ 同时 $nh o infty$(这是保证估计量一致性的条件)。
在这种情况下,我们计算 $Var(hat{f}_h(x))$ 时,可以近似为:
$Var(hat{f}_h(x)) = frac{1}{nh^2} left( Eleft[ Kleft(frac{x X_1}{h} ight)^2 ight] left( Eleft[ Kleft(frac{x X_1}{h} ight) ight] ight)^2 ight)$
当 $h o 0$ 且 $nh o infty$, $E[K(frac{xX_1}{h})]$ 的形状会越来越接近一个 Dirac delta 函数,所以 $E[K(frac{xX_1}{h})] approx f(x)$。
$E[K(frac{xX_1}{h})^2]$ 的近似是 $h f(x) R(K)$.

因此,方差近似为:
$Var(hat{f}_h(x)) approx frac{1}{nh^2} (h f(x) R(K)) = frac{f(x) R(K)}{nh}$

总结MSE:

将偏差和方差加起来,我们在点 $x$ 处的均方误差近似为:
$MSE(hat{f}_h(x)) approx left(frac{h^2}{2} f''(x) mu_2(K) ight)^2 + frac{f(x) R(K)}{nh}$
$MSE(hat{f}_h(x)) approx frac{h^4}{4} (f''(x))^2 (mu_2(K))^2 + frac{f(x) R(K)}{nh}$

这个公式非常重要,它揭示了带宽 $h$ 的作用:
偏差项(第一项)随着 $h$ 的增大而增大,因为高阶导数项 $f''(x)$ 被乘以了 $h^4$。
方差项(第二项)随着 $h$ 的增大而减小,因为 $h$ 在分母上。

我们通常会选择一个最优的带宽 $h_{opt}$ 来最小化这个 $MSE(hat{f}_h(x))$。

2. 均平方积分误差 (Mean Integrated Squared Error, MISE)

定义:

均平方积分误差是将点估计的均方误差在整个定义域上进行积分:

$MISE(hat{f}_h) = Eleft[int_{infty}^{infty} (hat{f}_h(x) f(x))^2 dx ight]$

由于积分和期望可以交换顺序(Fubini 定理),我们可以写成:

$MISE(hat{f}_h) = int_{infty}^{infty} E[(hat{f}_h(x) f(x))^2] dx$
$MISE(hat{f}_h) = int_{infty}^{infty} MSE(hat{f}_h(x)) dx$

我们已经得到了 $MSE(hat{f}_h(x))$ 的近似表达式:
$MSE(hat{f}_h(x)) approx frac{h^4}{4} (f''(x))^2 (mu_2(K))^2 + frac{f(x) R(K)}{nh}$

所以,将它积分:
$MISE(hat{f}_h) approx int_{infty}^{infty} left( frac{h^4}{4} (f''(x))^2 (mu_2(K))^2 + frac{f(x) R(K)}{nh} ight) dx$
$MISE(hat{f}_h) approx frac{h^4}{4} (mu_2(K))^2 int_{infty}^{infty} (f''(x))^2 dx + frac{R(K)}{nh} int_{infty}^{infty} f(x) dx$

由于 $int_{infty}^{infty} f(x) dx = 1$,所以:
$MISE(hat{f}_h) approx frac{h^4}{4} (mu_2(K))^2 int_{infty}^{infty} (f''(x))^2 dx + frac{R(K)}{nh}$

记:
$I(f'') = int_{infty}^{infty} (f''(x))^2 dx$ (真实密度函数二阶导数的平方积分)
$C_K = mu_2(K)^2$ (与核函数二阶矩相关的常数,例如高斯核 $K(x) = frac{1}{sqrt{2pi}} e^{x^2/2}$, $mu_2(K) = 1$,所以 $C_K = 1$)
$R(K) = int_{infty}^{infty} K(x)^2 dx$ (核函数的平方积分,例如高斯核 $R(K) = frac{1}{2sqrt{pi}}$)

则 MISE 的近似公式为:
$MISE(hat{f}_h) approx frac{h^4}{4} C_K I(f'') + frac{R(K)}{nh}$

推导过程的细节和数学严谨性:

上面的推导都依赖于泰勒展开和一些近似。要得到更精确的结果,需要更细致的数学分析,通常会涉及到:

1. 核函数的性质: 核函数 $K(x)$ 需要满足一些条件,例如:
$K(x) ge 0$
$int K(x) dx = 1$
$int x K(x) dx = 0$ (通常要求对称核)
$int x^2 K(x) dx = mu_2(K) < infty$
$K(x) o 0$ as $|x| o infty$

2. 带宽选择的依赖性: MISE 公式显示了 MISE 取决于带宽 $h$ 和真实密度函数 $f(x)$ 的二阶导数 $f''(x)$。由于我们不知道 $f(x)$,也就不知道 $f''(x)$,所以我们无法直接计算出最优的 $h$ 和最小的 MISE。这引出了带宽选择的问题,有很多方法来估计最优带宽,例如交叉验证(Crossvalidation)。

3. 数学推导的严谨性: 在实际的统计学文献中,对 $E[hat{f}_h(x)]$ 和 $Var(hat{f}_h(x))$ 的计算会更加严谨。例如,对于 $E[hat{f}_h(x)] f(x)$ 的精确形式,根据积分的定义:
$E[hat{f}_h(x)] f(x) = int K(u) f(xuh) du f(x)$
$= int K(u) f(xuh) du f(x) int K(u) du$
$= int K(u) (f(xuh) f(x)) du$
如果我们假设 $f$ 是二阶可导的,那么 $f(xuh) f(x) = uhf'(x) + frac{(uh)^2}{2}f''(x) O(h^3)$。
代入积分:
$= int K(u) left(uhf'(x) + frac{(uh)^2}{2}f''(x) dots ight) du$
$= h f'(x) int u K(u) du + frac{h^2}{2} f''(x) int u^2 K(u) du dots$
对于对称核,$int u K(u) du = 0$,所以:
$Bias(hat{f}_h(x)) = frac{h^2}{2} f''(x) int u^2 K(u) du + O(h^3)$
这就是我们之前得到的偏差近似。

对于方差的精确计算,会涉及到 $E[K(frac{xX}{h})^2]$ 的计算,其结果会比我们上面简单积分更复杂,但其主导项(即当 $h o 0$ 时)通常会是 $frac{f(x) R(K)}{nh}$。

4. MISE 的渐近性质: 上面得到的 MISE 公式是关于带宽 $h$ 的渐近表达式。在很多理论分析中,我们会关注当 $n o infty$ 和 $h o 0$(但 $nh o infty$)时的渐近 MISE (AMISE)。AMISE 公式就是我们上面推导出的 $MISE(hat{f}_h) approx frac{h^4}{4} C_K I(f'') + frac{R(K)}{nh}$。

为什么我们要关心 MSE 和 MISE?

评估估计器的性能: MSE 和 MISE 提供了衡量估计器准确性的标准。它们量化了估计量与真实值之间的平均差异。
优化带宽参数: 通过最小化 MSE 或 MISE,我们可以找到最优的带宽 $h$,使得核密度估计在偏差和方差之间达到最佳平衡。
理论分析的基础: 这些误差度量是许多非参数统计理论分析的基础,用于证明估计量的一致性、渐近正态性等性质。

总之,核密度估计的均方误差和均平方积分误差是通过计算估计量的期望和方差,然后利用泰勒展开等数学工具近似得到的。它们揭示了带宽参数 $h$ 和真实密度函数 $f(x)$ 的特性对估计性能的影响,并为优化带宽选择提供了理论指导。这个过程涉及到微积分、概率论和统计学的多方面知识。

网友意见

user avatar

其实就只是用了 以及Taylor展开(到2阶)[1].

设随机变量 独立且具有相同的概率密度函数 , 那么 处的核密度估计量为 , 其中 是人为选定的核函数(概率密度函数), 是调整参数(窗宽), . 考虑 和 , 下面(如果觉得等号过不去就对 或者 加假设)分别算 和 .

  • 从而

  • ,
  • 再对 积分即得

参考

  1. ^对于Hölder类/Sobolev类概率密度函数也有类似推广, 与之对应的核函数也需要更高阶; 见Tsybakov的Introduction to Nonparametric Estimation第一章 https://doi.org/10.1007/978-0-387-79052-7_1

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有