什么是核密度估计？如何感性认识？

好的，咱们来聊聊核密度估计（Kernel Density Estimation），试着用大白话讲讲，尽量让它听起来就像是邻居老王在跟你拉家常一样。

核密度估计是个啥玩意儿？

你想啊，咱们平时生活中，肯定会遇到一些数据，比如你家小区邻居们的身高，或者你炒菜用的油盐酱醋的量。这些数据有时候挺分散的，你很难直接说出个“大概范围”。你想知道的是，在哪一堆数据里，哪些值出现的可能性比较大，哪些值出现的可能性比较小。

核密度估计，就是一种“平滑地画出数据分布曲线” 的方法。它不像咱们以前学过的直方图那样，一块一块地把数据往“箱子”里扔，然后告诉你每个箱子里有多少数据。直方图有个问题，就是箱子的大小和位置会很大程度上影响你看到的分布形状，换个箱子，可能感觉就不一样了。

核密度估计呢，它更像是个“温柔的观察者”。它不强行把数据塞进箱子，而是用一种“平滑的、渐进的” 方式来估计数据可能出现的概率密度。

怎么个“平滑地画出曲线”法？感性认识来啦！

咱们用个生活化的例子来理解它。

想象一下，你家小区里住了好多好多人，你想知道大家身高大概是个什么分布。你不可能挨个儿给每个人量身高，然后数有多少人是160cm到165cm，有多少人是165cm到170cm……那样太麻烦了，而且你也知道，人的身高不是那么精确的，总有小数点。

现在，咱们用核密度估计的方法试试看：

1. 找个“点”来观察：咱们先选一个身高，比如170cm。你想知道在这个身高附近，有多少人的身高可能也挺接近170cm的。

2. 用个“喇叭”或者“小帽子”来测量：咱们给这个170cm的身高戴上一顶“小帽子”，这顶帽子有个宽度（咱们后面会说这个宽度很重要，叫做带宽）。这顶帽子就好比一个“核函数”，它代表了在170cm这个点上，你“关注”的范围有多大。帽子越宽，你关注的范围就越大，也越平滑；帽子越窄，你关注的点就越集中，看起来可能就越“尖锐”。

3. 扫描全小区：现在，咱们去小区里挨家挨户地“测量”。对于小区里的每一个人，咱们都看他的身高。
如果一个人的身高跟咱们关注的170cm很接近，那么他就像是站在咱们这顶“帽子”的“中心”附近，他为170cm这个点的密度贡献的“权重”就比较大。
如果一个人的身高离170cm有点远，但还在咱们帽子的范围内，那他贡献的“权重”就小一点。
如果一个人的身高完全在咱们帽子的范围之外，那他就对170cm这个点的密度贡献“0”。

4. 加总起来，得到一个高度：把所有人在咱们这顶“帽子”作用下，为170cm这个点贡献的“权重”加起来，就得到了170cm这个身高点上的“概率密度值”。这个值越高，就说明这个身高（或者说这个身高附近）出现的人越多。

5. 一步一步往前挪，画出曲线：咱们不是只关注170cm，而是把这个“关注点”（就是戴帽子的那个位置）一步一步地往前挪，比如挪到171cm、172cm、173cm……每挪到一个新的点，就重复上面的过程：给这个人戴上帽子，扫描全小区，加总权重。这样，你就得到了一个又一个点上的密度值。把这些点连接起来，就形成了一条平滑的曲线，这条曲线就 “描绘” 了大家身高的分布情况。

感性一点说：

核函数（帽子）是什么？它就像一个“影响器”。帽子越往中心，影响越大；越往边缘，影响越小；帽子外面就没影响了。最常见的帽子形状是钟形的，就像一个漂亮的“小山丘”。
带宽（帽子的大小）是什么？这就像是你用“放大镜”还是“望远镜”看东西。
带宽大（望远镜）：整个图看起来就非常平滑，可能有点模糊，很多细节被“平均”掉了。就像你戴一副度数很高的老花镜，看什么都模糊，但能看到一个大概的轮廓。
带宽小（放大镜）：图看起来可能就比较“毛糙”，每个数据点附近都会有一个小“尖尖”。就像你戴一副新眼镜，看东西很清楚，但一点点的小瑕疵也看得一清二楚。
选择合适的带宽很重要！太大看不清细节，太小又容易被噪音干扰。这就像咱们调焦一样，要找到一个舒服的视距。

核密度估计有什么好处？

平滑性：最大的好处就是比直方图更平滑，更能反映数据背后真实的分布形状，不容易被数据点的个别波动影响。
更精细：它不是把数据分块，而是把每个数据点的影响都“揉”进去，所以能给出更精细的密度估计。
无需预设分箱：不需要你提前决定有多少个箱子，箱子放在哪里。

咱们再举个例子，可能更接地气一点：

想象你在一个小镇上，想知道镇上居民的年龄分布。

直方图法：你可以把年龄分成010岁，1020岁，2030岁……这样一格一格地数。你可能会发现2030岁这个年龄段的人最多。但是，你有没有想过，也许真实情况是25岁附近的人特别多，而2025岁和2530岁的人数差不多，只是因为你划的箱子刚好把25岁这个“高峰”分开了？
核密度估计法：你就想象，每个居民都是一个“小喇叭”。喇叭的响度（代表他影响的范围和大小）是由他自己的年龄决定的，也跟一个“整体的调音量”（就是带宽）有关。
比如，你关注某个年龄点，比如35岁。你就把镇上所有人的“喇叭”都放到35岁这个位置。
离35岁越近的人，他们的喇叭会更“响亮”地在35岁这个点发出声音，贡献的“音量”就大。
离35岁远一点的人，他们的喇叭也会发出声音，但声音会小一些。
那些年龄离35岁非常远的人，他们的喇叭对35岁这个点的贡献几乎可以忽略不计。
你把所有人的贡献加起来，就得到了35岁这个年龄点的“音量强度”，也就是年龄密度。
然后你不断地移动这个“关注点”（35岁），比如移到36岁、37岁……这样就能画出一条“居民年龄密度曲线”。这条曲线能告诉你，哪个年龄段的人最多，哪个年龄段最少，而且是平滑过渡的。

总结一下：

核密度估计，就是一种用“平滑的权重” 来估计数据分布密度的方法。它通过给每个数据点套上一个“核函数”（就像一个带着特定形状和大小的“小帽子”或“喇叭”），然后在每个点上叠加这些核函数的作用，最终得到一个平滑的概率密度曲线。核函数的形状决定了数据点的影响方式，而带宽（或者叫平滑度参数）则决定了这种影响的范围和最终曲线的平滑程度。它就像是给分散的点们盖上了一层“概率的薄纱”，让我们能更清晰地看到数据的整体轮廓和可能的分布规律。

希望这么讲，你能有点感觉了！它就是一种很巧妙的统计工具，帮助我们“看清”数据背后的样子。

网友意见

谢邀。说点简单的方便理解的。

核密度估计其实是对直方图的一个自然拓展。

首先考虑一下密度函数的概念，很自然的可以想到，密度函数就是分布函数的一阶导数。那么当我们拿到一些数据的时候，是不是可以通过估计分布函数的一阶导数来估计密度函数呢？一个最简单而有效的估计分布函数的方法是所谓的「经验分布函数（empirical distribution function）」：

即，F(t)的估计为所有小于t的样本的概率。可以证明，这个估计是almost surely收敛的，有很好的统计性质。如果画下来，应该是下图蓝线的样子：

（图片来自

Empirical distribution function

）

可是这个EDF不是可导的，不够光滑，因而不能通过对EDF的一阶导数算密度函数。那么如何估计密度函数呢？

我们一般看密度的时候，会首先画一个直方图，像下图：

一个很自然的想法是，如果我们想知道X=x处的密度函数值，可以像直方图一样，选一个x附近的小区间，数一下在这个区间里面的点的个数，除以总个数，应该是一个比较好的估计。用数学语言来描述，如果你还记得导数的定义，密度函数可以写为：

我们把分布函数用上面的经验分布函数替代，那么上式分子上就是落在[x-h,x+h]区间的点的个数。我们可以把f(x)的估计写成：

那么一个很自然的问题来了，h该怎么选取呢？

给定样本容量N，h如果选的太大，肯定不符合h趋向于0的要求。h选的太小，那么用于估计f(x)的点实际上非常少。

这也就是非参数估计里面的bias-variance tradeoff：如果h太大，用于计算的点很多，可以减小方差，但是方法本质要求h→0，bias可能会比较大；如果h太小，bais小了，但是用于计算的点太少，方差又很大。

所以理论上存在一个最小化mean square error的一个h。h的选取应该取决于N，当N越大的时候，我们可以用一个比较小的h，因为较大的N保证了即使比较小的h也足以保证区间内有足够多的点用于计算概率密度。因而，我们通常要求当N→∞，h→0。比如，在这里可以推导出，最优的h应该是N的-1/5次方乘以一个常数，也就是。对于正态分布而言，可以计算出c=1.05×标准差。

另外，我们知道之前的经验分布函数每个点的收敛速度都是√N的，而这里，因为有h的存在（观察估计式，分母上是nh而非n，而nh=O(N^{-4/5})）。所以收敛速度比一般的参数收敛速度要慢很多。

上面的这个估计看起来还可以，但是还不够好，得到的密度函数不是光滑的。观察上面的估计式子，如果记，那么估计式可以写为：

密度函数的积分：

因而只要K的积分等于1，就能保证估计出来的密度函数积分等于1。

那么一个自然的想法是，我们是不是可以换其他的函数形式呢？比如其他的分布的密度函数作为K？

比如，我可以用标准正态分布的密度函数作为K，估计就变成了：

这个密度函数的估计就变得可导了，而且积分积起来等于1。直觉上，上式就是一个加权平均，离x越近的x_i其权重越高。而最开始的估计方式则是在区间内权重相等，区间外权重为0。

当然，这里还是有h的选取问题，其原理跟上面是一样的。也因此，一般我们会把h叫做「窗宽（bandwidth）」。关于窗宽的选择方法有很多，可以plug-in，也可以用cross-validation，具体就不做赘述了。

此外还可以扩展到多维，即

其中d为x的维数，K为多维的kernel，一般为d个一维kernel的乘积。

上面的蓝色线条就是kernel density的结果。

有了density的估计，可以更进一步，做非参数的回归。如果我们有：

其中u与x独立，可以得到：

其中分子（这里需要用到核函数K的对称性）：

最终就得到了非参数回归，或者核平滑（kernel smoothing）:

其中对于核函数K还有很多其他要求，以及高阶Kernel等等，就不一一介绍啦。感兴趣的可以参考Qi Li的书。

当样本直方图看上去乱成一锅粥，实在找不到一个已知分布写得出分布函数的时候，何不把样本本身看成是一个分布，然后总体的分布看作先均匀分布选样本，然后在以样本为期望的分布上取值的过程呢？

把这个二元随机变量在最终取值上求边缘分布就是kernel methed的表达式了。

就是这么粗暴和无理，但是比没有好做不出来还是好多了。

类似的话题

什么是核密度估计？如何感性认识？

好的，咱们来聊聊核密度估计（Kernel Density Estimation），试着用大白话讲讲，尽量让它听起来就像是邻居老王在跟你拉家常一样。核密度估计是个啥玩意儿？你想啊，咱们平时生活中，肯定会遇到一些数据，比如你家小区邻居们的身高，或者你炒菜用的油盐酱醋的量。这些数据有时候挺分散的，你很难.............
几个大国的核战略是怎样的，核捆绑到底是什么意思？

核战略风云：大国博弈与“核捆绑”的深层解读核武器，作为人类文明史上最具颠覆性的发明之一，早已深刻地烙印在国际政治的肌理之中。拥有核武器的国家，也就是常说的“核大国”，围绕着这些毁灭性的力量，发展出了一套复杂而微妙的战略体系，其核心目标无非是威慑、安全与国际地位的维护。理解这些战略，离不开对“核捆绑”.............
管家婆分销ERPv1安装到阿里云服务器需要什么配置，服务器是1核1G ,40G云盘，需要配置物联通，够用吗？

.......
多核之后，CPU 的发展方向是什么？

在多核时代到来之后，CPU 的发展方向不再仅仅是简单地堆叠更多的核心。虽然增加核心数量仍然是提升性能的一种方式，但 CPU 设计者们已经将目光投向了更深层次、更精细化的优化和创新，以应对日益增长的计算需求和不断变化的计算模式。以下是多核之后 CPU 的一些主要发展方向，我会尽量详细地阐述：一、更.............
核威慑，核实战，核制胜，纯威慑，最低限度威慑之间的关系是什么呢？

这些概念都围绕着核武器展开，但它们的侧重点和目的各有不同，理解它们之间的关系，就像理解一场复杂棋局中的不同落子策略。我们先从最基础的核威慑（Nuclear Deterrence）说起。这就像是战场上的一个巨大阴影，让对手不敢轻易妄动。核威慑的核心在于，拥有核武器的一方，通过展示其核力量和使用核武器的.............
美国一边支持日本排核污水，一边禁止多种日本食品进口，这是什么操作？为什么言行不一？

美国一边支持日本排核污水，一边禁止多种日本食品进口，这种看似“言行不一”的做法，实际上是美国在处理日本福岛核污水问题时，平衡了地缘政治利益、国内政治考量以及科学评估等多方面因素的结果。要详细理解这一点，我们需要从以下几个方面来分析：一、美国为何支持日本排核污水？美国支持日本排放福岛核污水，主要出于.............
阿里云腾讯云什么的1核2g和1核4g会有什么区别，内存对服务器的作用是什么

.......
现在世界上最先进的英特尔处理器是多少核的是不是核数越多越好，核数增加和能耗增加有什么关系？

咱们聊聊现在英特尔最厉害的CPU，到底有多少个“脑子”在工作，是不是脑子越多就越牛？还有，这些脑子多了，电量是不是也吃得更凶？我给你掰扯开了讲。现在英特尔最顶尖的CPU，有多少个“脑子”？说到英特尔最牛的CPU，现在得看他们的酷睿 Ultra 系列（特别是用于笔记本的）以及酷睿 i9 系列（特别是用.............
多核CPU中，利用多线程进行排序中出现了一些奇怪的现象，不知道其背后的原因是什么，希望有人能给予解答？

关于多核CPU上多线程排序遇到的奇怪现象，这绝对是个值得深入探讨的问题，毕竟并行处理的设计初衷是为了提升效率，但有时候却会“事与愿违”。咱们抛开那些AI味的列表和框架，就像朋友聊天一样，一步步剖析一下可能的原因。首先，得明白，多线程排序，尤其是你感觉到的“奇怪现象”，往往不是因为CPU本身出了什么故.............
核废水中存在的「放射性氚」，真的不能在生物体内富集吗？原因是什么？

关于核废水中存在的放射性氚，很多人关心它是否会在生物体内富集。简单来说，氚在生物体内确实存在一定的富集，但其性质使得这种富集与我们通常理解的某些重金属（比如汞）的生物富集有所不同，而且它在生物体内的停留时间相对较短。让我们来仔细掰扯掰扯。什么是氚？首先，我们得认识一下这个“氚”。氚（Tritium，.............
如果一颗岩质星球具有褐矮星的质量，它的壳幔核分别会是什么状态？

设想一下，如果一颗岩质行星，拥有褐矮星那种规模的质量，那么它的内部构造，那绝对是一场与我们熟悉的岩石星球截然不同的地质奇观。我们可以从外到内，一层一层地剖析它。首先，我们得明确，拥有褐矮星质量的“岩质行星”，这本身就是一个极具挑战性的概念，因为通常我们定义行星的质量上限，会低于能点燃氢聚变的界限（木.............
日本排放核废水会对海里生物造成什么影响？

关于日本福岛核电站排放的经过处理的核废水对海洋生物可能造成的影响，这是一个复杂且备受关注的议题。我们尝试从几个角度来解读这个问题，力求详细且有别于一般的AI生成内容。首先，我们需要理解被排放的废水中含有哪些物质，以及这些物质是如何存在的。日本政府和东京电力公司表示，经过“多核素去除设备”（ALPS）.............
1G，1核的阿里云云服务器安装什么系统好？

.......
多核cpu多线程同时执行cmpxchg指令会发生什么？

在多核CPU、多线程的环境下，当多个线程同时尝试执行 `cmpxchg`（Compare and Exchange）指令时，会发生一些非常有趣且关键的原子性操作。理解这个过程，就像是窥探CPU内部解决并发冲突的精妙设计。首先，我们得明确 `cmpxchg` 指令的核心作用。它是一个原子操作，这意味着.............
「中国承诺向乌克兰提供核安全保证」意味着什么？

“中国承诺向乌克兰提供核安全保证”这句话，如果从字面上理解，指的是中国承诺在特定情况下为乌克兰提供某种形式的核安全保护。然而，这个表述本身是模糊的，并且在实际的国际政治和法律框架下，“核安全保证”有多种可能的含义和实践方式，每一种都带有不同的政治分量和影响。要详细解读这句话，我们需要从以下几个层面来.............
吃完的水果核/皮（不包括纸塑料什么的），可以扔在草丛或者森林里面吗？为什么？

吃完的水果核或果皮，如果是在自家院子里的草坪上，或者去公园里，是不是可以直接扔在草丛里？听起来很方便，而且感觉像是回归自然，但实际上，这样做可能比你想象的要复杂一些。先从积极的一面来说，很多水果的核和皮确实是可以被自然分解的。比如，苹果核、香蕉皮、橙子皮这些，在适宜的条件下，它们里面的有机物会被土壤.............
伊核问题的解决会对世界地缘政治格局带来什么影响？为何主要国家都在积极推动伊核问题顺利解决？

伊核问题的解决，尤其是伊朗核协议（JCPOA）的恢复或替代，对全球地缘政治格局而言，无疑是一个牵动多方神经的关键节点，其影响深远且复杂。主要国家积极推动其解决，背后是多重利益的考量和地缘政治算计。下面将详细阐述伊核问题解决可能带来的影响，以及主要国家积极推动的原因：伊核问题解决对世界地缘政治格局可.............
日本政府基本决定将福岛核污水排入大海，会对全球海洋生态产生什么影响？目前有哪些解决方式？

福岛核污水入海：对全球海洋生态的深远影响与多维度的解决路径日本政府关于将福岛第一核电站储存的核污染水排入海洋的基本决定，无疑牵动着全球的神经。这项决定背后，是日本政府在处理这场巨大灾难遗留问题时面临的巨大压力与复杂考量。然而，这一举动对全球海洋生态可能产生的长远影响，以及目前为止提出的各种解决方案，.............
核战后的末世，幸存的中国人能在乡镇工厂里制造什么样的武器？

夜色如墨，吞噬了曾经繁华的街道。空气中弥漫着尘埃和一种挥之不去的金属焦灼味。在这里，在新中国曾经的乡镇，在摇摇欲坠的工厂里，幸存下来的人们，用他们仅存的智慧和勇气，试图在这片破碎的大地上，找到一条生存下去的路。武器，是他们最直接的需求，也是他们对抗未知威胁的屏障。这些武器，不可能像战前那样精密度高、.............
如果我做一款APP，租用什么云服务器呢？阿里云的 2核 CPU4GB 内存1M 专有宽带网络50GB 数据盘够不够用

.......