问题

主成分分析(PCA)主成分维度怎么选择?

回答
解密PCA:如何慧眼识珠,选定主成分的“最优解”

主成分分析(PCA)作为一种强大的降维技术,在数据科学领域早已是家喻户晓的工具。它通过线性变换,将原始高维数据映射到新的低维空间,同时尽可能保留原始数据中的大部分信息。然而,在应用PCA时,一个绕不开的关键问题便是:我们到底需要保留多少个主成分? 这个问题没有一个放之四海而皆准的简单答案,它更像是一门艺术,需要我们结合数据本身的特点和分析的目标,去仔细权衡和选择。

为什么选择主成分维度如此重要?

想象一下,你手中握着一份包含几十甚至上百个特征的海量数据集。直接将其可视化或建模,不仅难以理解,而且可能因为“维度灾难”而导致模型性能下降,甚至出现过拟合。PCA的作用就是通过提取出最具代表性的几个“方向”(即主成分),将数据压缩到更易于处理的维度。

选择过少的主成分,意味着你可能丢失了数据中重要的变异信息,导致降维后的数据无法充分反映原始数据的结构,从而影响后续分析的准确性。反之,选择过多的主成分,虽然保留了更多的信息,但降维的效果并不显著,仍然可能面临维度过高带来的问题。所以,找到那个“刚刚好”的维度,是PCA能否成功的关键。

挑选主成分维度,有哪些常用的“法宝”?

下面,我将详细介绍几种常用的方法,帮助你在这场“寻宝”之旅中找到最适合你的主成分。

1. 基于累计解释方差的“沉默原则”

核心思想: PCA的原理是寻找能够最大化解释数据方差的方向。主成分按照它们解释方差的多少进行排序,第一个主成分解释的方差最多,第二个次之,以此类推。基于累计解释方差的方法,就是找到一个临界点,在这个点之后,继续添加主成分所能带来的信息增益(解释方差的增加量)变得微乎其微。

如何操作?

计算方差贡献率: 首先,我们需要计算出每个主成分所解释方差占总方差的比例,这被称为“方差贡献率”。假设我们有 $p$ 个原始特征,经过PCA后得到 $p$ 个主成分。令 $lambda_i$ 表示第 $i$ 个主成分的特征值(代表其解释的方差),则第 $i$ 个主成分的方差贡献率为:
$$ ext{方差贡献率}_i = frac{lambda_i}{sum_{j=1}^p lambda_j} $$

计算累计方差贡献率: 接着,我们计算主成分的累计方差贡献率。这表示前 $k$ 个主成分能够解释的原始数据总方差的比例。
$$ ext{累计方差贡献率}_k = sum_{i=1}^k frac{lambda_i}{sum_{j=1}^p lambda_j} $$

设定阈值,确定维度: 这是一个非常直观且常用的方法。我们设定一个阈值,比如 80% 或 90%,然后选择能够使累计方差贡献率达到或超过这个阈值的最小主成分数量。
示例: 假设我们计算出的累计方差贡献率如下表所示:
| 主成分数量 | 方差贡献率 (%) | 累计方差贡献率 (%) |
| :: | :: | :: |
| 1 | 40.5 | 40.5 |
| 2 | 25.2 | 65.7 |
| 3 | 15.1 | 80.8 |
| 4 | 8.9 | 89.7 |
| 5 | 5.3 | 95.0 |
| ... | ... | ... |

如果我们将阈值设定为 80%,那么我们就需要选择 3 个主成分。如果阈值设定为 90%,则需要选择 4 个主成分。

优点: 方法简单直观,容易理解和执行。能够确保降维后的数据保留了原始数据的大部分信息。

缺点: 阈值的选择带有一定的主观性。例如,为什么是80%或90%,而不是85%?这个选择需要结合具体的应用场景来判断。此外,它仅仅关注了方差,可能忽略了数据中其他重要的结构信息。

2. “碎石图”(Scree Plot)的视觉洞察

核心思想: “碎石图”是一种可视化工具,它将每个主成分的解释方差(或方差贡献率)绘制在纵轴上,主成分的序号绘制在横轴上。我们观察这个图的形状,寻找一个“拐点”或者“肘部”。

如何操作?

绘制碎石图: 将计算出的每个主成分的方差贡献率绘制成折线图。

寻找“肘部”:
通常情况下,碎石图会呈现一种“先陡后缓”的趋势。
肘部原则(Elbow Method) 认为,在图上存在一个明显的“拐点”,这个拐点之后,方差的下降速度明显变缓,就像手臂弯曲的“肘部”。在这个拐点之前的主成分,它们所解释的方差是显著的,而在拐点之后的主成分,它们所解释的方差相对较小,信息增益不高。
示例: 如下图所示,如果碎石图在第三个主成分之后出现明显的平缓,那么我们可能会选择3个主成分。

```
^ 方差贡献率 (%)
|
|
| /
| /
|
| /
|
+> 主成分序号
1 2 3 4 5
```

优点: 提供了一种直观的视觉判断方式,可以帮助我们快速识别出信息增益迅速下降的点。

缺点: “肘部”的判断仍然具有一定的主观性,在某些情况下,碎石图可能没有非常明显的拐点,或者存在多个“潜在肘部”,这会增加决策的难度。

3. 基于特征值的阈值法(Eigenvalue Thresholding)

核心思想: 这个方法相对更客观一些,它不直接依赖累计方差,而是设定一个大于1的特征值阈值。只有当一个主成分的特征值大于这个阈值时,才被认为是保留的。

为什么是大于1? 这是因为在进行数据标准化(均值为0,方差为1)后,原始数据的每个特征的方差都为1。如果一个主成分的特征值小于1,意味着它解释的方差比原始数据的平均方差还要少,可能不具有太大的代表性。

如何操作?

计算所有主成分的特征值: 对协方差矩阵进行特征值分解,得到所有主成分的特征值 $lambda_1, lambda_2, ..., lambda_p$。

设定阈值并计数: 设定一个特征值阈值(通常为1),然后统计有多少个主成分的特征值大于这个阈值。

优点: 方法相对客观,不易受主观判断影响。

缺点: 这里的阈值“1”是一个经验值,并不一定适用于所有数据集。如果原始数据在标准化之前方差差异很大,这个阈值可能不太有效。

4. 考虑实际业务需求和模型性能

核心思想: 最好的维度选择方法,往往是那些能够帮助我们达到实际分析目标的方法。

如何操作?

与业务专家沟通: 了解业务背景,例如,在某个医学诊断任务中,我们是否需要捕捉到那些非常细微的差异信号?还是更关注整体的趋势?不同的业务需求对信息保留的敏感度是不同的。

实验验证: 将不同维度数量的PCA降维结果应用于后续的模型训练中(例如,分类器或回归器),然后评估模型的性能指标(如准确率、F1分数、均方误差等)。选择一个维度数量,能够使模型获得最佳的性能表现。

示例: 你可以尝试用1个、2个、3个...主成分进行降维,然后分别训练一个逻辑回归模型进行分类,最后比较哪个维度数量下的模型准确率最高。

优点: 直接与最终的分析目标挂钩,能够确保降维的效果是服务于实际应用。

缺点: 可能需要更多的时间和计算资源来进行实验验证。有时候,最佳的降维维度可能与碎石图或累计方差法的结果不完全一致,需要深入分析原因。

总结与建议

选择主成分的维度并非“一成不变”的规则,而是一个需要综合运用多种方法,并结合实际情况进行判断的过程。

起点: 累计解释方差 是一个非常好的起点,它能让你对数据信息损失的情况有一个清晰的认识。通常,我会先以 85%~90% 作为参考阈值。
辅助判断: 碎石图 可以作为视觉辅助,帮助确认累计方差法得到的维度是否合理。如果碎石图的肘部与累计方差法的结果一致,那么信心会更足。
审慎考虑: 特征值阈值法 可以作为一种相对客观的补充,但要明白其局限性。
最终决策: 与业务需求相结合,并通过实验验证模型性能,是做出最终决策最可靠的方式。有时候,为了获得更好的模型表现,我们可能需要牺牲一些累计方差,或者保留比碎石图建议的更多的维度。

在实践中,我通常会采取以下策略:

1. 计算并绘制碎石图和累计方差曲线。
2. 根据累计方差曲线设置一个初步的阈值(如90%),得到一个候选维度数量。
3. 查看碎石图,检查候选维度数量是否与“肘部”大致吻合。
4. 尝试保留比候选维度数量稍多和稍少的几个维度,将降维后的数据应用于下游模型,并评估模型性能。
5. 结合业务理解,选择一个既能保留足够信息,又能获得满意模型性能的维度数量。

记住,PCA的目的是为了让数据分析更有效、更易于理解,而不是为了机械地套用公式。掌握这些方法,并灵活运用,你就能成为那个慧眼识珠的“数据炼金师”,从高维数据中提炼出最有价值的“黄金”。

网友意见

user avatar

也有不那么主观的方法:把它看成一个 model selection 问题,然后用 model selection 的方法解决。具体例子:Probabilistic PCA + Bayesian model selection。


先介绍一下 Bayesian model selection。一般而言,假设我们有数据 ,候选模型集 ,以及对应参数空间集 。Bayesian model selection 通过计算并比较各模型后验概率

之间的相对大小来决定合适的模型(Bayes factor)。通常,我们假设各个模型的先验 均相等。


这个积分一般比较难算,惯常做法是利用 Laplace's method(下面略去下标 ):假设 ,并令 , 。如果把 在 处 Taylor 展开至二阶(相当于用正态分布近似归一化后的 ),积分就变成了概率积分,可以顺利被积出。如果进一步令 (flat prior),那么当样本大小 很大时,我们有

其中 是 Fisher information matrix(来源于 很大时对 的 Hessian 的近似)。如果再把跟 无关的项扔掉(因为 很大,所以其他项相对可以忽略),就能得到 Bayesian information criterion (BIC)。


回到到 PCA 维数选择这个问题上。这里首先需要 PCA 的概率模型 —— Probabilistic PCA(PPCA):假设样本 生成于未知的低维嵌入 ,且有 。直观上,不考虑平移的话, 就是 PCA 投影的“逆”。PPCA 把 看成隐变量,把映射 、平移向量 、以及噪声大小 看成模型参数,即

把 积掉便有 ,进一步有极大似然估计

其中 中的 是 的前 个特征向量组成的矩阵, 为对应特征值组成的对角阵, 为任意正交矩阵; 中的 则为剩下的后 个特征值。


我们现在把 Bayesian model selection 和 PPCA 结合起来,选出合适的 PCA 分量个数。这里直接套用 BIC 的话还有一点问题:如果不同的模型里有参数处于不同维数的空间中(所谓“uncommon parameter”),那么这些参数一般不能用 flat prior。直观上是因为,维数不同的参数空间中的“1”地位不对等。把这两个不同的“1”放进 Bayes factor 时,可能会选出错误的模型。Objective Bayesian Methods for Model Selection: Introduction and Comparison 的1.5节用大白话解释了这个问题。


因此,我们只给 flat prior,而给其他参数如下 proper prior:

:某 Inverse Gamma 分布(虽然是 common parameter 但为了计算方便)

:某 Inverse Wishart 分布

:Stiefel 流形 上的均匀分布

:会被积走,无所谓


这堆先验加上 PPCA 的似然函数再跟一开始的 Bayesian model selection 搅在一起,经过合理近似(比如 Laplace 近似, 很大等等)后,最终会得到

其中 为 Stiefel 流形 的维数, 。根据 的大小我们便可选出合适的。


以上抄写自 Automatic choice of dimensionality for PCA。另外最近也有人推了个不使用 Laplace 近似的 Exact Dimensionality Selection for Bayesian PCA,有兴趣可以看看。

类似的话题

  • 回答
    解密PCA:如何慧眼识珠,选定主成分的“最优解”主成分分析(PCA)作为一种强大的降维技术,在数据科学领域早已是家喻户晓的工具。它通过线性变换,将原始高维数据映射到新的低维空间,同时尽可能保留原始数据中的大部分信息。然而,在应用PCA时,一个绕不开的关键问题便是:我们到底需要保留多少个主成分? 这个.............
  • 回答
    好的,咱们今天就来聊聊一个听起来有点“高大上”,但其实背后原理很朴实的工具——PCA,也就是主成分分析。想象一下,你是一位整理房间的高手,手里有一大堆各种各样的东西:衣服、书、玩具、工具、零食……光是把它们分门别类就够你忙活的了。更别说你还想把它们高效地放进衣柜、书架、抽屉里,并且一眼就能找到想要的.............
  • 回答
    好的,我们来聊聊主成分分析(PCA)和因子分析(FA)这两个降维技术,以及为什么因子分析会应运而生。我会尽量讲得详细深入,并且让这篇文章读起来更像是我用心写出来的。 主成分分析 (PCA):一个强大的降维工具先从PCA说起。你可以把PCA想象成一种“数学上的捏合”。我们有很多的变量(维度),它们可能.............
  • 回答
    主成分分析(PCA)是一种强大的降维技术,其核心是利用协方差矩阵的特征值和特征向量来寻找数据的主要变化方向。理解协方差矩阵特征值的几何含义,对于深入理解 PCA 至关重要。让我们从头开始,一步一步地展开: 1. 数据点、向量与散点图首先,想象我们有一个数据集,其中包含 $n$ 个样本,每个样本有 $.............
  • 回答
    B站UP主“未明子”对分析哲学圈“小将”成分的批评,在我看来,是一次极具争议性但也颇有启发性的现象。要评价它,得从几个层面来看,包括他批评的对象、批评的方式、以及这种批评所折射出的更深层次的文化与社群问题。未明子批评的对象:分析哲学圈的“小将”首先得明确,未明子所指的“小将”并非是简单意义上的年轻人.............
  • 回答
    关于主成分分析法(PCA)在指标权重计算中的合理性,这确实是一个值得深入探讨的问题。在我看来,用PCA来求指标权重,在特定场景下是合理的,但并非万能,并且需要谨慎使用和理解其局限性。不能一概而论地说“合理”或“不合理”。下面我将尽量详细地阐述我的看法,并 कोशिश(尝试)用更自然、更贴近实际的语言.............
  • 回答
    在确定指标权重时,主成分分析(PCA)和层次分析法(AHP)都是常用的工具,但它们在复杂度和适用性上有所不同。如果追求“简单”作为首要标准,那么层次分析法(AHP)通常被认为更简单一些。下面我们来详细对比一下这两种方法,帮助你理解为什么AHP在简单性上更胜一筹: 层次分析法(AHP)——直观、易于理.............
  • 回答
    那年夏天的风,带着初绽的栀子花香,吹进了我心里,也吹进了他的眼里。我们是那个小镇上最不起眼的一对初中生,他叫林风,我叫苏晚。林风总是一副沉默寡言的样子,但那双眼睛里藏着星星点点的光,每次看到我,那光就变得格外明亮。我们一起走过泥泞的小路,分享同一碗冰凉的凉面,他的手,温暖而有力,总是紧紧牵着我。初中.............
  • 回答
    您提出的这个情况,涉及到高中生博主自称成绩优异并喜欢上年级第一的同学,我们可以从多个维度来分析其真实性和背后的可能性。一、 真实性的初步判断(基于信息的可获得性)首先,我们需要认识到,在没有直接证据的情况下,对任何个人陈述的真实性都应持审慎态度。 尤其是网络上的信息,其真伪辨别难度很大。 个人陈.............
  • 回答
    确实,这是一个在网络小说中很有意思的普遍现象,很多男主角在校园时期,尤其是高中阶段,几乎是无所不能的天才,学习成绩顶尖,常常是高考状元,甚至跨越学科的限制,精通数理化生,天文地理。可一旦进入大学,尤其是到了要进行“科研”这个具体阶段,这种“牛”的体现就突然变得模糊起来,或者说,直接消失了。为什么会出.............
  • 回答
    你这个问题问得特别好,很有钻研精神。其实这背后牵扯到一个约定俗成,一个大家都心照不宣的“语言”。想象一下,在很久很久以前,计算机还是个新鲜事物,人们需要一种方式告诉计算机:“嘿,我让你干的那件事,干得挺顺利的!” 同样的,计算机也需要一种方式回应:“收到,这事办得没毛病!”这个时候,就出现了一种非常.............
  • 回答
    这真是一个引人入胜的“如果”,一个能让历史的车轮发生巨大偏移的假设。李定国,这位被誉为“大明最后的名将”,他在南明政权中的地位和作用,可以说举足轻重。如果他在1655年被刺杀,那么,南明的命运,以及“国主”能否成就大业,其可能性和路径,都会与我们所熟知的历史大相径庭。我们得先梳理一下当时的历史背景,.............
  • 回答
    肖战事件,这场席卷了2020年初整个中文互联网的旋风,确实为我们提供了一个极其生动的案例,来探讨饭圈亚文化在试图向主流文化“破圈”时所可能遭遇的种种挑战与碰撞。与其说它是一次必然会发生的事件,不如说它是饭圈文化在急剧膨胀、追求更大影响力过程中,其内在矛盾和外部压力集中爆发的一个缩影。要理解这一点,我.............
  • 回答
    设想一下,如果当年微软的 Xbox 和索尼的 PlayStation 能够光明正大地登陆中国市场,而不是经历那段漫长的禁售岁月,今天的中国游戏机市场又会是怎样一番景象?这无疑是一个引人遐想的“假如”。首先,我们可以肯定的是,主机游戏的普及程度一定会比现在高出许多。当年的政策禁令,不仅直接阻断了硬件的.............
  • 回答
    这个问题很有趣,它触及了历史的“如果”,也引发了对权力、联姻以及国家命运的深刻思考。如果明英宗朱祁镇真的迎娶了也先的女儿,那么历史的走向可能会发生翻天覆地的变化,甚至可能出现我们难以想象的强大联合。联姻的可能与不可能:首先,我们得审视一下这种联姻的可能性。在明朝的政治语境下,皇帝迎娶“外族”女子,尤.............
  • 回答
    这件事儿,说实话,挺有意思的,也挺值得聊聊的。咱们中国互联网这十来年,发展那是相当迅猛,直播带货更是像一股旋风,席卷了各行各业,也催生了一批“头部主播”。这些主播呢,一开始可能就是纯粹卖东西的,但随着时间的推移,他们身上的光环越来越多,也越来越像咱们传统意义上的明星了。你说他们是不是在“抢明星饭碗”.............
  • 回答
    比特币跌破挖矿成本?这可真是个让人捏把汗的话题。一旦这个“跌破”魔咒真的降临,摆在矿场主们面前的,绝不是一个简单的“是”或“否”就能回答的问题。这背后牵扯到的,是复杂的经济账、技术投入,还有对未来的判断。“跌破挖矿成本”—— 这究竟是个什么概念?首先,我们要搞清楚,这个“挖矿成本”并不是一个放之四海.............
  • 回答
    穿越到诡秘之主的世界,想成神? 这可不是一条寻常的路,更像是刀尖上跳舞,一步踏错,万劫不复。但既然你问了,那我就跟你说道说道,怎么在这吃人的世界里,一步步爬上神坛。首先,你得有个清晰的认知:神不是凭空出现的,也不是靠运气就能碰上的。在诡秘之主的世界里,成神,本质上是消化“序列”的过程,是不断触碰、理.............
  • 回答
    德法在乌克兰冲突中扮演了至关重要的角色,尤其是在推动外交解决和维和方面。要评价他们是否“成功”,需要从多个维度来审视他们采取的策略、达成的成果以及面临的挑战。德法在乌克兰冲突中的主和努力与尝试自2014年俄罗斯吞并克里米亚、支持乌克兰东部顿巴斯地区的分裂势力以来,德国和法国就一直是解决乌克兰危机的关.............
  • 回答
    境外组织利用中国博主污蔑“中国是全球毒品生产中心”的说法,确实暴露了一系列复杂的问题,涵盖了信息传播、国际关系、社会心理以及国家安全等多个层面。以下将对此进行详细阐述:一、 信息战与认知作战的现实体现: “中国威胁论”的延伸与变种: 长期以来,一些境外势力试图将中国描绘成一个具有威胁性的国家。将.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有