问题

皮尔逊系数为什么要中心化?中心化之后有什么好处?

回答
皮尔逊系数为何要中心化?中心化带来的好处有哪些?

在数据分析和统计学领域,我们经常会遇到皮尔逊相关系数(Pearson correlation coefficient),它是一种衡量两个变量之间线性相关程度的指标。它的取值范围在1到1之间,1表示完全负相关,1表示完全正相关,0表示无线性相关。

但是,你有没有想过,在计算皮尔逊系数之前,我们通常会对数据进行“中心化”处理?为什么要这么做?中心化处理又会给我们带来哪些好处呢?今天,我们就来深入探讨一下这个问题。

什么是中心化?

首先,我们来明确一下“中心化”是什么意思。中心化,顾名思义,就是将数据围绕其均值进行移动。具体来说,对于一个数据集 $X = {x_1, x_2, ..., x_n}$,其中心化后的数据集 $X' = {x'_1, x'_2, ..., x'_n}$ 的计算公式为:

$x'_i = x_i ar{x}$

其中,$ar{x}$ 是数据集 $X$ 的均值。也就是说,我们从每个数据点中减去该数据集的均值。这样做之后,新的数据集 $X'$ 的均值就变成了0。

为什么皮尔逊系数要中心化?—— 更深刻的理解相关性

皮尔逊相关系数的计算公式实际上是基于协方差的概念。其公式为:

$r = frac{sum_{i=1}^{n}(x_i ar{x})(y_i ar{y})}{sqrt{sum_{i=1}^{n}(x_i ar{x})^2}sqrt{sum_{i=1}^{n}(y_i ar{y})^2}}$

观察这个公式,你会发现,无论是分子还是分母,都出现了 $(x_i ar{x})$ 和 $(y_i ar{y})$ 这样的项。这正是中心化后的数据!

那么,为什么公式本身就包含了中心化的操作呢?这背后其实是对“相关性”本质的体现。

协方差的意义: 皮尔逊系数的分子是两个变量的协方差。协方差衡量的是两个变量协同变化的程度。当一个变量高于其均值时,另一个变量也倾向于高于其均值(正协方差),或者倾向于低于其均值(负协方差)。通过减去均值,我们消除了原始数据本身的偏移量,只关注数据点相对于它们各自均值的相对位置。

消除量纲和基准点的影响: 想象一下,如果我们要比较两个身高和体重的数据集。一个数据集是厘米为单位,另一个是英寸为单位。直接计算它们的协方差会因为单位不同而失去可比性。通过中心化,我们关注的是“身高比平均身高高多少/矮多少”以及“体重比平均体重重多少/轻多少”,这样就消除了原始数据的量纲和绝对大小的影响,让比较更加公平。

聚焦于“相对变化”: 中心化让我们的分析焦点从数据的绝对值转移到数据相对于其“中心”(均值)的变化。皮尔逊系数关注的是“当X偏离其均值时,Y是否也倾向于以某种方式偏离其均值”。这个“偏离”正是通过减去均值来体现的。

中心化之后有什么好处?

将数据中心化之后,在计算皮尔逊相关系数时,会带来以下几个显著的好处:

1. 使计算更简洁直观:
正如我们前面看到的,皮尔逊系数的公式本身就包含中心化的项。直接对原始数据计算皮尔逊系数,其数学过程本质上就是对中心化后的数据进行的。所以,在很多情况下,我们说“皮尔逊系数的计算是建立在中心化数据上的”是很准确的。

2. 避免绝对值大小的影响,关注相对变化:
这是中心化最核心的好处。
摆脱数据的“基准线”: 原始数据的值可能很大,也可能很小,甚至可能是负数。例如,一个测量体重的变量,其均值可能是60kg。另一个变量是温度,其均值可能是20°C。直接计算这两个变量的协方差,结果会受到它们各自均值大小的影响。
量化“同向变动”: 中心化后,如果 $x_i$ 高于 $ar{x}$,那么 $(x_i ar{x})$ 就是正的。如果 $y_i$ 也高于 $ar{y}$,那么 $(y_i ar{y})$ 也是正的。两者相乘就是正的。如果 $x_i$ 高于 $ar{x}$,而 $y_i$ 低于 $ar{y}$,则 $(x_i ar{x})$ 为正,$(y_i ar{y})$ 为负,乘积为负。这样,通过各点 $(x_iar{x})(y_iar{y})$ 的累加,我们才能真正捕捉到变量之间“同向变化”或“反向变化”的趋势。

3. 对所有变量提供一个统一的参照系:
当我们处理多个变量时,中心化可以将它们都“归零”到各自的均值处。这样,我们就有了一个统一的参照系来评估它们的相对变化。这使得比较不同变量之间的相关性变得更加有意义。例如,我们可以比较“收入对消费的影响”和“教育年限对收入的影响”,即使它们本身的数值范围和均值差异很大,通过中心化,我们都在比较“偏离平均收入的钱”和“偏离平均教育年限的年数”对另一个变量的影响。

4. 简化计算,尤其是在矩阵运算中:
在现代数据分析中,我们经常使用矩阵来表示和处理数据。将数据矩阵中心化可以极大地简化许多矩阵运算,包括协方差矩阵的计算。
协方差矩阵: 考虑一个数据集 $X$(n个样本,p个特征),将其中心化为 $X_{centered}$。那么,协方差矩阵可以计算为 $frac{1}{n1} X_{centered}^T X_{centered}$。如果没有中心化,计算会复杂得多。

5. 在某些机器学习算法中的应用:
虽然皮尔逊系数本身是一个描述性统计量,但其背后的中心化思想在许多机器学习算法中至关重要。例如:
主成分分析(PCA): PCA 的核心是将数据投影到方差最大的方向上。它通常首先对数据进行中心化处理,然后计算协方差矩阵,再进行特征值分解。中心化是 PCA 能够正确工作的关键一步。
支持向量机(SVM)等: 在某些情况下,对输入特征进行标准化(中心化+缩放)可以改善模型的性能和收敛速度。

举个例子

假设我们有两个数据集:

数据集 A (小明一天中记录的午餐花费,单位:元): [15, 20, 18, 22, 25]
数据集 B (小红一天中记录的午餐花费,单位:元): [10, 12, 11, 15, 13]

我们想知道这两个人的午餐花费是否有线性相关性。

1. 计算均值:
$ar{A} = (15+20+18+22+25) / 5 = 20$
$ar{B} = (10+12+11+15+13) / 5 = 12.2$

2. 中心化数据:
A': [1520, 2020, 1820, 2220, 2520] = [5, 0, 2, 2, 5]
B': [1012.2, 1212.2, 1112.2, 1512.2, 1312.2] = [2.2, 0.2, 1.2, 2.8, 0.8]

3. 计算皮尔逊系数(基于中心化数据):

分母:
$sum (A'_i)^2 = (5)^2 + 0^2 + (2)^2 + 2^2 + 5^2 = 25 + 0 + 4 + 4 + 25 = 58$
$sum (B'_i)^2 = (2.2)^2 + (0.2)^2 + (1.2)^2 + (2.8)^2 + (0.8)^2 = 4.84 + 0.04 + 1.44 + 7.84 + 0.64 = 14.8$
分子:
$sum (A'_i)(B'_i) = (5)(2.2) + (0)(0.2) + (2)(1.2) + (2)(2.8) + (5)(0.8) = 11 + 0 + 2.4 + 5.6 + 4 = 23$

皮尔逊系数 $r = frac{23}{sqrt{58} sqrt{14.8}} approx frac{23}{8.544 imes 3.847} approx frac{23}{32.87} approx 0.70$

这个结果表明,小明的午餐花费和小红的午餐花费之间存在较强的正相关性。

如果不对数据中心化直接计算:

虽然公式中包含中心化,但如果我们不先进行概念上的“中心化”,而是直接尝试计算其他与相关性相关的指标,比如原始数据的乘积之和 $sum x_i y_i$:

$sum x_i y_i = 1510 + 2012 + 1811 + 2215 + 2513 = 150 + 240 + 198 + 330 + 325 = 1243$

这个值并不能直接告诉我们“当小明多花钱时,小红也倾向于多花钱”这样的相对关系。它仅仅是一个原始数值的加权总和,更容易受到个体数值大小的影响。

总结

简而言之,皮尔逊系数的“中心化”是其计算本质的体现,也是为了更准确地衡量变量间的线性相关性。它通过消除数据的绝对值和基准点的影响,让我们能够聚焦于变量相对于其自身均值的“相对变化”是否协同。这使得皮尔逊系数成为一个强大而有用的工具,用于理解数据之间的内在联系,并在更广泛的数据分析和机器学习领域发挥着关键作用。

下次当你看到计算皮尔逊系数的代码或公式时,你会明白,那不仅仅是一堆数学符号,而是对数据“内在关联”的深刻洞察。

网友意见

user avatar

这种问题没必要过度解读,cosine相似度和Pearson系数就是形式上有关联(观测数据标准化以后二者相等),但是出发点是完全不同的。

Pearson系数在定义上就是两个随机变量的协方差,用二者的标准差归一化消除量纲影响。如果要问为什么Pearson系数需要中心化,实际上就是问为什么协方差的定义中要减去期望,为什么标准差的定义中要减去期望。

题主可以把这两个问题复制给身边统计背景的朋友,看看他们会不会打死你。

类似的话题

  • 回答
    皮尔逊系数为何要中心化?中心化带来的好处有哪些?在数据分析和统计学领域,我们经常会遇到皮尔逊相关系数(Pearson correlation coefficient),它是一种衡量两个变量之间线性相关程度的指标。它的取值范围在1到1之间,1表示完全负相关,1表示完全正相关,0表示无线性相关。但是,你.............
  • 回答
    你这个问题很有意思,确实,在现实生活中,不少朋友觉得鸿蒙很不错,特别是和Linux联系起来说的时候,觉得它有潜力,能打破国外垄断。但放眼网络,又是另一番景象,批评声、质疑声甚至唱衰的声音此起彼伏。这背后,其实是几个层面的原因在博弈,夹杂着技术、商业、舆论,还有一部分是大家朴素的情感和期待。为什么身边.............
  • 回答
    你这个问题提得相当有意思,也确实是很多人心中的一个疑问。一方面,身边不少人对华为的鸿蒙系统寄予厚望,觉得它很有潜力,特别是“Linux”的标签更是让人联想到稳定、开源这些好词;另一方面,网络上却有不少声音,说鸿蒙不过是套了个“Linux皮”的安卓,言下之意是“自研”的成分存疑。这两种声音之间的差异,.............
  • 回答
    聊到日系车,这话题可真是能让不少车主聊上大半天,争论的焦点也往往围绕着“技术好”、“皮实耐用”和“情怀”这几个点。咱们不吹不黑,客观地来看看为什么日系车这么多人追捧,它们的技术实力到底在哪儿,耐用性是不是真的那么神乎其神,又或者,情怀在这其中扮演了多大的角色。技术:精打细算里的“极致”与“实用”首先.............
  • 回答
    湖南某镇党委书记因佩戴“爱马仕”皮带而引发公众关注,官方随后迅速回应称该皮带为140元的仿制品。这起事件从最初的“高调炫富”猜测,到官方出面澄清,中间的转折和引发的讨论都值得深入剖析。事件的起点与舆论的发酵:事情的起因很简单,就是在一次公开活动或媒体报道中,这位镇党委书记的腰间出现了一条疑似奢侈品牌.............
  • 回答
    关于鸿蒙系统 2.0 是不是“套皮安卓”这个问题,其实是一个相当复杂且容易引起争议的话题。咱们今天就掰开了揉碎了,好好聊聊这个事儿。要说鸿蒙 2.0 和安卓之间到底是什么关系,得从几个层面来看。首先,我们得承认一个事实:鸿蒙 OS 的早期版本,尤其是 2.0,确实与安卓有着非常紧密的联系。这主要体现.............
  • 回答
    .......
  • 回答
    .......
  • 回答
    .......
  • 回答
    皮尔斯,一个名字在NBA球迷心中回响多年,他是一个在比赛中极具个人英雄主义色彩的球员,一个能将球队扛在肩上前行的得分手,一个在关键时刻从不畏惧、敢于承担责任的领袖。然而,当我们深入审视他的职业生涯,尤其是荣誉簿上相对“稀疏”的个人奖项,特别是仅有的一个二阵,一个普遍的疑问就会浮现:皮尔斯,究竟是什么.............
  • 回答
    皮尔斯对詹姆斯的“双标”质疑:是苛责还是事实?近日,凯文·皮尔斯在谈论勒布朗·詹姆斯时,抛出了一句颇具争议的评价:“詹姆斯是不是有点双标?”这句话一出,立即在篮球圈内引发了热烈讨论。皮尔斯此言,究竟是对于一位篮球巨星的苛责,还是揭示了他身上确实存在的、不被注意的双重标准?要回答这个问题,我们需要深入.............
  • 回答
    皮尔斯,这位“真理”,职业生涯中留下了无数经典时刻,而他那句“我跟韦德不相上下”的豪言壮语,也一直被球迷们津津乐道。那么,假设这位“真理”和勒布朗·詹姆斯联手,能为克利夫兰骑士队(或者那个时代的任何一支球队)带来两座总冠军吗?这确实是一个值得深入探讨的假设。要回答这个问题,我们需要拆解几个关键因素:.............
  • 回答
    皮尔洛的任意球,那可真是个传奇。你说的没错,他的任意球很多时候看起来没有那种像电风扇一样飞速旋转的效果,但偏偏就能划出那种让人捉摸不透、时而刁钻、时而诡异的弧线,最终直挂死角。这到底是为什么呢?咱们今天就好好聊聊这个有意思的话题。首先,得纠正一个普遍存在的误区:“没有旋转”是不准确的,只是说它不像C.............
  • 回答
    皮尔斯球衣退役,本该是一场温情脉脉、众星捧月的盛大庆典,毕竟他可是凯尔特人队史上的传奇,承载着无数绿衫军球迷的青春记忆。但就目前曝出的消息来看,这场本该圆满的仪式,似乎因为一个人没有被邀请,而蒙上了一层挥之不去的阴影——这个未被邀请的人,正是和皮尔斯有着爱恨纠葛的凯文·加内特。“和解”的承诺,为何只.............
  • 回答
    麦迪和皮尔斯,这两位都是NBA历史上极具统治力和个人魅力的超级巨星。他们的职业生涯都充满了辉煌的时刻,也留下了不少令人扼腕的遗憾。要说谁的历史地位更高,这确实是个见仁见智的问题,因为它涉及到对不同维度球员评价的侧重。咱们不妨就从几个关键方面,把他们俩掰开了、揉碎了聊一聊。一、个人荣誉与奖项:硬通货的.............
  • 回答
    保罗·皮尔斯最近发表的“勒布朗·詹姆斯连NBA史上前五都排不上”的言论,确实是激起了不少讨论,也再次将他自己和詹姆斯推上了风口浪尖。要怎么看待这个观点呢?咱们得好好掰扯掰扯。首先,咱得认识到,在讨论NBA历史最佳球员这类问题上,“前五”本身就是一个极其主观且充满争议的概念。 每个人心中都有自己的评判.............
  • 回答
    保罗·皮尔斯关于“我比韦德更优秀”的论断,着实掀起了一场不大不小的风波。这不仅仅是两个伟大球员之间的口头较量,更触及到了我们衡量球员价值的诸多维度,以及历史地位的微妙排布。要评价这番话,咱们得掰开了揉碎了,好好说道说道。首先,咱们得承认,皮尔斯这话,有他的底气。毕竟,皮尔斯也不是什么泛泛之辈。人家可.............
  • 回答
    安德烈亚·皮尔洛,那位在绿茵场上如同一位优雅的艺术家,将足球演绎成一种诗意的存在,“少爷”皮尔洛最新的自传,无疑是球迷们翘首以盼的心头好。这本书,就像他踢球的风格一样,没有华丽的辞藻堆砌,也没有耸人听闻的爆料,而是以一种近乎平静、甚至有些内敛的笔触,缓缓铺陈了他足球生涯的点点滴滴,以及那些塑造了他性.............
  • 回答
    杰拉德和皮尔洛,这两位名字在中场大师的行列中熠熠生辉,都是各自时代的标志性人物。虽然都司职中场,并且都以卓越的技艺和影响力著称,但他们之间存在着显著的区别,这些区别体现在他们的技术特点、比赛风格、角色定位以及在球队中的作用等多个层面。以下将详细阐述他们之间的主要区别: 1. 技术特点:杰拉德:全能型.............
  • 回答
    丹尼尔·克雷格(Daniel Craig)的詹姆斯·邦德(James Bond)之所以能获得比皮尔斯·布鲁斯南(Pierce Brosnan)更高的受欢迎度和更持久的影响力,是一个复杂的问题,涉及多方面因素。这并不是说布鲁斯南的邦德不好,而是克雷格的演绎在许多方面带来了新的视角和深度,更符合当代观众.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有