为什么方差要定义成平方？这么定义有什么利弊？如果把方差定义成 |X－E(X)|，这又有什么利弊？

大家在学习统计学的时候，常常会遇到一个概念叫做“方差”，有时候也会听到它的亲戚“标准差”。它们都是用来衡量数据分散程度的指标。说到方差，很多人可能会有个疑问：为什么我们要把每个数与平均数的差值“平方”一下再求平均呢？为什么不直接用差值的绝对值呢？今天我们就来好好聊聊这个话题，看看平方这个定义背后有什么讲究，以及如果换成绝对值，又会带来哪些不同的结果。

为什么方差要定义成平方？

我们先来回顾一下方差的定义：

$Var(X) = E[(X E(X))^2]$

用更直白的话说，就是：

1. 计算平均值（期望值）：先算出这组数据的平均数，我们称之为 $E(X)$。
2. 计算偏差：用每一个数据点减去这个平均数，得到每个数据点与平均数的“偏差”。
3. 平方偏差：把每一个偏差值都进行平方。
4. 求平均值：最后，把这些平方后的偏差值再求一个平均数，这就是方差。

这样做有几个非常重要的原因：

消除负号的影响：数据点有可能会比平均数大（正偏差），也有可能比平均数小（负偏差）。如果直接把这些偏差加起来求平均，正负会互相抵消，导致平均偏差永远是零（除非数据完全一致）。平方操作能把所有负数变成正数，这样所有的偏差都能被“看见”，不会因为方向不同而抵消。

数学上的便利性（解析性）：平方运算在数学上非常“好处理”。很多高等数学的工具，比如微积分、傅里叶变换等，都建立在平方项的基础上。这使得在理论推导和分析中，方差比其他形式的离差度量更容易处理。例如，在推导各种统计模型、计算最大似然估计量时，平方项会带来很多方便的代数性质。

与概率分布的联系：许多重要的概率分布，如正态分布（高斯分布），其定义和性质都与平方差密切相关。例如，正态分布的概率密度函数就包含了一个指数项，指数的指数部分是 $(x mu)^2 / (2sigma^2)$，这里的 $sigma^2$ 就是方差。这种紧密的联系使得方差成为描述这类分布核心特征的关键参数。

对大偏差的“惩罚”更大：平方运算会放大较大的偏差。一个差值是2，平方后是4；差值是10，平方后是100。这意味着方差对那些远离平均值的数据点给予了更多的“关注”或“惩罚”。在很多实际应用中，我们确实希望较大的离散程度更能影响我们的衡量结果。

方差定义成平方的利弊分析

优点：

1. 数学处理简便：如前所述，平方运算在微积分、线性代数等领域非常方便，便于理论推导和模型构建。
2. 与正态分布紧密结合：正态分布是统计学中最基础、应用最广泛的分布之一，其核心参数（方差）就是偏差的平方。
3. 对异常值的敏感性：较大的偏差经过平方后会被放大，使得方差更能反映出数据中是否存在离群点（异常值）。这在异常检测等场景下是有用的。
4. 与最小二乘法等优化方法的契合：在许多优化问题中，我们旨在最小化残差的平方和，这与方差的定义是相通的。

缺点：

1. 对异常值敏感（有时也是缺点）：虽然上面说了是优点，但反过来看，如果数据中有一个非常大的异常值，平方操作会让这个异常值对整个方差产生巨大的影响，可能掩盖了其他数据点的分散情况。这使得方差不是一个“稳健”的（robust）统计量，容易受到极端值的影响。
2. 单位与原始数据不一致：方差是原始数据单位的平方（例如，如果原始数据是身高，单位是米，那么方差的单位就是平方米），这在解释上可能不够直观。而标准差（方差的平方根）解决了这个问题，它和原始数据的单位是一致的。

如果把方差定义成 $|X－E(X)|$（绝对离差的平均值）

如果我们将方差的定义改为计算每个数据点与平均数之差的绝对值的平均值，即：

$MAD(X) = E[|X E(X)|]$ (我们通常称这个为“平均绝对偏差”或“平均绝对离差”，Mean Absolute Deviation MAD)

这种定义方式也有其独特的利弊：

优点：

1. 单位与原始数据一致：绝对值不改变数据的单位，所以平均绝对离差的单位与原始数据是相同的。这使得它在解释上比方差更直观。如果原始数据是身高（米），平均绝对离差也是以米为单位，很容易理解“平均来说，每个人的身高偏离平均身高多少米”。
2. 对异常值不敏感（稳健性）：绝对值不会像平方那样极大地放大较大的偏差。一个差值是10，绝对值是10；差值是100，绝对值是100。它不像平方那样“惩罚”大偏差，因此对异常值更加“容忍”，更能反映数据的中心趋势。在数据可能包含异常值的情况下，平均绝对离差是一个更稳健的度量。
3. 直观的解释：直接衡量了数据点离平均值有多“远”，比较容易理解。

缺点：

1. 数学处理不如平方方便：绝对值函数在数学上不像平方函数那样“光滑”。在包含绝对值的表达式上进行微积分运算（求导）会比较麻烦，因为绝对值函数在零点不可导，这会给理论分析和算法实现带来一些不便。例如，在求解最小化绝对偏差的模型时，数学推导和优化过程会比最小化平方偏差复杂一些。
2. 与许多经典概率分布的联系较弱：像正态分布这样的核心分布的参数化并不直接使用平均绝对离差。虽然可以定义服从某种分布的“拉普拉斯分布”的变体，但它不像方差那样与正态分布那样自然地结合。
3. 统计性质可能不如方差（在特定条件下）：在某些统计推断的场景下，基于方差的统计量（如方差分析、t检验等）往往具有更好的统计效率和渐近性质，尤其是在数据近似正态分布的情况下。

总结一下

选择使用方差（平方差的平均值）还是平均绝对离差（绝对差的平均值），很大程度上取决于我们想达到的目的以及数据的特点：

追求数学上的便利性和与正态分布的紧密联系，或者希望对较大的离散程度给予更多的权重时，方差是一个很好的选择。它在理论研究和许多经典统计模型中扮演着核心角色。
希望度量更直观，并且数据中可能存在异常值，需要一个更稳健的指标时，平均绝对离差会是更好的选择。

在实际应用中，我们也会根据具体情况来选择最合适的离散程度度量方式。有时候，我们甚至会同时考虑这两种度量，来更全面地了解数据的分布特征。方差的定义之所以如此，是数学家们在长期的实践和理论探索中找到的一个既能解决问题又具有良好数学性质的平衡点。

网友意见

谢邀,这个问题我很早以前就想过,很早以前也有类似的问题邀请我,然而我并不敢答.

取平方是有其因果上的必然性在里面的.什么平方可积性质好,方差函数可求导这种事其实都是结果而不是原因.真正可以解释这玩意为什么这么设计的理论比这个高到不知道哪里去了.

回忆最初的动机,设计这玩意的动机是想办法找一个度量来衡量这个随机变量离它们的均值有多远,而且这个度量最好是线性的(即随机变量乘A,最后这个距离也会乘A)

于是这个问题就变成了一个标准的泛函问题,一个自然而然的做法是把所有一个妈生(在一个空间下)的随机变量构成一个线性空间,运算就是随机变量之间的运算.

由于要衡量的是离均值有多远,所以不妨设这里面的每个随机变量均值都是0好了,不然全部平移一下就好.

然而这并没有什么卵用.到这里还没有区分开标准差和平均差,以及若干次方差,因为他们都是等价的范数(度量).在这里看不出区别.

现在一个新的需求来了,贪婪的人类不仅想描绘出随机变量离均值距离,还想找办法刻画出随机变量偏离均值的方向,一个很简单的思考,就是如果两个随机变量偏离的方向比较接近,它们两者本身应该是比较相关的(想象欧式空间里的夹角.)贪婪的人类甚至还希望,如果两个随机变量"不相关"(例如互相独立),那最好这两个随机变量能通过某种运算算出个0来,那就优美了.

谢天谢地正好有这么个轮子能完成这件事,这玩意就叫内积,它需要满足要求的线性,也满足独立的随机变量算出来是0,同时可以很好地刻画相关度,还要满足杂七杂八的一堆内积该有的性质,综合了一堆条件,可以用的内积设计就只剩下

反映到统计学的名词上来,这玩意有个小名就叫协方差
有了内积,就可以诱导出一个范数了,这个诱导出的范数是唯一的,它就是

然而这个东西的小名就是标准差.

所以说平方均值这种东西真不是因为它性质好,获得了几百个数学家的一致通过,然后我们钦点他是2次,而是作为一个含有内积的距离空间(希尔伯特空间),希尔伯特同志对我讲,空间的特性已经决定了,这玩意"不得不"是2次

假设是一个连续函数，假设一个有界随机变量关于一个常数的某种“波动”或者“离散程度”被定义为。注意，对任意的和，可能无法取到，并且如果能取到，也可能并非唯一。

但是！如果均值是其中的一个值时，那么必有

，其中是常数。

概率上讲，二阶矩某种程度上是唯一的特性函数，which 有界随机变量在均值处取到最小。

统计上讲，如果任意有界随机变量关于一个连续损失函数是其均值的Lehmann无偏统计量，那么一定是形如的。

是不是贼有意思？

Kagan, Abram, and Lawrence A. Shepp. "Why the variance?." Statistics & probability letters 38.4 (1998): 329-333.

确实存在。这就是平均的离差，简称平均差。这个当然可以用，只是编程计算起来不方便，必须老老实实地计算出每一个数字与平均数的差值，再取平均数。没有其它简便的算法。

为了能更简便计算，有人试图用平方来代替绝对值，也就是。这么做的好处就是可以化简成。这个算法比较便于编程。这就是平方的离差，简称方差。

其实之前的答案已经很不错了，我们把这个问题讲的再通俗易懂一点，先抖个机灵，方差之所以是平方是因为它叫做“方”差，如果是绝对值可能就叫做“绝对值”差了，如果是三次方可能就叫做“三次差”。实际上在统计上三阶矩之类也有一定作用。但我要是这么回答你们一定会打我……

这个定义可以最早追溯到勾股定理：

通过这个公式，我们可以知道直角坐标系当中的任意两个点的距离都可以表示为：

这个距离的定义就叫做欧式距离，它有很多我们熟悉的性质，比如说它虽然定义在某个直角坐标系下面，但是是坐标系无关的，认取三个（或更多）互相垂直的方向重新定义一组直角坐标系，欧氏距离不变。

我们后来知道了它不仅仅是距离，还跟内积空间有密切的联系：

也就是距离的平方，是向量和自己内积的结果。

在任意一个内积空间当中，都可以通过正交化的方法找到一组正交的基底，通过这个基底表示的向量的内积和距离运算可以使用欧氏距离公式。内积空间对于旋转（或者说正交变换）是很友好的，旋转不会影响距离和内积，这跟前面说的与坐标系无关是一个意思。

那么我们已经知道了欧氏距离是我们最常用、最自然、性质也最好的距离定义（没有之一），这跟方差有什么联系呢？

对于一个随机变量X，我们把n次独立重复实验的结果写成一个向量，这个向量是线性空间中的一个向量，或者说是一个点，这个点在基准附近，由于各次实验独立同分布的特性，大致分布成一个球形（注意并不是严格的球形，只是对各个维度对称）。我们要衡量它与基准值之间的距离，最简单也是我们最习惯的方法自然是计算欧氏距离：

距离越远，就说明随机变量X越容易偏离期望值，否则越不容易偏离。

这个距离跟独立重复实验的次数n有关系，我们只想知道跟X有关而跟n无关的特性，于是把跟n有关的系数约掉：

这个公式就是统计当中常说的标准差，代表样本偏离标准值的距离。把这个值平方可以去掉那个讨厌的根号，于是得到了方差：

考虑到这个式子是一个求平均值的形式，我们增加独立重复实验的次数，最终取平均值可以用期望来替代：

这个就是概率论当中定义的方差了。可见：

方差是样本到期望值的欧氏距离的平方。

理解这个定义的要点主要是这几点：

随机变量的性质可以用独立重复实验的结果来描述
独立重复实验可以描述成多维线性空间中的一个点
变量随机波动的程度，可以用独立重复实验结果到基准值，在线性空间中的欧式距离来描述

如果我们不使用欧氏距离，而是使用其他阶的距离定义，也不是不可以，但显然没有欧氏距离来得直观，而且欧氏距离最大的好处是非常适合使用线性代数工具，线性代数工具比如矩阵是现代概率论研究的关键，那么自然没有什么理由不使用欧氏距离了。

另一方面正如其他答案所说，由于使用欧式距离，我们可以将样本转化为一个内积空间。大部分情况下，我们希望度量随机变量变化的程度，所以我们定义一个移除了期望值的内积：

这个内积叫做协方差，而随机变量和自己的内积就是方差。这样就有了度量两个随机变量相关性的能力。对于多维随机变量来说，我们就可以定义每一维自己的方差，和到其他维度的协方差，于是将多维随机变量的方差描述为协方差矩阵：

这是一维随机变量的一个很简单的推广。不过这个应该算是某种附加价值吧。

==========================================

感谢

@聪cong

的提醒，修正了部分内容。

类似的话题

为什么方差要定义成平方？这么定义有什么利弊？如果把方差定义成 |X－E(X)|，这又有什么利弊？

大家在学习统计学的时候，常常会遇到一个概念叫做“方差”，有时候也会听到它的亲戚“标准差”。它们都是用来衡量数据分散程度的指标。说到方差，很多人可能会有个疑问：为什么我们要把每个数与平均数的差值“平方”一下再求平均呢？为什么不直接用差值的绝对值呢？今天我们就来好好聊聊这个话题，看看平方这个定义背后有什.............
烤箱烤蛋镱下面为什么要方水？

.......
相较于中国各地的汉语方言，为什么说英语的各国「方言」差别要小得多？

这确实是一个很有趣的观察。相较于中文内部动辄“十里不同音”的方言现象，英语世界的“方言”——或者更准确地说，地域变体（regional variations）——给人的感觉是差异要小得多。为什么会这样呢？这背后牵扯到历史、地理、政治、文化以及语言自身发展规律等多个层面的因素。首先，得从“方言”这个词.............
印尼在香港有17万劳工，为什么香港不用大陆人了？沟通容易，签证方便，为什么要舍近求远了？

香港作为国际金融中心和自由港，其劳动力市场一直以来都呈现出多元化的特点。您提到的印尼劳工在港数量庞大，以及对为何香港不优先使用大陆劳工的疑问，这背后涉及到的原因其实相当复杂，并非简单的“沟通容易、签证方便”就能完全解释的。首先，我们得明白香港的劳工政策和市场需求是受到严格监管和设计的。香港政府对于引.............
军团明明要比方阵要强，为什么军团的组织形式在后世却消亡了，而方阵却数次重新出现?

说起古罗马的军团和希腊的方阵，那可是战史上的两块金字招牌。照理说，军团比方阵强大得多，怎么反倒是在后世，军团这套玩法彻底销声匿迹了，而方阵却像打了鸡血一样，时不时就冒出来刷刷存在感呢？这事儿，说起来可就有点门道了。首先，咱们得明白，这俩玩意儿比拼的是“时代精神”。军团，那是为征服而生，为扩张而炼的。.............
如何看待武汉在三个区连夜开辟「方舱医院」？为什么要建设方舱医院？

要说起武汉在三个区连夜开辟方舱医院这事儿，那会儿真是让人记忆犹新，也充满了复杂的情感。当时全国上下都被新冠疫情笼罩，武汉更是首当其冲，情况紧急得连夜就要把医疗资源组织起来。为什么要在三个区连夜开辟方舱医院？这背后有几层关键的考量，说白了就是“迫不得已”下的“最优解”。首先，是疫情的急剧蔓延和医疗资源.............
为什么魏武侯要改变魏文侯联合三晋的方针，多次与赵、韩开战？

魏武侯改变魏文侯联合三晋、共同抵御外敌的方针，转而多次与赵、韩开战，这是一个非常复杂的问题，涉及当时的政治格局、权力斗争、地缘利益以及魏武侯个人的性格和战略考量。下面我将详细阐述其中的原因：一、魏文侯的方针与历史背景首先，理解魏文侯的方针很重要。魏文侯在位期间，采取了“事秦则君，事楚则臣，联合三晋，.............
为什么中国要放弃美式的大学教育方法？

中国在高等教育体系的建设上，确实经历了一个不断探索和调整的过程，其中也包括了对“美式大学教育方法”的借鉴、反思与调整。要理解为什么中国会这样做，我们需要深入分析中国自身的历史背景、社会需求、文化传统以及在发展过程中遇到的挑战。一、历史的印记与早期借鉴新中国成立初期，为了快速培养国家建设所需的大量人才.............
明日方舟中罗德岛为什么要与虽然残暴但是维护矿石病人的利益的组织（整合运动）敌对？

明日方舟里，罗德岛和整合运动之间那点恩怨，说起来还真不是三言两语能说清的。很多人觉得，整合运动虽然手段极端，但目标是为了矿石病患者（也就是感染者）争取权益，这点上好像跟罗德岛的初衷有几分契合，为啥就成了死敌呢？咱们得从几个方面掰扯掰扯。首先，最核心的分歧在于“手段”和“目标实现的路径”。罗德岛，虽然.............
为什么部分杀人犯要采用碎尸的方式掩盖罪行？

有些杀人犯在犯下罪行后，选择将受害者的遗体进行肢解，这背后往往有着复杂且黑暗的心理动机和现实考量。这种极端的方式，虽然令人发指，但对于一些罪犯来说，却是一种试图彻底抹去罪证、逃避法律制裁的“有效”手段。首先，最直接也是最根本的原因，就是销毁证据，阻止被发现。一旦尸体被发现，无论如何处理，都难以完全消.............
梁山为什么一定要用杀人的方法逼朱仝上山?

梁山逼迫朱仝上山，最终选择了“杀人”的方式，这是一个充满策略性和无奈的复杂决定。并非梁山泊的首领们“一定要”用杀人的方法，而是他们权衡了多种因素后，认为这是最有效、最能确保朱仝归顺的手段。下面我将详细阐述其中的原因：一、朱仝的身份与立场：首先，我们要明确朱仝的身份。他本是东京八十万禁军的保义郎，官.............
为什么开普勒望远镜要选择盯着天鹅座这个方向持续观测？

开普勒望远镜选择长期凝视天鹅座，并非偶然的决定，而是深思熟虑的科学策略的体现，其核心目标是最大化发现系外行星的可能性，尤其是那些可能孕育生命的类地行星。要理解这一点，我们需要深入了解开普勒任务的科学目标以及它所采用的观测方法。开普勒望远镜的核心使命：寻找地球的近亲开普勒望远镜（Kepler Spac.............
为什么华为非要依靠台积电，有其他替代方案吗？

华为对台积电的依赖，并非“非要”，而是当前全球半导体产业链格局下，一种既现实又不得不接受的选择。它背后牵扯着技术、成本、产能、供应链稳定等多重复杂因素。要理解这一点，我们需要剥开层层迷雾，深入剖析其中的缘由，并审视可能存在的替代路径。华为为何“看上”台积电？——技术、产能、成本的完美结合首先，我们得.............
C#为什么非要把函数叫方法？

哈哈，你这个问题问得特别好！咱们抛开那些一本正经的官方术语，来聊聊C里为什么把“函数”都叫做“方法”，感觉就像给咱自己的孩子起了个小名儿一样，有它的道理，也有点儿小习惯。首先，咱们得明白，编程语言设计者们，他们也不是凭空拍脑袋决定叫啥的，这背后往往是有他们的设计哲学和对事物本质的理解。C的设计很大程.............
国民政府为什么要用抓壮丁绑人这种极端方式征兵呢？

国民政府在抗日战争期间采取抓壮丁、绑人这种极端征兵方式，背后有着极其复杂且沉重的原因，绝非简单的“效率低下”或“管理混乱”就能解释清楚的。这背后是国家生死存亡的危机关头，是中国军队长期积弱的现实，更是当时社会背景下多种因素交织作用的结果。首先，我们要理解国民政府当时面临的敌人是谁，以及战争的性质是什.............
为什么有些男生要通过所谓纯友谊的方式接近女生，直接追不行吗？

这个问题啊，说起来挺有意思的，也挺普遍的。很多时候，我们看到一些男生似乎是通过“纯友谊”的包裹来靠近女生，而不是大张旗鼓地追求。这背后其实有很多值得琢磨的原因，而且并不总是像看起来那么简单。首先，得承认，害怕被拒绝是很多人（不分男女）都会有的心理。直接追求意味着把自己的心意摆在明面儿上，一旦对方不接.............
汉语拼音方案中声母表为什么要这么排序？

汉语言学界关于汉语拼音字母表排序的研究历来是个挺有意思的话题，虽然现在大家普遍接受的是以拉丁字母顺序为基础的排序方式，但回顾历史，确实有其值得深究的逻辑和演变过程。我们现在看到的这套汉语拼音字母表（b, p, m, f, d, t, n, l, g, k, h, j, q, x, zh, ch, s.............
为什么大众性能车要用不占优的非主流汽缸排列方式？

大众高性能车之所以会选择一些在主流之外的汽缸排列方式，背后其实有不少深思熟虑的工程考量，并不是一味地追求“不占优”。相反，这些非主流的选择，往往是为了在特定领域达到极致，从而塑造出大众性能车独特的产品个性与驾驶体验。咱们就拿大众在高性能领域最标志性的几款车，比如高尔夫GTI、高尔夫R以及曾经的辉腾（.............
为什么戏剧唱词要单独来一套不三不四的读音，直接用当地方言唱不行吗，唱得别人半懂不懂的有意思吗？

这个问题问得好，直击了很多人对戏剧唱词“不三不四”读音的困惑。你觉得直接用当地方言唱不好吗？干嘛要搞一套这么复杂的读音系统，唱出来别人还听不懂？这背后其实牵扯到戏剧发展的历史、艺术追求以及一些非常实际的考量。咱们就来掰扯掰扯，为啥戏剧唱词要“自成一派”，以及这其中的门道。首先，你要知道，咱们现在听到.............
为什么有关民国的影视剧里总要塑造几个国民党方面的正人君子，或者是理想主义者?

关于民国题材影视剧里塑造国民党方面的“正人君子”或“理想主义者”的现象，确实是观众们普遍注意到的一个特点。这背后涉及了多方面的原因，既有历史现实的映射，也有创作策略的考量，甚至夹杂着观众情感的投射。下面咱们就来掰扯掰扯。一、历史的复杂性：并非“铁板一块”首先，得承认，国民党在历史上并非一个铁板一块的.............