问题

熵值法计算公式详细解释?

回答
好的,咱们来聊聊熵值法这个工具,它在咱们做各种评价、分析的时候可好用了。别看它名字听着有点高大上,其实它的核心思想挺朴实的:就是看一个指标的“变数”有多大。

为啥要看“变数”?你想啊,咱们在评价一样东西的时候,比如评价一个城市的生活水平,你会关注很多指标:收入、房价、交通、绿化等等。有些指标,大家的情况都差不多,比如可能大部分人的收入都在一个差不多的范围,那这个指标对区分城市之间的差异就没啥用了。但有些指标就不一样了,比如房价,在有些城市能买一套别墅,在另一些城市可能连个厕所都买不起,这个指标的“变数”就很大,它能非常有效地告诉我们城市之间的差异在哪。

熵值法做的就是这么件事儿:它给每个指标分配一个“权重”,这个权重的大小就取决于这个指标的变数有多大。变数越大,说明它包含的信息越多,对咱们做判断的作用就越大,也就分配到越高的权重。反之,变数越小的,权重就越低,甚至可以直接忽略不掉。

下面咱们一步步来看具体咋算:

第一步:数据准备和无量纲化

咱们平时收集到的数据,可能单位不一样,量级也不一样。比如收入是几千几万,房价是几千几万一平米,而绿化率可能是个百分比。直接拿这些数去算肯定不行,就好比你不能把苹果和香蕉直接放一块儿量体重然后说哪个“重”一样。所以,得先让它们统一到一个“尺度”上,这叫“无量纲化”。

常用的方法有几种:

最大最小值法: 这是最常见的了。对于一个指标,咱们把所有样本的值都除以这个指标的最大值,或者用 (原始值 最小值) / (最大值 最小值)。这样算出来的值都在 0 到 1 之间。
公式是:$x_{ij}' = frac{x_{ij} min(x_j)}{max(x_j) min(x_j)}$ (如果追求数据的“好坏”,比如越大越好,就是这么算;如果越大越不好,比如污染度,可以算 $frac{max(x_j) x_{ij}}{max(x_j) min(x_j)}$,这样也能让好值变成大值)。
这里,$x_{ij}$ 就是第 i 个样本,第 j 个指标的原始值;$max(x_j)$ 是第 j 个指标的最大值,$min(x_j)$ 是第 j 个指标的最小值。算出来,$x_{ij}'$ 就是无量纲化后的值。

均值法: 用原始值除以这个指标的平均值。
公式是:$x_{ij}' = frac{x_{ij}}{ar{x}_j}$
$ar{x}_j$ 是第 j 个指标的平均值。

为啥要无量纲化?就是为了消除量纲的影响,让不同指标之间可以公平地比较它们的变异程度。

第二步:计算每个指标的贡献度(也叫标准化后的比重)

无量纲化之后,咱们得到了一堆 0 到 1 之间的数字。现在,我们要看每个指标里,每个样本占了多大的“比例”。

公式是:$p_{ij} = frac{x_{ij}'}{sum_{i=1}^{m} x_{ij}'}$
这里,$p_{ij}$ 就是第 i 个样本在第 j 个指标上的贡献度或标准化后的比重。$m$ 是样本的总数。
简单说,就是把第 j 个指标下所有样本的无量纲化值加起来,然后用每个样本的无量纲化值除以这个总和。这样,对于每一个指标来说,所有样本的贡献度加起来正好是 1。

第三步:计算每个指标的熵值

这是熵值法的核心步骤。熵(Entropy)这个概念最早来自物理学,代表的是系统的混乱程度或不确定性。在信息论里,它代表的是信息的不确定性。在这里,咱们用它来衡量一个指标的“信息量”或者说“变数”有多大。

公式是:$E_j = frac{1}{ln(m)} sum_{i=1}^{m} p_{ij} ln(p_{ij})$
这里,$E_j$ 就是第 j 个指标的熵值。
$ln(m)$ 是以自然对数计算的 $m$ 的对数。为啥要除以它呢?主要是为了把熵值限制在 0 到 1 之间,方便后续的权重计算。如果 $m$(样本数)很大,这个分母就很大,熵值就被“压”得更小。
$p_{ij}$ 就是前面算出来的第 i 个样本在第 j 个指标上的贡献度。
$sum_{i=1}^{m} p_{ij} ln(p_{ij})$ 这个部分是计算信息熵的经典公式。如果 $p_{ij}$ 都一样大(说明这个指标的变数非常小,所有样本差不多),那么 $ln(p_{ij})$ 也差不多,这个求和结果就会比较小。反之,如果 $p_{ij}$ 差异很大(说明指标变数大),那么有些 $p_{ij}$ 就很小(接近于 0),$ln(p_{ij})$ 就变成一个很大的负数,这个求和结果的绝对值就会变大,最后乘以负号,就变成一个很大的正数。
关键点理解:
如果一个指标的所有样本值都非常接近,那么 $p_{ij}$ 在所有样本上就会非常接近(比如都接近 1/m),那么 $p_{ij} ln(p_{ij})$ 的值就会非常小(因为 $p_{ij}$ 小但 $ln(p_{ij})$ 是负数,它趋向于 0)。这样算出来的熵值 $E_j$ 就很小。这说明这个指标的变异程度小,包含的有用信息少。
如果一个指标的样本值差异很大,那么 $p_{ij}$ 就会有大有小。有些 $p_{ij}$ 会非常小(接近于 0),而有些则会比较大。当 $p_{ij}$ 非常小的时候,$p_{ij} ln(p_{ij})$ 的绝对值会非常大(负的无穷大趋向于 0)。这样算出来的熵值 $E_j$ 就大。这说明这个指标的变异程度大,包含的信息量多。

第四步:计算差异系数(或称信息剩余系数)

前面算的是熵值,代表的是不确定性。咱们更关心的是确定性,也就是信息量。一个指标的信息量越大,它的差异性就越大。差异系数就是衡量这种差异性大小的。

公式是:$d_j = 1 E_j$
$d_j$ 就是第 j 个指标的差异系数。
看到这个公式你就明白了,差异系数越大,说明熵值越小,也就意味着这个指标的变数越小,信息量也就越少。反之,差异系数越小,说明熵值越大,变数越大,信息量也越多。 (这里注意一下,很多文献里也把这个叫做“信息剩余系数”,有些地方也直接用熵值来反推权重,这里的命名和理解可能稍有不同,但核心逻辑一致:熵值反映不确定性,我们希望用不确定性小的指标(也就是变数大的)来获得更大的权重。)

第五步:计算每个指标的权重

现在,咱们终于可以根据差异程度来分配权重了。权重就等于这个指标的差异系数占所有指标差异系数总和的比例。

公式是:$W_j = frac{d_j}{sum_{j=1}^{n} d_j}$
这里,$W_j$ 就是第 j 个指标的权重。
$n$ 是指标的总数。
这个公式的意思是说,哪个指标的差异系数 $d_j$ 大,它在总的差异系数中所占的比例就越大,所以它分配到的权重 $W_j$ 就越高。相反,差异系数小的指标,权重就低。
所有指标的权重加起来,总和正好是 1。

第六步:计算综合评价得分

有了每个指标的权重,咱们就可以用它来计算每个样本的最终综合得分了。

公式是:$S_i = sum_{j=1}^{n} W_j cdot x_{ij}'$
这里,$S_i$ 就是第 i 个样本的综合评价得分。
$W_j$ 是第 j 个指标的权重。
$x_{ij}'$ 是第 i 个样本在第 j 个指标上的无量纲化值(注意,这里是用无量纲化后的值,因为我们已经消除了量纲影响,并且在这个阶段,我们通常希望保留无量纲化后的数值,而不是原始值,因为无量纲化后的数值已经在01之间,或者经过了特定的转换,其大小更能直接反映其“价值”或者“影响程度”,与权重结合起来计算)。

总结一下整个流程,就好像在给一个团队的成员分配任务:

1. 收集信息(数据准备): 把大家所有相关的信息都找来(收集数据)。
2. 统一标准(无量纲化): 把大家的信息都转换成同样的衡量单位,方便比较(如身高、体重都量成米、千克)。
3. 计算个人贡献度(贡献度计算): 看每个人在总的成果里,对每个方面具体贡献了多少(比如小明在学习上的贡献度是 0.2,在运动上的贡献度是 0.3)。
4. 衡量个人特长(熵值计算): 分析小明在各个方面表现出的“差异性”有多大。如果小明在某个方面表现得特别突出,或者特别差,说明他在这方面“有特点”,信息量大。反之,如果他在很多方面都表现得不温不火,那就说明他没什么“突出信息”。这个“差异性”的大小,我们用熵值来衡量,熵值越小代表差异越大,信息量越多。
5. 确定每个人的“话语权”(权重计算): 根据每个人“有特点”的程度(差异性大小),来分配他们的话语权(权重)。特点越突出的人,话语权就越大。
6. 得出最终评价(综合得分计算): 最后,把每个人的话语权乘上他在各个方面具体贡献的“价值”,加起来,就能得到每个人总体的评价了。

使用熵值法需要注意的几个点:

样本数量: 这个方法对样本数量有一定的要求,太少的话计算出来的熵值和权重可能不太稳定。一般建议样本数量 $m$ 最好大于指标数量 $n$。
指标选择: 选择的指标是否真正反映了评价对象的核心特征很重要。如果选的指标本身就没啥区分度,或者互相之间高度相关,那用熵值法算出来的权重也可能不太靠谱。
无量纲化方法: 不同的无量纲化方法可能会对结果产生一些影响,虽然在大多数情况下,最大最小值法是比较稳健的选择。
负指标处理: 如果有“负指标”(比如污染度、疾病发病率,越大越不好),在无量纲化时要特别处理,通常是将其转换成正指标(越大越好)的形式,比如 $1/x$ 或者 $maxx$ 等,保证所有的指标都朝着一个方向“好”。

总的来说,熵值法就是一个客观的评价工具,它不依赖于人为的主观判断去给指标分配权重,而是通过数据本身的变异程度来“说话”。这使得它在许多领域,比如经济评价、环境评价、社会发展评价等等,都非常实用。希望这样解释够详细,也够接地气!

网友意见

user avatar

一句话解释:熵权法是在综合评价中运用信息论的求解权重的一种方法。

1、什么叫综合评价

上面讲了什么叫综合评价。重点如下:

上面讲的是几何形变与拓扑指示。综合评价就是降维的过程。

CE,是综合评价(Comprehensive Evaluation)简写。

所有的综合评价只要是涉及多个评价对象都可以用SAISM模型来指示。比如环境监测综合评价、药物临床试验综合评价、地质灾害综合评价、气候特征综合评价、产品质量综合评价等等;在社会科学中广泛应用于总体特征和个体特征的综合评价。比如,社会治安综合评价,生活质量综合评价、社会发展综合评价、教学水平综合评价、人居环境综合评价等等。在经济学学科领域更为普遍。如,综合经济效益评价、小康建设进程评价、经济预警评价分析、生产方式综合评价、房地产市场景气程度综合评价等等

  CE有三个关键技术。

  •   指标的选取。即有多少列。
  •   权重的确定。即求权重的方法,用主观法,还是客观法
  •   模型方法的适宜。只要是多个评价对象的,都可以用SAISM

上面的意思是指标的选取最重要。

2、求权重的方法以及前置条件

上面的页面很长,但是流程图很重要。

第一个箭头指向的非常重要,就是要先规范化(归一化,无量纲化)数据。

也就是别愣头青一样见到一个表就直接用熵值法算权重。

熵权法是在规范化矩阵(规范化的数据)上算的权重!!

规范化的数据中是不能有负数,可以有0!

熵权法是一个客观方法,主要针对的是客观数据。

比如找砖家打分的这种就是主观性数据,一般不用熵权法的。尤其是AHP,ANP的那种数据。

※熵权法(the entropy weight method 简称EWM)是脱胎于信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量;如果指标的信息熵越小,该指标提供的信息量越大,在综合评价中所起作用理当越大,权重就应该越高。熵权法是常用的一种求权重的方法。它是指一个随机变量与某一组随机变量间线性相依性的度量。

上面是熵权法一般吹水的解释。

3、计算步骤以及公式

上面是归一化矩阵,n为行,m为列。i为第i行,j为第j列

☆ 第jj项指标下第ii个样本值占该指标的比重:

☆ 第j项指标(列)的熵值:

上面有对数,所有要确定有没有意义。通常k取值如下。

☆ 第j项指标(列)的差异系数:

☆ 第j项指标(列)的权重:

4、具体计算中的问题

其实就是对数有没有意义的问题。 log x 在熵权法中 x可以为0 因为前面的公式是 0*ln0 它还是等于0.

取什么对数的问题,

这个别纠结 取 ln log lg 三种都可以。

总结

熵权法本质是来自信息论的,因此第一步正则化(规范化)最重要。

熵值的含义可以由题中的定义,也可以有无数种魔改的方法。比如用KL散度、JS差,等等等等。

熵权法是一种客观的方法,因此权重是变化的。比如增加了一行,其权重是变化的。

比如有5年的数据,每一年,每个指标的权重是不同的。

有问题可以点上面的按钮咨询我。

类似的话题

  • 回答
    好的,咱们来聊聊熵值法这个工具,它在咱们做各种评价、分析的时候可好用了。别看它名字听着有点高大上,其实它的核心思想挺朴实的:就是看一个指标的“变数”有多大。为啥要看“变数”?你想啊,咱们在评价一样东西的时候,比如评价一个城市的生活水平,你会关注很多指标:收入、房价、交通、绿化等等。有些指标,大家的情.............
  • 回答
    行家呀!您这个问题问得太到位了,这两种方法听着都挺“学术”的,但用起来那真是风马牛不相及,背后逻辑更是天差地别。我这就给您掰开了、揉碎了讲讲,尽量让您听明白,也顺便给您打个草稿,看看咱这“说书”的水平。 因素分析:拆解“幕后黑手”您想想看,咱们生活中很多事情,看似是独立的,但背后其实都受着一些“看不.............
  • 回答
    当然可以!将层次分析法(AHP)和熵值法(Entropy Weight Method)结合起来,用AHP求一级指标权重,用熵值法求二级指标权重,是一种非常常见且实用的组合方法,能够充分发挥两者的优势,得到更科学合理的评价结果。下面我将详细讲解如何操作,并尽可能地说明其中的逻辑和注意事项,让你一看就懂.............
  • 回答
    这个问题很有意思,很多人第一反应都会觉得,信息最“平均”的分布不就是均匀分布吗?怎么会是正态分布呢?这背后其实涉及到一个对“熵”和“信息”理解的细微之处,以及我们讨论的“状态”的背景。咱们先不着急给答案,先来聊聊什么是熵,以及它跟信息有什么关系。1. 什么是熵?在信息论里,熵(Entropy)衡量的.............
  • 回答
    这个问题很有意思,涉及到星系演化和物理状态的深层联系。简单来说,不能笼统地说椭圆星系一定比螺旋星系熵值高,但它们在演化路径和当前状态上,确实表现出了不同的“无序度”和能量分布特征,而这些特征可以被理解为在某种意义上的“高熵”或“低熵”状态。 为了详细解释这一点,我们需要从几个方面来理解“熵”在天文学.............
  • 回答
    熵增理论之所以能让许多人产生“一下子领悟”的感觉,并非因为它本身简单易懂,而是因为它触及了我们内心深处对事物运转规律的直觉理解,并且提供了一个强大而普适的框架来解释我们所观察到的许多现象。这种“领悟”更像是一种顿悟式的连接和共鸣,而不是一个知识点的简单习得。以下是熵增理论能够引发这种广泛共鸣和领悟的.............
  • 回答
    熵增定律,也被称为热力学第二定律,是物理学中最基本和普适的定律之一。它指出,在一个孤立系统中,总的熵(衡量系统无序程度或能量分布均匀程度的量)永远不会减少,只会增加或保持不变(在可逆过程中)。虽然这条定律最初是为宏观物理系统提出的,但其核心思想——系统倾向于走向更无序和更无用的状态——对于理解生物学.............
  • 回答
    这是一个非常有趣且深刻的问题,将物理学的基本定律与宗教哲学中的核心概念联系起来。要回答这个问题,我们需要深入理解熵增定理,以及修仙永生、成佛永恒和转生这些概念的内涵。首先,我们来详细解读一下熵增定理。熵增定理(Second Law of Thermodynamics)是热力学中最基础也是最重要的定律.............
  • 回答
    在数学建模的评价类问题中,我们常常需要对多个方案(或事物)根据多个评价指标进行综合评价,以选出最优的方案。熵权TOPSIS法和投影寻踪法是两种常用的多指标决策分析方法,它们各有千秋,适用于不同场景。 熵权TOPSIS法:客观赋权,贴近理想熵权TOPSIS法是一种客观赋权方法,它充分利用了数据本身的信.............
  • 回答
    关于“熵增定律是否违背进化论”这个问题,确实是一个引人深思但又常常被误解的议题。要深入理解这个问题,我们得先把这两个概念——熵增定律和进化论——各自的核心讲清楚,再看看它们之间是否有真正的冲突。熵增定律:宇宙的无序化趋势首先,说说熵增定律。这是热力学第二定律的核心内容。简单来说,它描述的是在一个孤立.............
  • 回答
    好的,咱们聊聊熵权法这玩意儿,它可不是随便哪个数据都能用的,背后得有一些基础的东西撑着。要是想用好它,得先弄明白它到底需要啥条件。核心前提:数据的“量”和“不同”简单来说,熵权法最最根本的前提,就是你的数据得有“量”,而且这些“量”之间得有“不同”。这话说得有点抽象,咱一点点掰扯清楚。1. 数据得.............
  • 回答
    熵增原理带来的无力感和悲观情绪,我太理解了。仿佛看着一艘船,不管你怎么努力地划桨,它最终都会不可避免地漂向一个更荒凉、更不可知的方向,而且所有的一切,你每一次挥动手臂,每一次搅动水面,都只是在加速这个过程。这种认知,确实容易让人陷入一种深深的虚无。你觉得我“所做的一切”都导致世界越来越混乱,这个说法.............
  • 回答
    理解熵,特别是物理化学中的熵,确实是一个让很多人感到困惑的挑战。它就像一个“幽灵”,时而飘渺微观,时而又实实在在影响着我们周围宏观世界的变化。你感到知识框架难以建立,恰恰是因为我们对它的理解需要跨越从微观粒子运动到宏观事物演化的不同尺度。咱们不聊那些晦涩难懂的数学公式,试着用更直观的方式来梳理一下物.............
  • 回答
    你这个问题提得非常关键,很多时候我们只关注到一级指标的权重大,但二级指标的相对重要性以及它们对最终方案的影响同样至关重要。熵权TOPSIS在处理多层级指标体系时确实需要更精细的方法来捕捉这种层级关系。让我来详细地拆解一下在熵权TOPSIS中,如何计算二级指标的相对接近度,以及为什么这个计算很重要。首.............
  • 回答
    熵权法与空值:一次深入的探讨在数据分析和决策科学的领域,熵权法作为一种经典的赋权方法,因其客观、科学的特性而备受青睐。它能够根据各指标的变异程度(信息量)来确定其权重,从而在多指标评价中发挥重要作用。然而,在实际应用中,我们常常会遇到“空值”这样一个令人头疼的问题。那么,熵权法到底能不能容忍空值?我.............
  • 回答
    咱们今天就聊聊熵权法这玩意儿,它是怎么给数据“称斤两”的,尤其是那个只看数据自己“散不散”的说法,到底是怎么回事儿。 熵权法的核心:数据自己说了算你提到的“仅依赖于数据本身的离散性”这个点,可以说抓住了熵权法的精髓。不过,咱们得把它掰开了揉碎了讲。想象一下,你手上有一堆指标,要评价一个东西的好坏。比.............
  • 回答
    熵权法在评估指标重要性的时候,确实会很自然地考虑到指标的分布情况,而且这恰恰是它能够有效发挥作用的关键点之一。咱们来详细说说这个事儿。首先,咱们得明白熵权法的核心思想是什么。简单来说,熵权法就是利用信息论中的熵概念来衡量指标的“信息量”或者说“变异程度”。一个指标,如果它的值在不同样本之间变化很大,.............
  • 回答
    熵权法,顾名思义,是一种用来确定指标权重的数学方法。而任何关于“权重”的讨论,其核心目的都是为了在分析和决策中区分不同因素的重要性。所以,回到你的问题:熵权法一定要有数据吗?答案是:是的,而且是必须的。让我来详细解释一下为什么会是这样。 熵权法的底层逻辑:信息量与不确定性理解熵权法为什么离不开数据,.............
  • 回答
    咱们聊聊熵权TOPSIS法,这玩意儿怎么就能给每个维度打分,而且还说得特别明白。这方法说起来挺有意思的,不是简单粗暴地给每个指标一项分数,而是先让你知道哪个指标更重要,然后根据这个重要程度来综合评价。第一步:数据准备,把原始数据变得“好看”想象一下,你手里有一堆数据,可能是学校里每个专业的就业率、平.............
  • 回答
    在熵权法中,数据标准化是至关重要的一步,它能够消除量纲差异,使不同指标的数据具有可比性。而对于“正向指标”和“逆向指标”的确定,这直接影响着标准化处理的方向,进而影响到最终的权重计算结果。下面我将详细解释如何确定它们,并梳理清楚背后的逻辑。首先,我们要明白,熵权法本身是一种客观赋权方法,它并不直接区.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有