问题

做影响因素分析都有哪些方法,怎么确定用哪种模型?

回答
好的,我们来聊聊影响因素分析,以及如何选择合适的模型。这可是个有趣且实用的课题,搞懂了它,你就能更深入地理解事物背后的逻辑,做出更明智的判断。咱们就用大白话,深入浅出地讲讲。

影响因素分析:到底是怎么回事?

简单来说,影响因素分析就是我们要找出是什么东西在“推着”或者“拉着”我们关注的那个结果(我们称之为“因变量”)发生变化。就像你想知道为什么你的生意时好时坏,到底是价格问题、广告投入问题、还是天气原因?影响因素分析就是帮你理清这些“为什么”。

举个例子,你想了解“学习时长”对“考试成绩”有多大的影响。在这里,“考试成绩”就是你的因变量,而“学习时长”就是你想要探究的一个潜在影响因素。

影响因素分析的常用方法:工具箱里的十八般武艺

做影响因素分析,就像一个侦探在收集线索,我们需要用不同的工具来捕捉那些影响结果的“嫌疑犯”和它们的影响程度。这些工具,我们称之为模型或者方法。下面我给你掰扯几个最常用的:

1. 回归分析 (Regression Analysis):

这可以说是影响因素分析的“扛把子”。回归分析的核心思想是建立一个数学模型,描述一个或多个自变量(我们猜想会影响结果的因素)如何影响因变量。

线性回归 (Linear Regression): 这是最基础也最常用的。假设因变量和自变量之间是线性的关系,就像一条直线一样。
简单线性回归: 只有一个自变量,比如“学习时长”对“考试成绩”。模型大概是长这样的:“考试成绩 = 斜率 学习时长 + 截距 + 误差”。斜率告诉你,学习时长每增加一小时,考试成绩大概会增加多少分。
多元线性回归: 有多个自变量,比如“学习时长”、“课堂参与度”、“睡眠时间”等等,它们一起影响“考试成绩”。模型会变成:“考试成绩 = 系数1 学习时长 + 系数2 课堂参与度 + 系数3 睡眠时间 + 截距 + 误差”。每个系数就告诉你,在其他因素不变的情况下,这个自变量每增加一个单位,考试成绩会变化多少。
什么时候用? 当你觉得自变量和因变量之间的关系比较“直观”,不是那种弯弯绕绕非常复杂的,而且数据看起来也比较符合直线关系时,就可以考虑它。比如,你觉得“广告投入”和“销售额”之间,应该是一个正比例的关系。

非线性回归 (Nonlinear Regression): 有时候,事物之间的关系不是简单的直线,而是弯曲的。比如,“施肥量”对“作物产量”的影响,可能刚开始施肥越多产量越高,但施肥过多反而会抑制生长,产量下降,形成一个“倒U型”的关系。这时候就需要非线性回归来捕捉这种曲线关系。
什么时候用? 当你通过观察或者理论知识,觉得因变量和自变量之间可能存在曲线关系时,就要考虑非线性回归。

逻辑回归 (Logistic Regression): 这玩意儿主要用在因变量是离散的、分类的情况。最典型的就是“是”或“否”、“成功”或“失败”、“购买”或“不购买”。比如,你想知道哪些因素会影响一个人是否“成功申请到奖学金”。
什么时候用? 当你的结果是个“概率”问题,或者是个二元选择问题时,逻辑回归是首选。它能帮你预测某件事发生的可能性。

2. 方差分析 (ANOVA Analysis of Variance):

ANOVA 主要用来比较不同组别之间因变量的平均值是否存在显著差异。打个比方,你想知道不同教学方法(方法A、方法B、方法C)对学生考试成绩的影响是不是不一样。ANOVA 就是帮你判断这三个方法的平均成绩有没有统计学上的差异。

什么时候用? 当你想要比较的是分类变量(比如教学方法、不同地区、不同产品类型)对数值型因变量的影响时,ANOVA 是个好帮手。

3. 时间序列分析 (Time Series Analysis):

如果你的数据是按时间顺序排列的,比如每天的天气数据、每月的销售额,那么时间序列分析就派上用场了。它不仅关注影响因素,还考虑了时间上的依赖性,比如今天的销售额可能和昨天的销售额有关。

ARIMA,指数平滑等都是时间序列分析里常用的模型。
什么时候用? 当你关注的是随时间变化的趋势、季节性、周期性等因素对结果的影响时,用它就对了。

4. 决策树与随机森林 (Decision Trees & Random Forests):

决策树: 想象一下,你就像在玩一个“猜谜游戏”,根据一系列的“是/否”问题,一步步地把你想要预测的结果分开。决策树非常直观,容易理解,能清晰地展示哪个因素在哪个节点起到了关键作用。
随机森林: 这是决策树的“升级版”。它不是只生成一棵树,而是生成很多棵树,然后把这些树的结果综合起来,这样可以大大提高预测的准确性和稳定性,同时也能降低过拟合的风险。
什么时候用? 当你的数据里有很多非线性关系,而且你想知道不同因素的组合是如何影响结果的,决策树和随机森林就非常有用。它们对数据的预处理要求也相对较低。

5. 主成分分析 (PCA Principal Component Analysis) 与因子分析 (Factor Analysis):

这俩有点像是在“降维”和“找根源”。当你的影响因素非常多,而且很多因素之间可能相互关联,甚至能被少数几个“隐藏的因素”所解释时,PCA 和因子分析就能派上用场。

PCA 主要是把多个相关变量压缩成少数几个不相关的“主成分”,而这些主成分能够解释原始变量的大部分信息。
因子分析 则更侧重于发现那些潜在的、隐藏的“因子”,而我们观察到的变量是这些因子的“表现”。
什么时候用? 当你面对的是一个“维度爆炸”的问题,有很多变量,而且你怀疑这些变量背后隐藏着更深层次的结构时,可以考虑用它们来简化问题,或者发现更本质的驱动因素。

6. 结构方程模型 (SEM Structural Equation Modeling):

SEM 是一个更高级、更全面的分析方法。它不仅能处理变量之间的直接影响,还能处理间接影响和潜在变量。比如,你想研究“社会经济地位”(这是一个潜在变量,不容易直接衡量)如何影响“健康状况”(一个显性变量),同时又考虑“教育水平”和“生活方式”等中间环节。SEM 就能构建一个包含多个变量之间复杂关系的模型来分析。

什么时候用? 当你对事物之间的因果关系有较强的理论假设,而且想要检验一个复杂的理论模型时,SEM 是非常强大的工具。它能处理测量误差,并允许你同时估计多个关系。

怎么确定用哪种模型? 这是个“量体裁衣”的活儿

好了,十八般武艺都说完了,问题来了:我到底该用哪一个?别急,这就像中医看病,得辩证施治,没有万能药。确定模型主要看以下几个方面:

1. 你想解决什么问题? 你的目标是什么?

预测? 如果你的主要目标是预测未来结果,那么回归模型(线性、逻辑)、时间序列模型、或机器学习模型(如随机森林)可能更合适。
解释因果关系? 如果你想理解“是什么导致了什么”,并量化这种影响程度,回归分析或结构方程模型会是你的首选。
比较群体差异? 如果你想看看不同类别的事物(比如不同产品、不同区域)对结果的影响有没有显著区别,ANOVA 是个好工具。
发现潜在结构? 如果变量太多,你想简化问题或者挖掘深层原因,PCA 或因子分析可以考虑。

2. 你的数据长什么样?

因变量的类型:
连续型(比如身高、体重、分数、销售额):线性回归、非线性回归、时间序列分析都可以用。
分类型(比如是/否、好/坏、成功/失败):逻辑回归、决策树、随机森林等适合。
自变量的类型: 它们可以是连续的,也可以是分类的。有些模型(比如 ANOVA)更适合处理分类自变量,而回归模型则可以同时处理这两者。
数据的结构:
横截面数据 (Crosssectional Data): 在某个时间点收集的多个样本的数据(比如一次性调查)。
时间序列数据 (Time Series Data): 同一个样本在不同时间点的数据(比如每天的气温)。
面板数据 (Panel Data): 多个样本在多个时间点的数据。面板数据分析有专门的模型(如固定效应模型、随机效应模型)。
变量之间的关系:
线性关系? 如果你觉得变量之间是“直来直去”的,线性回归是好的起点。
非线性关系? 如果你怀疑有曲线关系,就要考虑非线性回归或一些机器学习方法。
多重共线性? 如果你的自变量之间高度相关,可能会影响回归分析的结果,这时可能需要考虑变量选择、PCA 或使用对多重共线性不敏感的模型。

3. 你对变量关系的假设或理论基础?

有明确的理论假设? 如果你有一个关于事物之间如何相互作用的理论框架,并且想检验这个框架,那么结构方程模型(SEM)会非常合适。它允许你构建和测试复杂的理论模型。
探索性分析? 如果你不太确定哪些因素重要,或者它们之间是如何相互作用的,可以先从一些更开放的模型(如决策树、随机森林)开始探索,看看能发现什么模式。

4. 你对模型解释性的要求?

需要直观易懂的解释? 线性回归、决策树通常比复杂的非线性模型或深度学习模型更容易解释。你能直接看到系数的意义。
可以接受黑箱模型? 如果你的首要目标是预测准确性,即使模型内部机制不那么直观,也可以接受像随机森林、梯度提升树等“黑箱”模型。

5. 数据量和计算资源

数据量太小? 有些复杂的模型(比如深度学习)需要大量数据才能训练好,否则容易过拟合。数据量小的时候,简单模型(如线性回归)可能更稳健。
计算资源有限? 一些复杂的模型(如 SEM)可能需要较强的计算能力。

小小的建议:

先从简单的开始: 如果不确定,可以先尝试简单的模型(比如线性回归),看看结果如何。如果简单模型效果不好,再考虑更复杂的模型。
可视化是你的朋友: 在选择模型之前,画图(散点图、箱线图等)可以帮助你初步了解变量之间的关系,为模型选择提供线索。
理解模型的假设: 每种模型都有自己的假设(比如线性回归假设误差项是独立同分布且服从正态分布),了解这些假设很重要,看看你的数据是否满足,如果不满足,可能需要进行数据转换或选择其他模型。
模型评估是关键: 无论你选择了什么模型,都要用合适的指标来评估它的表现(比如 R 方、均方误差、准确率、AUC 等),并进行模型诊断(比如残差分析),确保模型是可靠的。

总而言之,影响因素分析没有一个“一刀切”的方法。你需要根据你的具体研究问题、数据的特点,以及你对模型的要求,来综合判断,选择最适合你的那一个“工具”。这是一个不断尝试和优化的过程,但掌握了这些方法和思路,你就能更有把握地去探索事物背后的奥秘了!

网友意见

user avatar

影响因素分析方法,天然的用解释结构模型。这种方法直观快速,准确,可定性,可定量。关键是还可以同多种因素分析方法联用。逼格满满,容易创新。

1、ISM方法

上面一篇是必看的文章。这里可以如下角度来看同一个错误51%错误率的问题(实际要高得多)。

从一个角度来看,就是很多人是瞎掰的。写论文还是不留后患的好。

从另外一个角度来看,水论文还是很容易的,否则这种错得一逼的论文轻轻松松发表,这有点说不过去。

从2020年后,比较流行的是对抗解释结构模型。

上面是计算的地址,这种很容易计算的。

2、DEMATEL-ISM联用的方法

上面是随机找的2020年前的DEMATEL-ISM联用的方法。注意,上面没有一篇是对的。

全特么的错的,而且全部是目测可见的错误。

DEMATEL方法本身也是可以做影响因素分析的。

这个方法的好处是有一个原始数据,点两下参数设置(真的只点两下),再点下计算然后就出结果。

上面一种是很流行的,特别适合发一篇SCI。交点版面费,选好一个主题就发了。

水一篇博士论文可以轻松贡献4万字。

3、回归等与解释结构模型联用

上面一篇论文是例子。

它的论文逻辑上分为三步。

第一、实打实的去调研,一家一户的去做问卷,而不是网上发一张表叫人打钩。

第二、丢到统计软件里面(降维)

文章有14个要素,后来降维到了10个紧密相关的核心要素

第三、再次找人打分,进行因果性分析(就是对抗解释结构模型方法)

4、优劣型的AISM方法

这种几乎有无数种变种。

比如上面的就是。

上面的也是。

比如上面的也是。

这个方法数学过程严谨,操作起来非常简单。

5、交叉影响分析——解释结构模型

CIA是cross-impact analysis 的简称,它不是中央情报局的意思是交叉影响分析的简称。

  CIA-ISM结合的最重要的一篇文章是Murray Turoff等写的叫

  Turoff 提出的CIA有别于其他人提出的CIA,其原理与推导过程在Turoff写的一本关于Delphi方法的书的第五章有非常详细介绍与推导过程 An Alternative Approach to Cross Impact Analysis

  关于老头的论文先说下感想。

  一篇理工类的学术论文,尤其是顶级期刊的论文,刚开始的时候就先来一首诗。这是及其罕见的。

  “Born, troubled, died.”

  This was their history of Everyman.

  “Give me next for my people,” spoke the head man,

  “in one word the inside kernel of all you know,

  the knowledge of your ten thousand books with a forecast of what will happen next— this for my people in one word.”

  And again they sat into the peep of dawn

  and the arguments raged

  and the glass prisms of the chandeliers shook

  and at last they came to a unanimous verdict

  and brought the head man one word:

  “Maybe.”

  —from Poem 49 in “The People, Yes” by Carl Sandburg

  而最后一部分的讨论。居然直接来一个philosophical issues(哲学问题)即方法论的问题。 能写让某个人在顶级期刊扯诗,讨论哲学问题,那么这个人一般来说是:

超级牛逼

  关于CIA-ISM的相关文章并不多,就如下几篇,但是发表了的都是顶级期刊。

  Murray Turoff等

  Murray Turoff等

  清华大学的一伙人

目前来看老头的原始论文是有两个硬伤的。

一个是

上面是table2

转化到table4

老头少了一个至关重要的 转置步骤。所以严格的说老头这步是错了的。

第二个是图形显示的问题。

上面是明显少了另外一半对称的要素的。

上面是老头的数据。老头的数据属于可验证的。

上面是另外一篇自动计算,自动校正的运算过程。

最后说一下最后一个方法,貌似发的都是顶刊。

比如清华那一伙讲地震的,他那篇的问题很大,虽然没有提供原始数据,但是可以明显看出他是错的。


类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有