百科问答小站 logo
百科问答小站 font logo



如何通俗地解释因子分析? 第1页

  

user avatar   feng-kuang-shen-shi-92 网友的相关建议: 
      

1、一个例子

上面是论文的原文。

标题:基于Probit-AISM模型的生态农业采纳行为分析 ——以湖南省298户小农户为例

作者 田伟,魏雪

论文干的事就是她的摘要。

为探究小农户采纳生态农业的行为选择, 利用Probit方法分析小农户是否采纳生态农业的因素, 运用AISM 模型评估影响因素的层级划分及内部影响关系。结果表明, 农业年收入、学历层次、农业收入占比、健康状况、 认知能力、邻里效应、合作社、技术培训、政策感知对小农户生态农业采纳行为有显著正向影响, 年龄对小农户 采纳生态农业行为存在显著负向影响。其中, 户主年龄和邻里效应为根源性因素, 学历层次、农业收入占比、健康 状况、认知能力为潜在因素, 年收入、政策效应、参与合作社、政策认知为表层因素。

2、相关性分析、聚类、降维

第一步,就是通过调查表获得数据。298户小农户,这个是实实在在的一个个调研。

上面的意思是主要分析14个要素,即14列。

然后把数据丢到一个统计软件里面,诸如SPSS、stata中,她用的是stata.

上面是结果,然后贴出来到论文中即可。这步肯定不会错的,就按几下按钮的事。

运用Stata 16.0对数据进行Probit分析,并采用Logit 回归结果与之相比较进行稳健性检验,结果显示基本 一致。如表2所示。 运用Probit和Logit得到的回归结果基本一致,证 明结果稳健性较好, 拟合优度较高,证明数据有较 强说服力。小农户农业年收入、学历层次、农业收入 占比、健康状况、认知能力、邻里效应、合作社、政 策补贴、技术培训对小农户采纳生态农业意愿产生正 向影响,户主年龄对小农户采纳生态农业行为产生负 向影响。

到了这里解释因子分析结束了。

即10个要素是紧密相关的。

3、运用AISM要素的因果性分析

上面是对抗解释结构模型自动运算的地址。

它对10个紧密相关的要素进一步分析。分析整个的因果层次的问题。

最后画了一个非常难看的对抗层级拓扑图。

然后进行解释。

总结

解释因子分析,就是最后给出若干紧密相关的因子(要素、因素)。

有了这些关键要素后,可以进一步的分析。当然后面的属于创新的内容了。

对抗解释结构模型2020年才提出来。

因子分析就是一个降维的过程,可以基于数据的,也可以基于专家一起分析。

通常是用相关性分析

real-statistics.com/cor

multiple correlation coefficient 要素多的话,叫复相关分析。

real-statistics.com/mul

Advanced Multiple Correlation 上面的叫高级复相关分析。

具体原理就是对称矩阵弄一下即可,这种计算成熟的一点的统计软件都可以用到。


user avatar   xietian01 网友的相关建议: 
      

还记得高中文理科分班的时候你是怎么做选择的吗?

班主任老师要结合学生的自身情况,帮学生推荐去文科班或者理科班。

因为老师们知道一个常识:数学、物理、化学归理科;历史、地理、政治归文科。

老师们凭借经验,得出“数学、物理、化学归理科;历史、地理、政治归文科”的过程就是因子分析的过程。

所以,老师推荐理科学科成绩好的学生去理科班,反之亦然。

而这就是因子分析的作用

然而,我们面对陌生的数据,多数情况并没有常识做支撑,这时候就可以用因子分析,来做到经验丰富的老师才能做到的事。


因子分析实战

假设我们拿到了学生的成绩数据,大概长这样:

这里我卖个关子,隐去了学科名称,这样你就不能凭借经验“因子分析”了。

STEP1 相关系数

拿到这组数据,我们首先要看的是各个学科之间的相关关系

如果“学科1”成绩好的人,“学科2”的成绩也不差,那么学科1、学科2就是所谓的正相关关系

R语言中就一句话:

       pairs.panels(Final.Test.Scores)     

得到这张图:

图中的数字就是相关系数,例如:左上角第一个数字0.45,代表学科1和学科2的相关系数。

相关系数取值在(-1,1)之间,数值越接近0,相关越差;越接近±1,相关越强。

这里我们看到,学科4、学科5之间有很强的相关性,0.82。

如果数据之间有较强的相关性,我们就可以把它们打包到一起作为一个值。这就是所谓的数据降维。

有较强的相关性,是我们可以做因子分析的前提条件。

STEP2 平行分析

经过上一步的相关分析我们知道,这组数据是可以打包的。

那么下一步我们面临的问题是:

这组数据可以打成几个包?(如何决定因子个数?)

R语言一句话:

       Parallel.Result<-fa.parallel(Final.Test.Scores, fm="ml")     

得到这张图:

这张图我们只看两条红线中下面的那条和蓝线带三角记号的那条

(另外两组是给主成分分析用的)

可以看到图中红线上面有3个蓝三角,意思是“这组数据打成3个包,不多不少最能说明问题”。

也就是说,3个因子能很好解释原数据。

STEP3 因子分析

准备工作完毕,接下来我们进行因子分析。

       Factor.Result<-fa(r=Final.Test.Scores, nfactors=3, rotate="promax", fm="ml")     

得出以下结果:(揭示谜底)

因子负荷表

ML1 ML2 ML3
语文 0.18 0.12 0.52
数学 0.79 -0.05 0.14
英语 0.12 -0.09 0.79
物理 0.94 -0.03 -0.02
化学 0.85 -0.01 0.08
政治 -0.21 0.64 0.19
生物 0.83 0.04 0.05
历史 -0.05 0.70 0.03
地理 0.23 0.64 -0.21

这里ML1、2、3代表因子,也就是打包得到的“某类学科合集”

而学科对应的数字是,此因子对于这个学科的“解释力”(负荷Lodings),读法类似相关系数。

同时我们可以得到每个学生,对应ML123的得分。

重点:从学生的角度讲,ML123的得分可以解读为此学生的某项天赋

回到上文的因子负荷表,这里可以发现:

ML1对应数学、物理、化学;ML2对应政治、历史、地理;ML3对应语文、英语。

STEP4 给因子起名

ML1可以叫做“理科天赋”,ML2可以叫做“文科天赋”,ML3可以叫成“语言天赋”等等。

给因子起名的过程,其实就是解释因子的过程。

这样我们不难得出结论:

理科天赋高的学生,推荐去学理;文科、语言天赋高的学生,建议去学文。

这样我们就和经验丰富的高中老师站在了同一高度解决这个问题。

不要小瞧起名的过程,分析实际数据时,这步最难。

STEP5 画图

经过以上的分析我们已经得出了结论。

如果还需要跟别人解释你的结论的话,推荐画出图,更直观清晰。

(仅限因子为2个和3个的情况,多了画不出来了。)

3D版 看不太清楚,简化成2D版:

省略了ML3“语言天赋”

横轴是文科天赋,纵轴是理科天赋,蓝色的点代表学生在此地图中的位置。

可以发现:

1. 理科之间关系更紧密;

2. 地理偏理科;

3. 语文、英语不算文科,但语文偏文科,英语远离文科。

具体怎么解读,见仁见智。

以上。


user avatar   371694069 网友的相关建议: 
      

同学们,大家好,今天我来给大家讲一讲什么是因子分析,想要理解因子分析,有一个概念要先清楚,那就是 ----- 高维数据。


这天,Johnny哥冲进一个女生宿舍,对宿舍内的女生的追求者人数做了一个调查,于是得到这样一个表,这个表有两列,讲的是一个女生的颜值和追求者人数的关系。 这是一个二维数据。





二维数据有什么特点呢?那就是它是可以画出来的:





如果Johnny哥再多问一些隐私话题,我们给上面的表再加一列,就变成这样:





想一想,这样的表该怎么画呢?



嘿嘿,这就需要一个三维直角坐标系了,才能把他们都画出来~


Another day,Johnny哥精虫上脑,冲进一间女生宿舍,疯狂地问了每个人7个问题,于是得到一张这样的表!


它有7列!用了7个变量来描述一个女生! 是不是很详细呀~~ 现在问题来啦~ 如何把他们画出来呢?





哈哈, 答案当然是不能啦~ 这是由于我们所处的世界就是一个三维空间,超过3个维度的数据是没办法用几何方式画出来的~ 也就是说,4列以上的数据就没法画了。( Taleau用颜色,形状表示除外 ——)


于是我们想到了一个重要的概念 ---- 降维!也叫 dimension reduction!

这是什么意思呢? 简单的说,就是这个数据虽然有7列,但(长相,五官,颜值),(性格,脾气),(腿长,身高)貌似说的是一件事啊!





现在让我们排好队,一个一个来!


先看(长相,五官,颜值),这三个变量,有没有可能一个高,其他两个低?


没有!


为什么? 因为这三个变量存在内在的联系!长相好看,五官必然好看,五官好看,颜值必然高! 所以这三个变量永远是同步变化的,

协同!协同变化!


同理(性格,脾气),性格好,脾气也好。

还有(腿长,身高),一般来说,腿越长,身高越高,没问题吧?


所以呢,我们可以对数据做如下的变换:





谁来给我说说,这样的好处是什么?


没错!Johnny哥哥教你做人,就是降维啊! 大兄弟,Dimension Reduction啊! 说时迟那时快,数据就从7个维度变成了3个维度了,可以欢乐地做图了~ 意外不意外,惊喜不惊喜?





这时候,你可能会说了,这个龟儿子讲得怎么跟教授给老子在课堂上讲的不一样呢? 我老师叫我用一个软件,叫什么 ---- SPSS ?


别慌,别慌~ 刚才只是讲个原理,原理晓得不?计算机木有办法看懂什么标题,他不知道(长相,颜值,五官)是一个意思。他需要通过计算哪两个变量是协同变化的,来判断其相关性。





看见了吗,这个就是帮你计算变量之间两两相关性的功能。顺便学习一个英文单词,Bivariate,就是bi(双) - variate(变量), 双变量。也就是说,相关性,这个东西,只能在两个变量中间。


总之,两个变量协同变化 --- 一个升,另一个也升,相关性就大;两个变量不协同变化 --- 一个升,另一个不变,或 升升降降,说明相关性不大。





比如:智商 vs 身高 ---- 没有相关性; 智商 vs 学历 ---- 相关性很大。用SPSS对所有变量做完相关性分析以后,出来的矩阵就是相关性矩阵,复制到excel里面填上颜色,就一目了然了~





看到了嘛? 标绿色的,跟我们之前分析的一样,相关性很大啊!


到现在这一步,计算机已经知道谁和谁相关,谁和谁不相关了。完全是从数据本身的pattern中来的。


这时候计算机会把所有相关的变量进行一下变换,用一个变量代替所有相关的变量,就像上面我们用 “颜值” 代替了(长相,五官,颜值)三个变量。


最后讲一下因子分析的好处,把复杂的数据变简单,易于后续分析,regression 等待。


再举一个例子,在描述国家的时候,你有可能发现这个国家的飞机数越多,汽车数也越多,那么这背后很可能可以用 “经济发展水平” 这个指标来解释。

公众号:内容中台产品经理

谢谢! (完)




  

相关话题

  如何理解50个人中至少两个人生日相同的概率高达97%? 
  数学、自然科学史上为什么会有那么多巧合?比如牛顿莱布尼茨同时发明微积分等? 
  我需要选这样的数学系吗? 
  为什么说高斯公式是斯托克斯公式的特例? 
  数学界有哪些通俗易懂的 open problem? 
  圆的面积 S 与半径的平方 R² 成正比,是从数学上的严格证明,还是一种数学直觉? 
  你能写出你认为既简洁又很酷的公式么? 
  如何成为一名科研人员(最好是数学)? 
  阿贝尔变换强大在哪里? 
  0.9999…是否等于1的一个疑问? 

前一个讨论
脑机接口可以通过肢体末端的神经实现吗?
下一个讨论
韩国人如何看待中国人对他们的“棒子”称呼呢?





© 2025-01-18 - tinynew.org. All Rights Reserved.
© 2025-01-18 - tinynew.org. 保留所有权利