实用教程!验证性因子分析思路总结

实用教程!验证性因子分析思路总结,第1张

验证性因子分析,是用于测量因子与测量项(量表题项)之间的对应关系是否与研究者预测保持一致的一种研究方法。尽管因子分析适合任何学科使用,但以社会科学居多。

目前有很多软件都可以非常便利地实现验证性因子分析,本文将基于SPSSAU系统进行说明。

 

因子分析可分为两种类型:探索性因子分析(EFA)和验证性因子分析(CFA)。

探索性因子分析,主要用于浓缩测量项,将所有题项浓缩提取成几个概括性因子,达到减少分析次数,减少重复信息的目的。

验证性因子分析与探索性因子分析相似,两者区别只在于探索性因子分析(EFA)用于探索因子与测量项之间的对应关系,验证性因子分析(CFA)用于验证结果与理论预期是否一致。

 

在实际研究中,验证性因子分析常会与结构方程模型、路径分析等方法联系到一起,对于不熟悉概念的研究人员容易搞混这些方法,下表对这几种方法进行简单说明:

探索性因子分析: 验证因子与分析项的对应关系,检验量表效度,非经典量表通常用探索性因子分析。

验证性因子分析: 验证因子与分析项的对应关系,检验量表效度,成熟量表通常用验证性因子分析。确认测量关系后,后续可进行路径分析/线性回归分析研究具体的影响关系。

路径分析: 用于研究多个自变量与多个因变量影响关系;如果因变量只有一个,可以使用线性回归分析。

结构方程模型SEM : 包括测量关系和影响关系。如果仅包括影响关系,此时称作路径分析(Path analysis,有时也称通径分析)。通常需要进行探索性因子分析和验证性因子分析,均保证测量关系无误之后,再进行结构方程模型构建。

从分析思路上看,建议先用探索性因子分析EFA构建模型,确定存在几个因子及各分析项与因子的对应关系,再用验证性因子分析CFA加以检验。

(1)模型设定

首先需要确定因子数及对应分析题项,顺序放入分析框内。

(2)模型拟合

通过因子载荷系数表格可以展示因子(潜变量)与分析项(显变量)之间的关系情况。如果因子与测量项间的对应关系出现严重偏差,或者因子载荷系数值过低,则需要删除掉该测量项。

分析时主要关注P值及标准载荷系数,建议结合SPSSAU给出的“分析建议”进行分析。

模型拟合指标用于整体模型拟合效度情况分析。

常用的拟合值及其判断标准,都展示在上表中,实际输出值在标准范围内及说明模型拟合程度较好。模型拟合指标非常多,通常下很难保证所有指标均达标,只要多数指标达标或接近标准值即可。

*常用指标包括卡方自由度比,GFI,RMSEA,RMR,CFI,NFI和NNFI。

(3)模型修正

根据模型拟合指标情况,评价模型的优劣,如果模型拟合情况不佳,则需要进一步修正模型。

MI指标越大说明该项与其他因子的相关性越强,MI过大时会干扰模型需要进行修正或剔除该项。

模型构建过程需要重复多次,以找到最优模型。同时SPSSAU会自动生成模型结果图。

(4)模型分析

在完成模型构建后,即可使用模型进行分析。验证性因子分析主要有三个方面的功能,分别是聚合效度、区分效度、共同方法偏差。

聚合效度

聚合效度,也叫做收敛效度。AVE和CR是用于判断聚合效度的常用指标,AVE>0.5,并且CR>0.7,则说明具有良好的聚合效度。如果AVE或CR值较低,可考虑移除某因子后重新分析聚合效度。

上图为SPSSAU输出的AVE、CR值指标表格,可以根据此表格进行查看。

区分效度

区分效度,常用的做法是将AVE根号值与‘相关系数值’进行对比,SPSSAU也会输出相应结果。

如果每个因子的AVE根号值均大于“该因子与其它因子的相关系数最大值”,说明具有良好的区分效度。

共同方法偏差

共同方法偏差,SPSSAU提供两种方法检验,一种是探索性因子分析(也称作Harman单因子检验方法),做法是将所有变量进行探索性因子分析,如果只得出一个因子或者第一个因子的解释力(方差解释率)特别大,则判定存在共同方法偏差。

另一种是验证性因子分析,所有变量全部放在一个因子里面进行分析,如果测量出来显示模型的拟合指标无法达标,模型拟合不佳,说明所有的测量项并不应该同属于一个因子,也就说明数据无共同方法偏差问题。

 

验证性因子分析需要较大的样本量,通常建议样本量至少为测量项(量表题)的5倍以上,最好10倍以上,且一般情况下至少需要200个样本。

一个因子对应的测量项最好在5~8个之间,便于后续删除掉不合理测量项。

绝大多数情况下均为一阶验证性因子分析。如果说验证性因子分析时为二阶模型,此时参数处选中‘二阶’即可。

一般来说,使用验证性因子分析需要有一定的理论基础支持,如果拟合指标不能达标,最好按照分析思路:探索性因子分析→验证性因子分析,进行分析。

以及对于不熟悉的步骤,建议大家阅读SPSSAU帮助手册的相关说明以及SPSSAU的教学视频。

验证性因子分析视频教学: https://www.bilibili.com/video/av69372013

1. 调查的样本量太小,计算出的结论可靠性不高。

例如看到一些研究生的论文,只发了几十份问卷调查表,就根据统计到的百分比写下十分肯定的结论。其实,是有问题的。

例如:调查“你对××活动喜欢的程度”,调查了45人。调查结果:非常喜欢2人,喜欢5人,一般10人,不太喜欢13人,不喜欢15人。作者统计出:喜欢和非常喜欢的共7人占调查人数45人的15.5%,不太喜欢和不喜欢的共28人,占62.2%。并根据15.5%和62.2%来进一步写结论。

但是,他忽略了调查的样本计算出率以后,还应该计算率的标准误和置信区间。如本例喜欢率为15.5%。还应该计算率的标准误Sp。

__________________________

本例,喜欢率的标准误 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %

按样本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根据喜欢率15.5 %、标准误5.39 % 和t0.05的值,可计算出:

95% 置信区间:15.5±2.02×5.39=4.6%~26.4%。(置信区间上下限的差值高达21.8%)。

95% 置信区间的含义是,如果用样本的喜欢率15.5%来估计总体的喜欢率时,有95%的可能是在4.6%~26.4%的区间之间。这样高达21.8%的区间意味着15.5%是不太可信的。

但是,如果扩大样本量到450人,4500人,而统计出的喜欢率也是15.5%。由于调查的样本量扩大了,标准误 Sp会缩小,计算出的95% 置信区间也就缩小为12.2%~18.8%和14.4%~16.6%。这时用样本率估计总体率时,上下限的差值很接近15.5%,才是可信的。

2. 调查数据的统计分析过于简单。

目前看到的调查数据统计分析大都比较简单。只是计算各个问卷指标的百分比,如上面举例的喜欢率15.5%等等。

要避免统计分析过于简单,首先,在做调查表设计时,就事先要考虑好调查数据的统计分析方法。例如同样是调查“你对××活动喜欢的程度”,除了要扩大调查样本量外,在调查表中增加调查性别和年龄。这样就可以采用一种较为复杂的方法——交叉分析。交叉分析是分析“年龄”、 “性别”和“对××活动喜欢程度”三个变量之间的关系。假设不分类统计时,喜欢率是15.5%。交叉分析后就会发现由于性别的不同,年龄段的不同喜欢率是不同的。

例如:2005年国民体质监测问卷调查中,对“睡眠时间”的统计分析,如果只是简单地计算某市成年男子2473人的问卷,只能统计出:睡眠6小时以下的人为13.4%,睡眠6~9小时的73.6%,睡眠9小时以上的13%。但是,如果增加年龄因素,分年龄段进行统计就可以看到,各年龄段的百分比是不同的(统计表略)。利用分年龄段的百分比还可以画出折线图(图略)。从图上更可以清楚的显示出:随着年龄增加,睡眠时间逐渐减少的趋势。

上述统计分析方法比较简单。但是,仅靠简单的统计方法来处理问卷调查数据是十分可惜的,因为大量的数据信息还没有充分利用。所以,设计问卷时,就应该注意到,让收集到的调查数据能做多因素统计分析(如:回归分析,因子分析等)。下面是我帮助或指导有关单位做过的统计分析实例:

例1:2005年国民体质监测的调查问卷内容中,包括了各人的文化程度,职业,工作、生活和体育锻炼等方面的许多问题。为了分析这些调查内容和各人的体质有什么关系,找出哪些因素对体质的好坏特别有关?在进行统计分析时,就需要把体质监测的指标和问卷调查的内容联系起来进行统计。

在成年组调查问卷内容中可进行计算的12个问题是:受教育程度,职业,平均每周工作时间,平均每天睡眠时间,睡眠质量,平均每天步行时间,平均每天坐姿活动时间,吸烟状况,运动感受,平均每周锻炼次数,平均每次锻炼时间,坚持锻炼时间。把这些作为X1, X2, ……X12,再把每个人体质监测中的体质总分作为Y,就可以进行逐步回归分析计算。

某省成年男甲组4242人的数据用逐步回归分析计算结果是:从12个指标中依次选出了X 1 (受教育程度),X12 (坚持锻炼时间), X10(平均每周锻炼次数),X7(平均每天坐姿活动时间) 4个指标。得到回归方程:

Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12F=101.92 (P<0.01)

复相关系数 R= 0.296

根据回归方程的系数就可以知道:受教育程度高,平均每周锻炼次数多,坚持锻炼时间长,平均每天坐姿活动时间少的人体质总分就高。反之就低。而这个结论只做一般的调查表百分比统计,是得不到的。

例2:某市开展《超重与肥胖人群运动与营养综合干预实验研究》12周后,对参加者进行了问卷调查,内容有:每天进餐情况(分为:五分饱,八分饱,十分饱),每周快走次数(分为:3次以下,3次,4次,5次及以上),每次快走时间(分为:30分钟以内,30~60分钟,60~90分钟,90分钟以上),每次快走距离(分为:3公里以下,3~4公里,5公里及以上)等。

如果仅统计各个问卷内容的百分比,只能计算出如:每次快走时间30分钟以内的29人占22.1%,30~60分钟的47人占35.9%,60~90分钟的19人占14.5%,90分钟以上的36人占27.5% 等等,这样的统计结果并不能说明什么问题。更无法分析出哪些是对减肥有效果的因素。

但是,把问卷调查的内容与参加12周实验后各人体重下降值联系起来统计,情况就不同了。如可以分别计算出:每周快走次数、每次快走时间等指标与体重下降值的相关系数。当计算出以上指标都和体重下降值呈中度或低度相关时,还可以进一步用回归分析的方法计算出标准回归系数或偏回归平方和来分析各指标对体重下降的作用大小。

本例有131人参加实验,为了用数学表达式来描述:饮食、运动量和降体重的关系。把调查表内容转换成数字后,选择了X1(每天进餐情况)、X2(每周快走次数)、X3(每次快走距离)与Y(体重下降值)计算出三元回归方程:

Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)

复相关系数 R = 0.4966

从回归方程可以看到,在吃八分饱的情况下,增加每周快走次数和每次快走距离,降体重的效果更好。

可见,当采用了多元回归分析方法后,可以充分利用调查表里的信息从而获得比简单的统计百分比更多的研究结果。

例3:某市对学生体质下降原因进行调研时,设计的调查表内容包括:学生、家长、学校等方面30多项指标。为了分析调查的各指标对学生身体素质影响的主次关系,从调查表中选出可进行因子分析计算的26个指标进行了R型因子分析计算。

R型因子分析通过计算,可找出控制着所有指标的几个主要因素。计算后,原来的许多指标重新组合成较少的几个新的综合指标──公因子。这些公因子相互独立而且反映了原来指标的绝大部分信息。通过R型因子分析的结果,可以看出哪些指标是同一类的,每一个指标以哪一公因子为主,其他公因子所占比例如何,从而分析该指标的特点。还可根据贡献率较大的几个公因子中所包括的指标,来分析出各指标的主次关系。

对3699名中学生的调查数据作R型因子分析计算后,从贡献率最大的5个公因子所包括的调查指标看,归入第1公因子的7个指标,都和参加体育活动有关,因此把第一公因子命名为体育活动因子,归入第2公因子的2个指标,是反映学生家长文化水平的学历,归入第3公因子的2个指标,是反映学生是否关心自己体质、健康的指标,归入第4公因子的2个指标,是反映学校是否关心和组织学生体育活动的指标,归入第5公因子的2个指标,是反映学生家长对体育运动的态度的指标。

从而可以分析出,对学生体质影响最大的第一因素是学生参加体育活动的情况,第二因素是家长的文化水平高低,第三因素是学生自己是否关心自己的体质、健康情况。第四因素是学校是否关心和组织学生参加体育活动,第五因素是家长是否喜爱体育活动是否支持学生参加体育活动。

因子分析的优点在于用一个或少数几个综合指标概括原始数据中尽量多的信息,它能够实现对问题的高度概括,并揭示出一般的特征和规律。本例通过因子分析的统计方法,从学生填在26个调查问卷中的信息,分析出了对学生体质影响的几个主要因素。

多元回归方程属于单方程模型方法,结构方程模型属于联立方程模型方法,回归分析只能处理显性变量,而结构方程模型可以发现潜在变量。多元一般只有一个因变量,而且是单向的,SEM则是可单,可双,多元是基础,SEM是后来的发展和完善。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/264808.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-17
下一篇2023-04-17

发表评论

登录后才能评论

评论列表(0条)

    保存