SEM简单介绍,以下资料来源
因果关系:SEM一般用于建立因果关系模型,但是本身却并不能阐明模型的因果关系。
一般应用于:测量错误、错漏的数据、中介模型(mediation model)、差异分析。
历史:SEM 包括了 回归分析,路径分析(wright, 1921),验证性因子分析(confirmatory factor analysis)(Joreskog, 1969).
SEM也被称为 协方差结构模型(covariance structure modelling),协方差结构分析和因果模型。
因果关系:
究竟哪一个是“真的”? 在被假设的因果变量中其实有一个完整的因果链。
举一个简单的例子: 吃糖果导致蛀牙。这里涉及2个变量,“吃糖果”和“蛀牙”,前者是因,后者是果。 如果上一个因果关系成立,那将会形成一个因果机制,也许会出现这样的结构:
3. 这时还有可能出现更多的潜在变量:
这里我又举另外一个例子,回归模型
在这里,回归模型并不能很好的描述出因果次序,而且也不能轻易的识别因果次序或者未测量的因子。这也是为什么在国外学术界SEM如此流行的原因。
我们在举另外一个例子“路径分析”
路径分析能让我们用于条件模型(conditional relationships),上图中的模型是一种调解型模型或者中介模型,在这里Z 是作为一个中介调节者同时调节X和Y这两个变量的关系。
在这里我们总结一下:
回归分析简单的说就是:X真的影响Y 吗?
路径分析:为什么/如何 X 会影响Y? 是通过其他潜在变量Z 来达到的吗?例子:刷牙(X)减少蛀牙(Y)通过减少细菌的方法(Z)。------测量和测试中介变量(例如上图中的Z变量)可以帮助评估因果假设。
在这里要提一下因素模型(factor model)
在这个模型当中,各个变量有可能由于受到未被观察到的变量所影响,变得相互有内在的联系,一般来说那些变量都很复杂、混乱,而且很多变量是不能直接被观察到的。
举个例子:“保龄球俱乐部的会员卡”和“本地报纸阅读”,是被观察到的变量,而“社会资产”则是未被观察到的变量。另一个例子:“房屋立法”和“异族通婚”是被观察到的变量,而“种族偏见”是未被观察到的变量。
相互关系并不完全由被观察到的变量的因果关系所导致,而是由于那些潜在的变量而导致。
这些被观察到变量(y1--y4)也有可能由一个潜在的变量(F)所影响。
其实应该说是最大似然法和最小二乘法的区别吧。采用OLS的回归分析方法存在几方面的限制:
(1)不允许有多个因变量或输出变量
(2)中间变量不能包含在与预测因子一样的单一模型中
(3)预测因子假设为没有测量误差
(4)预测因子间的多重共线性会妨碍结果解释
(5)结构方程模型不受这些方面的限制
SEM的优点:
(1)SEM程序同时提供总体模型检验和独立参数估计检验;
(2)回归系数,均值和方差同时被比较,即使多个组间交叉;
(3)验证性因子分析模型能净化误差,使得潜变量间的关联估计较少地被测量误差污染;
(4)拟合非标准模型的能力,包括灵活处理追踪数据,带自相关误差结构的数据库(时间序列分析),和带非正态分布变量和缺失数据的数据库。
构方程模型最为显著的两个特点是:
(1)评价多维的和相互关联的关系;
(2)能够发现这些关系中没有察觉到的概念关系,而且能够在评价的过程中解释测量误差。
1、最小二乘法的典型应用是求解一套x和y的成对数据对应的曲线(或者直线)方程。
其思想是:设y和x之间的关系可以用一个公式在表示,但其系数为待定系数。然后,将各个点的实测数据与计算求得的数据相减,得到“误差”或者不符值(有正有负,但其平方都是正的),将这些不符值的平方相加,得到总的“误差”。通过调整公式中的各个系数,使得误差平方和最小,那么就确定了y和x之间的方程的最好结果。求解最小二乘问题的过程中没有提及概率问题。
2、而极大似然估计值,是用于概率领域的一种方法,和最小二乘法是两个领域的。这种方法是应用求极大值的方法,让某一个公式求导值为0,再根据情况判断该极值是否是合乎要求。极大似然估计法可以用于正态分布中 μ, σ2的极大似然估计。极大似然估计法就是要选取类似的数值作为参数的估计值,使所选取的样本在被选的总体中出现的可能性为最大。
您好,我目前想做一个路径分析,但不知道程序应该怎么写,也找不到相关资料。想跟您请教一下,用Lisrel或是Sas怎么做呢?
我的外生变量很多(超过25个),包括一些个人背景的、家庭和同伴特征的,请问是否能通过主成分来缩减指标呢?
如果两个内生变量之间是相关的关系,那么在写方程时是否也要把相关关系写上呢?
庄主@2007-03-13:
为了便于其他读者的理解,我先交待一下路径分析 (path analysis) 的简单背景。
路径分析可以用作多种目的:一是将因变量之间有关系的的若干个回归模型整合在一个模型里,以助分析和表达的完整和简洁;二是在该整合模型中的各自变量对各因变量的“总影响”(total effects) 分解为“直接影响“(direct effects) 和“间接影响”(indirect effects),如果发现间接影响较大,那就有理论价值了(当然,如下所示,很难发现大的间接影响);三是通过直接影响和间接影响的比较来验证一个自变量是否为“中介变量”(mediating variable),即其直接影响不显著而间接影响显著(上面已说过,不容易发现间接影响、如果同时又要其直接影响不显著,那就更难了)。
如此看来,路径分析是个好东西(不好意思,赶了一回时髦)。其从1960年代兴起,1970-80年代已十分流行。我在Indiana念博士时,学院里的老师常用路径分析做研究。后来学了SEM(结构方程模型),才知道路径分析有“含测量误差”和“不含测量误差”两种。前者只研究自变量和因变量之间因果关系,即SEM中的structural model(结构模型)那部分(见图一),而后者则加上了各变量的CFA(验证性因子分析),也即SEM中的measurement model(测量模型)那部分(图二)。
如何写路径分析的指令(转载) 如何写路径分析的指令(转载)
好了,现在直接回答你的问题。问题1从字面上看,只涉及结构模型那部分,所以比较简单、容易。这种路径分析,不仅可以用LISREL、SAS或其它SEM软件,其实也可以用SPSS等通用统计软件,其结果是一样的。先说在SPSS中如何做。图一是我日前在“Confirmatory regression vs. hierarchical regression" 一文中举的例子相仿(当时只用了三个公式,没有此图)。如前文中所说,因为该模型中有两个因变量(或内生变量,endogenous variables),所以需要建立两个回归模型,分别为公式一和二,其中变量名和系数名有些改动,系数分别记为b和g,是为了与LISREL用法一致,b表示一个内生变量(如W)对另一个内生变量(如Y)的影响、g表示一个外生变量(如X)对一个内生变量(如W或Y)的影响:
Y = b0 + g1X + b2W (公式一)
W = g0 +g2X(公式二)
在SPSS中,就按上述两个公式分别做一个回归分析。如果你习惯用SPSS指令的话,其syntax分别为:
Regression Dependent=Y/Enter X, W.
Regression Dependent=W/Enter X.
然后将两个回归分析所得到的回归系数填入图一,此时要用standardized Beta(即 B1、B2、G1分别为公式一和三中b1、b2、g1的标准化值),就得到了路径分析。当然,这里的B1、B2、G1都是直接影响,我们还不知道年龄对Y的间接影响和总影响(注:上网时间对Y只有直接影响没有间接影响,所以其总影响=直接影响),但这可以用手算:
X对Y的间接影响 = G1 X B2 (公式三)
X对Y的直接影响 = X对Y的直接影响 + X对Y的间接影响 = B1 + G1 X B2 (公式四)
由于G1 和B2 都是取值0和±1之间,其乘积一般不大。比如,G1 = 0.5、B2 = 0.5,其乘积只有0.25。而在含有测量误差的回归中,达到0.5的系数很少见,更常见的是在0.1-0.3之间,那么其乘积只在0.01-0.10之间。这就是为什么间接影响一般不大的原因。通过SPSS做的路径分析,因为没有将每个变量的测量误差考虑进去,所以是我上面说的“含测量误差”路径分析。同时,因为它是将数个回归分析加以组装(assembled)而非整合(integrated),所以又可以称为“组装型”路径分析。
如果用LISREL呢?大家也许知道,LISREL可以用公式(SIMPLIS)或矩阵 (matrices) 来写。前者容易,其syntax如下 (其中“...”部分为数据定义和其它指令,这里省略了):
...
RELATIONSHIPS:
Y = X W
W = X
LISREL OUTPUT EF ...
...
前三句于SPSS Regression的syntax相仿,最后一句中的 "EF" 是要求LISREL输出间接影响和总影响的结果,不仅不需要手算了、而且会给出间接影响(即公式四)和直接影响(公式五)的显著检验,而SPSS是无法提供这些显著检验的。
用LISREL矩阵指令的人越来越少,属于“斩蛟龙”之术,这里不介绍。如果你问的就是矩阵指令,请告知。
显然,LISREL的结果是“整合”(而非“组装”)型的路径分析,更是一个好东西(又赶了回时髦)。但是,其结果(即直接、间接和总影响的系数)与SPSS加手算的结果完全一样!(大家可以对同一数据分别用这两种软件验证一下。)道理很简单,因为用的都是同样(含有测量误差)的数据。当然,LISREL可以进一步将各变量的测量指标整合进来(即图二),那么其路径分析的结果与组装结果就可能不一样了,而且一般情况下各种影响的系数都会大一点(因为将测量误差扣除了)。当然,现在很少有人将这种分析叫做路径分析了,而是直接叫SEM(就是一回事嘛)。
最后回答你的问题2和3。问题2:对,可以而且应该根据理论或常识的建议、将很多个直接测量的自变量构建成少数个因子,当然还要看数据是否支持这些合并。问题3:对,如果你的理论模型中并没有对两个内生变量之间的因果关系做任何说明(即在图一或图二中没有B2 ),那么应该将它们当作相关关系来处理。事实上,LISREL会自动计算这种相关关系(在PSY矩阵中)。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)