SD:标准差(StandardDeviation),又常称均方差,标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。
SEM:标准误(StandardErrorofMean),即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是多个样本平均数的标准差。
标准差与标准误都是数理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。
首先要从统计抽样的方面说起。
标准差:表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差受到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个测验测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。
标准误:表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本容量的开平方来计算的。从这里可以看到,标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。
拓展资料
标准差(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。
假设有一组数值X1,X2,X3,......XN(皆为实数),其平均值(算术平均值)为μ,
标准差也被称为标准偏差,或者实验标准差,公式为
标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
面对测量误差,我们该怎么办?在上一期,我简要介绍了测量误差的概念及其对统计分析的危害;在这一期,我将着重谈一谈针对测量误差的应对办法。
不过在进入正文之前,我首先需要强调的一点是,就目前已掌握的知识来看,测量误差只能通过更好的研究设计和更严格的调查执行来降低,而到了数据分析阶段,我们并没有太多好的办法。看到这里,可能很多只用二手数据的小伙伴要感到失望了,毕竟不是所有人都有能力和精力去搜集一手数据,那么面对有测量误差的二手数据,我们该怎么办呢?
1、挑选合适的变量
我们常说,一个数据质量不好,其实这是一个非常笼统的说法。更准确的说法是,一个数据中有些变量质量不好,但有些变量还基本能用。众所周知,目前市面上能够见到的统计数据都是由很多变量组成的,我们所谓的测量误差也是针对具体的变量而言,而非针对整个数据。所以,对数据分析者来说,一个很基本的能力就是从很多变量中挑出那些测量误差比较小、可以进行统计分析的变量。但问题是怎么挑呢?
我个人认为,在挑选变量时需要遵循两个原则。
第一,客观的比主观的好,具体的比抽象的好,单一维度的比多维度的好。因为相比单一维度的、具体的客观概念,那些包含多个维度的、比较抽象的主观概念更难测量,所以对这些概念进行统计分析更可能受测量误差影响。从这个角度来说,性别、年龄、民族、婚姻状况等基本的人口学变量是相对安全的变量,在分析时应该多用;而满意度、幸福感、社会融合等变量很难测准,在分析时就应该少用。但少用并不意味着不能用,毕竟很多重要的社会学问题,如满意、幸福、公平等都是抽象的理论概念,那么对这类变量该怎么办呢?这就涉及到挑选变量的第二个原则。
第二,如果研究必须使用抽象程度比较高的变量,那么最好将之作为因变量,而不要作为自变量。在上一期我们讲过,当因变量有测量误差时,最主要的危害是降低模型和统计检验的效率,但对回归系数的估计没有太大影响。而统计检验效率的降低可以通过增大样本容量来弥补,目前我们分析使用的数据样本量通常都比较大,所以综合来看,使用有测量误差的因变量不会导致毁灭性的结果。但是,当自变量有测量误差时,情况就不一样了,它会显著低估模型的回归系数,这对任何一个回归分析来说都是不能接受的。总而言之,当我们要研究满意、幸福、公平、信任等抽象问题时,比较合适的研究路径是将这些变量作为因变量,分析它们的影响因素;而不要将它们当作自变量,研究它们的社会后果。
2、改进现有的测量
如果一项研究不能巧妙地避开有测量误差的变量,那么就只能面对它。通常来说,变量的测量误差是很难纠正的,除非在研究设计时就考虑到了测量误差问题。
举例来说,自评健康是健康研究领域常用的一个变量。测量自评健康的常规方法是使用5分Likert量表(非常健康、比较健康、一般、不太健康、非常不健康)让受访者对自己的健康状况打分。这种问法操作简单,但问题在于不同受访者对健康的评价标准往往是不一样的,有些人明明健康状况很糟糕,但依然会认为自己身体很好;而有些人即使身体很好也认为自己的健康状况不行。纠正这个问题的一个办法是锚定法(anchor vignette),即在询问自评健康的同时给受访者一些情境,让受访者评价出现在这些情境中的个体的健康状况,然后根据这些情境题确定受访者的健康评判标准(锚点),再以这个标准去纠正原有的自评健康测量。目前通过锚定法来纠正自评健康测量问题的研究设计已经得到了非常广泛的应用,比如在“中国健康养老追踪调查(CHARLS)”中就采取了这种设计。此外,一些调查在询问满意度、幸福感、自评阶层地位时也采用了这种设计。《社会》杂志今年最新的一期(2017年第6期)就刊登了一篇使用锚定法测量中国民众主观社会地位的论文,感兴趣的读者可以去查阅这篇文章。
如果研究设计使用多个指标去测量一个变量,那么就可以使用结构方程模型(SEM)改善对该变量的测量。结构方程模型包括测量模型和结构模型两部分,其中结构模型与一般意义上的回归没有本质区别,唯一的不同点是参与回归的变量既可以是观测变量,也可以是潜变量(latent variable),而潜变量是通过测量模型得到。通俗来讲,潜变量就是我们想要测量的目标变量,但是因为测量误差,我们只能得到它的多个观测指标。单独来看,每个观测指标都是有缺陷的,但综合多个指标我们就能提取出它们共有的部分(即潜变量),然后以之为基础就可以分离出测量误差。目前,结构方程模型在心理学领域已经得到了非常广泛的应用,心理学在测量诸如幸福、满意、焦虑、抑郁等概念时通常会采用一个包含数个题目的量表,基于这个量表就可以藉由结构方程模型生成对应的潜变量,然后去探讨各潜变量之间的因果关系。相比之下,社会学在研究类似问题时大多还是使用单一测量指标,这样就不能有效分离出测量误差,这不得不说是一个遗憾。
3、大数据
通过前文的介绍,我们知道,如果能在调查时进行更加精巧的研究设计,就可以通过锚定法或结构方程模型缓解变量的测量误差问题。但直到目前为止,我们依然是在传统数据搜集的话语下讨论测量误差问题,实际上,随着信息技术特别是互联网技术的迅猛发展,社会科学采集数据的渠道已经发生了非常明显的变化。既然如此,数据采集技术的革新能否缓解传统的测量误差问题呢?更进一步,大数据有助于降低测量误差吗?
问题一:路径分析的步骤 路径分析的主要步骤是:①选择变量和建立因果关系模型。这是路径分析的前提。研究人员多用路径图形象地将变量的层次,变量间因果关系的路径、类型、结构等,表述为所建立的因果模型。下图是5个变量因果关系的路径。 图中带箭头的直线“→”连接的是具有因果关系的两个变量,箭头的方向与因果的方向相同当两变量只有相关关系而无因果关系时,用弧线双向箭头表示。图中变量分为:a.外生变量。因果模型中只扮演因,从不扮演果的变量,是不受模型中其他变量影响的独立变量,如x1与 x2。b.内生变量。模型中既可为因又可为果的变量,其变化受模型中其他变量的影响,如x3、x4与x5。c.残差变量。来自因果模型之外的影响因变量的所有变量的总称,如e3、e4、e5。若变量间的关系是线性可加的,则图中的因果模型可用3个标准化多元线性回归方程表示: pij 称为由xj到xi的路径系数,它表示xj与xi间因果关系的强弱,即当其他变量均保持不变时,变量xj对变量xi的直接作用力的大小。pie称为残差路径系数,它表示所有自变量所不能解释的因变量的变异部分,其大小对于因果模型的确定有重要作用。②检验假设。路径分析要以下列假定为前提:a.变量间的因果关系是单向的,不具有反馈性,又称递归模型;b.变量间具有线性可加关系;c.变量具有等距以上测量尺度;d.所有误差均为随机的,外生变量无测量误差;e.所有内生变量的误差变量间及与内生变量有因果关系的所有自变量间无相关。当某些假定,如递归性或变量的测量尺度不满足时,要做适当的处理才能应用路径分析。③估计参数。首先计算路径系数与残差路径系数,然后计算两变量间相关系数rji。此外,要计算两变量间总因果作用力,包括变量xj对xi的直接作用力、xj经中间变量而对xi的间接作用力两部分。例如,上图的因果模型中,x1对x5的总作用力由直接作用力p51和间接作用力构成。这两部分作用力的大小可由两变量间的相关系数rij的分解得到。最后还要计算决定系数,它表示所有作用于xi的自变量所能解释xi变异量的比例。公式是: ④评估因果模型。评估的主要指标是:a. ,若太小,则要考虑是否需要增加新的自变量,以保证模型精度。b,一个理想的因果模应当很小,当它很大时,则有必要重新估计此因果路径也可由公计算。c.进行F检验。 式中Q为残差平方和,U为回归平方和,N为样本数,K为变量数,检验不显著时要修改模型。 路径分析是多元回归分析的延伸,与后者不同的是:①路径分析间的因果关系是多层次的,因果变量之间加入了中介变量,使路径分析模型较一般回归模型对于现实因果关系的描述更丰富有力。②路径分析不是运用一个而是一组回归方程,在分析时更应注意保证各方程式所含意义的一致性。
问题二:如何进行路径分析 您好,我目前想做一个路径分析,但不知道程序应该怎么写,也找不到相关资料。想跟您请教一下,
用Lisrel或是Sas怎么做呢?
我的外生变量很多(超过25个),包括一些个人背景的、家庭和同伴特征的,请问是否能通过主成分来缩减指标呢?
如果两个内生变量之间是相关的关系,那么在写方程时是否也要把相关关系写上呢?
庄主@2007-03-13:
为了便于其他读者的理解,我先交待一下路径分析 (path *** ysis) 的简单背景。
路径分析可以用作多种目的:一是将因变量之间有关系的的若干个回归模型整合在一个模型里,以助分析和表达的完整和简洁;二是在该整合模型中的各自变量对各因变量的“总影响”(total effects) 分解为“直接影响“(direct effects) 和“间接影响”(indirect effects),如果发现间接影响较大,那就有理论价值了(当然,如下所示,很难发现大的间接影响);三是通过直接影响和间接影响的比较来验证一个自变量是否为“中介变量”(mediating variable),即其直接影响不显著而间接影响显著(上面已说过,不容易发现间接影响、如果同时又要其直接影响不显著,那就更难了)。
如此看来,路径分析是个好东西(不好意思,赶了一回时髦)。其从1960年代兴起,1970-80年代已十分流行。我在Indiana念博士时,学院里的老师常用路径分析做研究。后来学了SEM(结构方程模型),才知道路径分析有“含测量误差”和“不含测量误差”两种。前者只研究自变量和因变量之间因果关系,即SEM中的structural model(结构模型)那部分(见图一),而后者则加上了各变量的CFA(验证性因子分析),也即SEM中的measurement model(测量模型)那部分(图二)。
如何写路径分析的指令(转载) 如何写路径分析的指令(转载)
好了,现在直接回答你的问题。问题1从字面上看,只涉及结构模型那部分,所以比较简单、容易。这种路径分析,不仅可以用LISREL、SAS或其它SEM软件,其实也可以用SPSS等通用统计软件,其结果是一样的。先说在SPSS中如何做。图一是我日前在“Confirmatory regression vs. hierarchical regression 一文中举的例子相仿(当时只用了三个公式,没有此图)。如前文中所说,因为该模型中有两个因变量(或内生变量,endogenous variables),所以需要建立两个回归模型,分别为公式一和二,其中变量名和系数名有些改动,系数分别记为b和g,是为了与LISREL用法一致,b表示一个内生变量(如W)对另一个内生变量(如Y)的影响、g表示一个外生变量(如X)对一个内生变量(如W或Y)的影响:
Y = b0 + g1X + b2W (公式一)
W = g0 +g2X (公式二)
在SPSS中,就按上述两个公式分别做一个回归分析。如果你习惯用SPSS指令的话,其syntax分别为:
Regression Dependent=Y/Enter X, W.
Regression Dependent=W/Enter X.
然后将两个回归分析所得到的回归系数填入图一,此时要用standardized Beta(即 B1、B2、G1分别为公式一和三中b1、b2、g1的标准化值),......>>
问题三:路径分析的介绍 路径分析是常用的数据挖据方法之一, 是一种找寻频繁访问路径的方法,它通过对Web服务器的日志文件中客户访问站点访问次数的分析,挖掘出频繁访问路径。LBS不仅需要能确定目标的地理位置,还需要能实现对地理环境的有效分析。网络分析是地理环境分析中的一个重要技术,包括最短路径分析、网络流分析等内容。在网络分析中,最短路径分析是最基本的,也是最关键的技术,一直是计算机科学、运筹学、交通工程学、地理信息学等学科的一个研究热点。如今,最短路径分析算法已经非常成熟,如以Dijkstra算法为代表的宽度搜索方法、动态规划方法等。
问题四:软件测试中路径分析法是什么 熟悉测试理论的人都知道,路径覆盖是白盒测试中一种很重要的方法,广泛应用于单元测试。那么基于路径覆盖的分析方法是不是只能应用于单元测试呢,能不能将其推而广之呢。一般而言,在单元测试中,路径就是指函数代码的某个分支,而实际上如果我们将软件系统的某个流程也看成路径的话,我们将可以尝试着用路径分析的方法来设计测试用例。采用路径分析的方法设计测试用例有两点好处:一是降低了测试用例设计的难度,只要搞清了各种流程,就可以设计出高质量的测试用例来,而不用太多测试方面的经验;二是在测试时间较紧的情况下,可以有的放矢的选择测试用例,而不用完全根据经验来取舍。下面就具体的介绍一下如何用路径分析的方法编写测试用例。
首先是将系统运行过程中所涉及到的各种流程图表化,可以先从最基本的流程入手,将流程抽象成为不同功能的顺序执行。在最基本流程的基础上再去考虑次要或者异常的流程,这样将各种流程逐渐细化,这样既可以逐渐加深对流程的理解,还可以将各个看似孤立的流程关联起来。完成所有流程的图表化后就完成了所有路径的设定。
找出了所有的路径,下面的工作就是给每条路径设定优先级,这样在测试时就可以先测优先级高的,再测优先级低的,在时间紧迫的情况下甚至可以考虑忽略一些低优先级的路径。优先级根据两个原则来选取:一是路径使用的频率,使用越频繁的优先级越高;二是路径的重要程度,如果失败对系统影响越大的优先级越高。将根据两个原则所分别得到的优先级相加就得到了整个路径的优先级。根据优先级的排序就可以更有针对性的进行测试。
为每条路径设定好优先级后,接下来的工作就是为每条路径选取测试数据,构造测试用例。一条路径可以对应多个测试用例,在选取测试数据时,可以充分利用边界值选取等方法,通过表格将各种测试数据的输入输出对应起来,这样就完成了测试用例的设计。
问题五:结构方程模型 和路径分析的区别,原理是否一样? 路径分析是结构方程模型的一部分,完整的结构方程模型包含两部分:1、测量模型,研究因子和指标的关系,也就是一般我们说的验证性因子分析;2、因果模型,也就是路径分析,研究的是因子之间的关系。另外提一下,狭义上的路径分析指的是把显变量直接当做潜变量的因果模型。
因此,结构方程模型和路径分析其实是概念与子概念的关系。他们所涉及的统计学原理自然是一样的,只不过如果是狭义上的路径分析,那么默认变量无测量误差,其计算的精确度及误差的控制是不如完整的结构方程模型的。
问题六:路径分析的最优路径分析模型 最优路径分析是地理网络分析中最常见的基本功能,也是LBS需要具备的功能。地理网络中的最优路径是指在地理网络中满足某些优化条件的一条路,包括距离最短或最长、通行时间最短、运输费用最低、行使最安全、容量最大等。
问题七:SPSS如何做路径分析 路径分析用amos,amos以前是spss的一个模块,现在分离出去了,要单独安装,现在出最新的spss21.0和amos21.0,先装spss,再装amos,装amos的时候还会提醒安装最新的.NET Framework,先装好就ok了。
SPSS AMOS 21.0是一款使用结构方程式,探索变量间的关系的软件 ,轻松地进行结构方程建模(SEM) 。快速创建模型以检验变量之间的相互影响及其原因,比普通最客服乘回归和探索性因子分析更进一步 。
Microsoft .NET Framework是用于Windows的新托管代码编程模型。它将强大的功能与新技术结合起来,用于构建具有视觉上引人注目的用户体验的应用程序,实现跨技术边界的无缝通信,并且能支持各种业务流程。
问题八:因果路径分析用什么软件 两款比较流行的软件是lisrel和Amos
问题九:如何做用户行为路径分析 用户行为一直是网站优化关注的重点,分析网站用户行为,对提高网站的转换率帮助很大,至少你知道用户需要什么,接下来你应该怎么去满足这些行为。目前几乎90%上的网站几乎都销售为主,无论是产品还是服务,都的为了销售。当然还有一些是需要用户参与网站的某些调查,但是一般专门为这些行为做的网站还是比较少, seo培训下面主要分析用户的购买行为。在做SEO的朋友当中,可能有50%不会卖东西,但是我相信100%的都会买,我们这里也是研究购买者的行为,所以每个人都很可以平等参与,从购买者的角度去分析。如果你对某一些方面的产品感兴趣。但是不知道拥有这种功能的产品名称甚至具体型号,这在营销专家来看,是属于“初级需求”,他们使用经济术语“需求” 来描述当一个购买者对某物质的需要,处于这一阶段的用户遇见了问题,但是不知道是否有相关产品或服务可以帮助他们解决;或者在很多方案中却不知道如何选择 (选择性需求);甚至是知道某一产品能解决自己的问题,正在需找某一喜好的品牌或适合自己的某一型号。这就是购买者行为。初级需求用户行为一个处于“初级需求”的用户,在他准备进入“选择性需求”之前,他可能正在努力寻找关于可以解决他目前问题的有效方法,这个时候他对产品并不敏感,而对信息特别喜好。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)