1、对数变换 即将原始数据X的对数值作为新的分布数据:
X’=lgX
当原始数据中有小值及零时,亦可取X’=lg(X+1)
还可根据需要选用X’=lg(X+k)或X’=lg(k-X)
对数变换常用于(1)使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态分布改善其正态性。
(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时。
2、平方根变换 即将原始数据X的平方根作为新的分布数据。
X’=sqrt(X)
平方根变换常用于:
1)使服从Poission分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化。2)当各样本的方差与均数呈正相关时,可使资料达到方差齐性。
3)倒数变换 即将原始数据X的倒数作为新的分析数据。
X’=1/X
常用于资料两端波动较大的资料,可使极端值的影响减小。
4、平方根反正旋变换 即将原始数据X的平方根反正玄值做为新的分析数据。
X’=sin-1sqrt(X)
常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显,通过样本率的平方根反正玄变换,可使资料接近正态分布,达到方差齐性的要求。
其实应该说是最大似然法和最小二乘法的区别吧。采用OLS的回归分析方法存在几方面的限制:
(1)不允许有多个因变量或输出变量
(2)中间变量不能包含在与预测因子一样的单一模型中
(3)预测因子假设为没有测量误差
(4)预测因子间的多重共线性会妨碍结果解释
(5)结构方程模型不受这些方面的限制
SEM的优点:
(1)SEM程序同时提供总体模型检验和独立参数估计检验;
(2)回归系数,均值和方差同时被比较,即使多个组间交叉;
(3)验证性因子分析模型能净化误差,使得潜变量间的关联估计较少地被测量误差污染;
(4)拟合非标准模型的能力,包括灵活处理追踪数据,带自相关误差结构的数据库(时间序列分析),和带非正态分布变量和缺失数据的数据库。
构方程模型最为显著的两个特点是:
(1)评价多维的和相互关联的关系;
(2)能够发现这些关系中没有察觉到的概念关系,而且能够在评价的过程中解释测量误差。
1、最小二乘法的典型应用是求解一套x和y的成对数据对应的曲线(或者直线)方程。
其思想是:设y和x之间的关系可以用一个公式在表示,但其系数为待定系数。然后,将各个点的实测数据与计算求得的数据相减,得到“误差”或者不符值(有正有负,但其平方都是正的),将这些不符值的平方相加,得到总的“误差”。通过调整公式中的各个系数,使得误差平方和最小,那么就确定了y和x之间的方程的最好结果。求解最小二乘问题的过程中没有提及概率问题。
2、而极大似然估计值,是用于概率领域的一种方法,和最小二乘法是两个领域的。这种方法是应用求极大值的方法,让某一个公式求导值为0,再根据情况判断该极值是否是合乎要求。极大似然估计法可以用于正态分布中 μ, σ2的极大似然估计。极大似然估计法就是要选取类似的数值作为参数的估计值,使所选取的样本在被选的总体中出现的可能性为最大。
1、在实际遇到的许多随机现象都服从或近似服从正态分布。当样本频率分布直方图就无限接近于一条总体密度曲线,总体密度曲线较科学地反映了总体分布。
但总体密度曲线的相关知识较为抽象,学生不易理解,因此在总体分布研究中我们选择正态分布作为研究的突破口。正态分布在统计学中是最基本、最重要的一种分布。
2、正态分布是可以用函数形式来表述的。正态分布是由它的平均数μ和标准差σ唯一决定的。
3、从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=μ,并在x=μ时取最大值。从x=μ点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与x轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的。
4、通过三组正态分布的曲线,可知正态曲线具有两头低、中间高、左右对称的基本特征。
5、由于正态分布是由其平均数μ和标准差σ唯一决定的,因此从某种意义上说,正态分布就有好多好多,这给我们深入研究带来一定的困难。
许多正态分布中,重点研究N(0,1),其他的正态分布都可以通过转化为N(0,1),我们把N(0,1)称为标准正态分布,其密度函数为,x∈(-∞,+∞),从而使正态分布的研究得以简化。
6、结合正态曲线的图形特征,归纳正态曲线的性质。正态曲线的作图较难,教科书没做要求,授课时可以借助几何画板作图,学生只要了解大致的情形就行了,关键是能通过正态曲线,引导学生归纳其性质。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)