例如看到一些研究生的论文,只发了几十份问卷调查表,就根据统计到的百分比写下十分肯定的结论。其实,是有问题的。
例如:调查“你对××活动喜欢的程度”,调查了45人。调查结果:非常喜欢2人,喜欢5人,一般10人,不太喜欢13人,不喜欢15人。作者统计出:喜欢和非常喜欢的共7人占调查人数45人的15.5%,不太喜欢和不喜欢的共28人,占62.2%。并根据15.5%和62.2%来进一步写结论。
但是,他忽略了调查的样本计算出率以后,还应该计算率的标准误和置信区间。如本例喜欢率为15.5%。还应该计算率的标准误Sp。
__________________________
本例,喜欢率的标准误 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %
按样本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根据喜欢率15.5 %、标准误5.39 % 和t0.05的值,可计算出:
95% 置信区间:15.5±2.02×5.39=4.6%~26.4%。(置信区间上下限的差值高达21.8%)。
95% 置信区间的含义是,如果用样本的喜欢率15.5%来估计总体的喜欢率时,有95%的可能是在4.6%~26.4%的区间之间。这样高达21.8%的区间意味着15.5%是不太可信的。
但是,如果扩大样本量到450人,4500人,而统计出的喜欢率也是15.5%。由于调查的样本量扩大了,标准误 Sp会缩小,计算出的95% 置信区间也就缩小为12.2%~18.8%和14.4%~16.6%。这时用样本率估计总体率时,上下限的差值很接近15.5%,才是可信的。
2. 调查数据的统计分析过于简单。
目前看到的调查数据统计分析大都比较简单。只是计算各个问卷指标的百分比,如上面举例的喜欢率15.5%等等。
要避免统计分析过于简单,首先,在做调查表设计时,就事先要考虑好调查数据的统计分析方法。例如同样是调查“你对××活动喜欢的程度”,除了要扩大调查样本量外,在调查表中增加调查性别和年龄。这样就可以采用一种较为复杂的方法——交叉分析。交叉分析是分析“年龄”、 “性别”和“对××活动喜欢程度”三个变量之间的关系。假设不分类统计时,喜欢率是15.5%。交叉分析后就会发现由于性别的不同,年龄段的不同喜欢率是不同的。
例如:2005年国民体质监测问卷调查中,对“睡眠时间”的统计分析,如果只是简单地计算某市成年男子2473人的问卷,只能统计出:睡眠6小时以下的人为13.4%,睡眠6~9小时的73.6%,睡眠9小时以上的13%。但是,如果增加年龄因素,分年龄段进行统计就可以看到,各年龄段的百分比是不同的(统计表略)。利用分年龄段的百分比还可以画出折线图(图略)。从图上更可以清楚的显示出:随着年龄增加,睡眠时间逐渐减少的趋势。
上述统计分析方法比较简单。但是,仅靠简单的统计方法来处理问卷调查数据是十分可惜的,因为大量的数据信息还没有充分利用。所以,设计问卷时,就应该注意到,让收集到的调查数据能做多因素统计分析(如:回归分析,因子分析等)。下面是我帮助或指导有关单位做过的统计分析实例:
例1:2005年国民体质监测的调查问卷内容中,包括了各人的文化程度,职业,工作、生活和体育锻炼等方面的许多问题。为了分析这些调查内容和各人的体质有什么关系,找出哪些因素对体质的好坏特别有关?在进行统计分析时,就需要把体质监测的指标和问卷调查的内容联系起来进行统计。
在成年组调查问卷内容中可进行计算的12个问题是:受教育程度,职业,平均每周工作时间,平均每天睡眠时间,睡眠质量,平均每天步行时间,平均每天坐姿活动时间,吸烟状况,运动感受,平均每周锻炼次数,平均每次锻炼时间,坚持锻炼时间。把这些作为X1, X2, ……X12,再把每个人体质监测中的体质总分作为Y,就可以进行逐步回归分析计算。
某省成年男甲组4242人的数据用逐步回归分析计算结果是:从12个指标中依次选出了X 1 (受教育程度),X12 (坚持锻炼时间), X10(平均每周锻炼次数),X7(平均每天坐姿活动时间) 4个指标。得到回归方程:
Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12F=101.92 (P<0.01)
复相关系数 R= 0.296
根据回归方程的系数就可以知道:受教育程度高,平均每周锻炼次数多,坚持锻炼时间长,平均每天坐姿活动时间少的人体质总分就高。反之就低。而这个结论只做一般的调查表百分比统计,是得不到的。
例2:某市开展《超重与肥胖人群运动与营养综合干预实验研究》12周后,对参加者进行了问卷调查,内容有:每天进餐情况(分为:五分饱,八分饱,十分饱),每周快走次数(分为:3次以下,3次,4次,5次及以上),每次快走时间(分为:30分钟以内,30~60分钟,60~90分钟,90分钟以上),每次快走距离(分为:3公里以下,3~4公里,5公里及以上)等。
如果仅统计各个问卷内容的百分比,只能计算出如:每次快走时间30分钟以内的29人占22.1%,30~60分钟的47人占35.9%,60~90分钟的19人占14.5%,90分钟以上的36人占27.5% 等等,这样的统计结果并不能说明什么问题。更无法分析出哪些是对减肥有效果的因素。
但是,把问卷调查的内容与参加12周实验后各人体重下降值联系起来统计,情况就不同了。如可以分别计算出:每周快走次数、每次快走时间等指标与体重下降值的相关系数。当计算出以上指标都和体重下降值呈中度或低度相关时,还可以进一步用回归分析的方法计算出标准回归系数或偏回归平方和来分析各指标对体重下降的作用大小。
本例有131人参加实验,为了用数学表达式来描述:饮食、运动量和降体重的关系。把调查表内容转换成数字后,选择了X1(每天进餐情况)、X2(每周快走次数)、X3(每次快走距离)与Y(体重下降值)计算出三元回归方程:
Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)
复相关系数 R = 0.4966
从回归方程可以看到,在吃八分饱的情况下,增加每周快走次数和每次快走距离,降体重的效果更好。
可见,当采用了多元回归分析方法后,可以充分利用调查表里的信息从而获得比简单的统计百分比更多的研究结果。
例3:某市对学生体质下降原因进行调研时,设计的调查表内容包括:学生、家长、学校等方面30多项指标。为了分析调查的各指标对学生身体素质影响的主次关系,从调查表中选出可进行因子分析计算的26个指标进行了R型因子分析计算。
R型因子分析通过计算,可找出控制着所有指标的几个主要因素。计算后,原来的许多指标重新组合成较少的几个新的综合指标──公因子。这些公因子相互独立而且反映了原来指标的绝大部分信息。通过R型因子分析的结果,可以看出哪些指标是同一类的,每一个指标以哪一公因子为主,其他公因子所占比例如何,从而分析该指标的特点。还可根据贡献率较大的几个公因子中所包括的指标,来分析出各指标的主次关系。
对3699名中学生的调查数据作R型因子分析计算后,从贡献率最大的5个公因子所包括的调查指标看,归入第1公因子的7个指标,都和参加体育活动有关,因此把第一公因子命名为体育活动因子,归入第2公因子的2个指标,是反映学生家长文化水平的学历,归入第3公因子的2个指标,是反映学生是否关心自己体质、健康的指标,归入第4公因子的2个指标,是反映学校是否关心和组织学生体育活动的指标,归入第5公因子的2个指标,是反映学生家长对体育运动的态度的指标。
从而可以分析出,对学生体质影响最大的第一因素是学生参加体育活动的情况,第二因素是家长的文化水平高低,第三因素是学生自己是否关心自己的体质、健康情况。第四因素是学校是否关心和组织学生参加体育活动,第五因素是家长是否喜爱体育活动是否支持学生参加体育活动。
因子分析的优点在于用一个或少数几个综合指标概括原始数据中尽量多的信息,它能够实现对问题的高度概括,并揭示出一般的特征和规律。本例通过因子分析的统计方法,从学生填在26个调查问卷中的信息,分析出了对学生体质影响的几个主要因素。
问题:大家觉得因子分析到底有什幺用处呢?把原来很多个影响因素归纳成几个影响因子,如果不继续做回归或者聚类的话,光做因子分析有价值吗?答复:因子分析是将多个实测变量转换为少数几个综合指标(或称潜变量),它反映一种降维的思想。通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性。在你对问题系统结构不了解时候,因子分析可以根据数据内在逻辑性,把它归并成几个公因子,每个公因子分别代表空间的一个维度,如果经过正交或斜 交旋转的话,各个维度之间可以认为是不相关的,这些公因子能够相对完整地刻画对象的体系维度,最起码累计方差贡献率大于85%的话,就基本能够保证重要信 息不丢失了。一句话,你如果对研究对象到底应该分为几个维度不清楚的话,用因子分析可以通过数据内在逻辑告诉你。
但如果你对研究对象体系比较清楚的话,那你直接确定维度,通过AHP计算出权重,就能够把系统表述清楚了。但这里面有巨大问题,单纯通过数据内 在逻辑来判断维度,常常是错误的,而主观判断其实更加科学,并非象统计学宣称的,数据说话才有发言权。真正有发言权的,是你对问题的经验认识程度。人们为 了避免被人嘲笑主观判断的失误,而越来越选择了统计分析,实际上,他们并不清楚,单纯用统计分析来做判断,才是最愚蠢的。只有主客观结合起来,才是相对科 学的,两者矛盾的时候,应该深入研究矛盾的根源,搞不清楚的话,我认为指标体系评价法要远比统计分析准确的多。而变量之所以能分布在不同的因子内,则是由 于其方差波动性大小和变量之间的相关性决定的,波动性越大,越排在前面的公因子中,各个公因子之间的变量是不相关的,而每个公因子之间的变量是相关的。因 子分析认为那些数据波动大的变量对对象影响作用更大,它们排在公因子的前列,这样单纯从数据逻辑来判断的准则你认为对吗?我想,如果管理和社会科学都这幺 认为的话,那错误将大大增加了。上面想法是我这两年做课题的体会,没有在任何一本书上看过相关说法,也许说的不对,这是我个人看法。如果让我选择的话,我 宁愿用指标体系评价法,体系几个维度事先就清楚,最多先用因子分析算算,看看数据波动性如何,到底能确定几个维度,只起辅助作用。研究者就是专家,指标体 系的维度由主观来做判断,这主要来自经验判断,而不是由数据判断,我认为其实更科学。当然,如果你对问题一无所知,那指标体系评价法用AHP来做的话,错 误很可能更多。我以前就强烈批判过AHP。说到底,没有一种评价方法是好的,说明问题就好。问题:那能对LISREL进行类似于因子分析的探索性因素分析了解吗?能给点评价么?3x答复:下面是探索性分析的原理:
传统上所谈的因素分析)factor analysis)指的是探索性因素分析)exploratory factor analysis),它的目的是在承认有测量误差的情形下,尝试用少数的因素)factors)以解释许多变项间的相关关系。
随着统计理论及电脑计算上的进展,目前因素分析的方法可分成探索性因素分析)exploratory factor analysis,EFA)及验证性因素分析)confirmatory factor analysis,CFA),这两类分析之间的差别在于研究者对研究变项间因素结构的了解程度不同。如果研究者对资料内所含的因素性质,结构及个数不是很 清楚,则可使用探索性因素分析试图找出能解释资料变项间相关关系的少数几个重要因素。若研究者从过去文献中的理论及自己的研究经验,而对资料间因素之数 目,结构有一定程度的了解及假设,则可使用验证性因素分析来验证该假设是否能解释资料变项间的共变关系。探索性因素分析需考虑的步骤包括:估计共通值) communalities),决定因素的数目,估计因素负荷量,对因素做转轴)rotation)以得最好的结果,最后则为对结果作解释。验证性因素分 析则需考虑对因素结构关系之确立)model specification),是否能对参数找出单一组解)identification),参数的估计法)estimation),检验资料与假设模式 之间的适合度)evaluation)。比较二者,EFA算是探索可能的因素结构之一种方法,而CFA则是验证假设因素结构存在的方法,因此CFA较 EFA对模式使用了较多的假设,也多了模式检验的过程。除了以上这两类的分析外,读者可能还听过结构方程模式)structural equation modeling,SEM),其所常使用的分析软体包括:LISREL,EQS,AMOS,Mplus等。结构方程模式是用在对因素间之关系更明确时,其 模式中可含有许多潜在变项及观察变项,研究者对各变项间之关系有一定程度之了解及假设,并可经由检验此假设模式并经过模式之修正及再检验后,确立最后可解 释资料的模式,以了解资料变项间之关系。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)