交叉分类问题
比较和对照是进行科学研究的基本手段。对于间距测度和比例测度的资料,进行分组比较时可以用均数检验、方差分析等方法。对于有较多可取值的序次测度资料,进行分组比较时可以用各种秩和检验方法。
而对于名义测度的资料、有序分类所得的资料(也属序次测度),分组比较时需用交叉分类进行统计描述,交叉分类所得的表格称为“列联表”,统计推断(检验)则要使用列联表分析的方法------卡方检验。卡方分析是用来研究两个定类变量间是否独立即是否存在某种关联性的最常用的方法。
例:按“性别”和“肥胖程度”交叉分类所得列联表如下:
这里是按两个变量交叉分类的,该列联表称为两维列联表,若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。3维及以上的列联表通常称为“多维列联表”或“高维列联表”,而一维列联表就是频数分布表。
卡方分析的方法:假设两个变量是相互独立,互不关联的。这在统计上称为原假设;对于调查中得到的两个变量的数据,用一个表格的形式来表示它们的分布(频数和百分数),这里的频数叫观测频数,这种表格叫列联表;如果原假设成立,在这个前提下,可以计算出上面列联表中每个格子里的频数应该是多少,这叫期望频数;比较观测频数与期望频数的差,如果两者的差越大,表明实际情况与原假设相去甚远;差越小,表明实际情况与原假设越相近。这种差值用一个卡方统计量来表示;对卡方值进行检验,如果卡方检验的结果不显著,则不能拒绝原假设,即两变量是相互独立、互不关联的,如果卡方检验的结果显著,则拒绝原假设,即两变量间存在某种关联,至于是如何关联的,这要看列联表中数据的分布形态。
应用交叉列联表卡方检验时,应注意以下几个问题:
列联表各单元格中频数大小的问题
列联表中不应有期望频数小于1的单元格,或不应有大量的期望频数小于5的单元格。如果交叉列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。
样本量大小的问题
卡方值的大小会受到样本量大小的影响,因此卡方检验受样本量的影响很大。同样两个变量,不同的样本量,可能得出不同的结论。例如:在某列联表中,若各个单元格的样本数均同比例扩大10倍,卡方值也会随之扩大10倍。由于自由度和显著度水平未改变,卡方的临界值不变,从而使拒绝原假设的可能性增加。因此,有必要对Pearson卡方值进行修正,以消除样本量的影响。可采用列联系数、Phi系数等进行修正。
对变量取值的不同分类的问题
对变量取值的不同分类会引起卡方值的改变,有可能得到不同的结论。所以在分类时不能随意,要有理论或统计上的依据。特别是对定距或定序变量,要先将变量的取值分组归类,才能使用卡方分析,而且由于分组的方法不同,也会得出不同的结论;同时,对于定距或定序变量用卡方分析,没有充分利用它们的数量信息。
分类数据除了2*2的交叉表之外,还有诸多其他形式,比如多组率的比较、2组构成比的比较、甚至多组构成比的比较。它们数据结构更为复杂,虽都采用卡方检验为主要方法,但细节方面与两组率的分析上有所区别。
多行多列交叉表数据的分析,或者说多个率、构成比,乃至两个构成比的比较,四格表资料的分析策略一样,均可以考虑卡方和Fisher确切概率方法进行。
第一,多行多列交叉表分析没有校正卡方。具体应用条件如下:
1.不超过20%单元格的理论频数(期望频数)T <5时,可使用卡方检验进行比较。
不超过20%的T <5,卡方检验
2.如果超过20%单元格的理论频数(期望频数)T <5,或者至少一个T<1,此时采用的是Fisher确切概率法。
超过20%单元格的T <5至少1个T <1 ,Fisher确切概率法
第二,多个率、多个构成比的卡方检验存在多重比较的步骤
多个率、多个构成成比较,就如方差分析一样,当P≤0.05时,只能说明总体上存在着统计学差异,还不能说任意两组都有差异,需要多重比较进行进一步分析。
分析-描述统计 -交叉表
在“交叉表”对话框中,分别选择分组变量和结局变量到“行”和“列”中。
①、②:行” 和 “列”分别放哪个变量没有规定,结果是一致的(分组变量可以放“行” ,也可以放“列”中)。
③ 精确:点击选择“精确”选项,进行Fisher确切法检验
④统计:选择“卡方”,进行卡方检验
⑤单元格:选择计算百分比中的行与列,不必同时选择,选择一项即可。一般建议与交叉表的分组变量所在的”行”“列”位置一致。
结果主要为2张表格。
第1表:分组统计描述结果,分别给出各处理组的结局,包括发生数以及相应的百分比。
第2表:卡方和Fisher确切检验的结果。该结果同时展示了卡方、和Fisher确切概率分析结果(无校正卡方),也显示了总样本量、理论(期望)频数的情况。
注释a将决定采用卡方检验还是Fisher确切概率法
不超过20%的格子理论频数(期望频数)T <5时,选择第一行的“皮尔逊卡方”,得到卡方值①,选择P值(渐进显著性双侧)②。
如果超过20%的格子理论频数(期望频数)T <5,或者至少一个T<1,选择第三行的“费希尔精确检验”,选择P值(精确显著性双侧)①。
多组比较,无论均数、还是率、还是构成比,均有多重比较的方式。所谓多重比较,简单来说就是两两比较。
比如3*2交叉表,即3行2列数据,3个率的比较
多次同时两两比较会增加一类错误的概率,导致假阳性率偏高!
一般控制假阳性率的方法有两个,一个是软件自带的方法,一个是a分割的方法。
在SPSS具体操作上,卡方检验多重比较也采用类似两种方法。一种是软件自带的Bonferroni 方法,一种是人工a分割方法(其实两种方法结果一致)。前者方法简单,但在SPSS结果表达上反而有些时候不好理解。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)