各种数据类型meta在stata中的实现

各种数据类型meta在stata中的实现,第1张

要对连续性数据进行meta分析,需要提取每篇文章的分组情况、样本量、均值、标准差。需要初步整理为如下格式,如下图所示:

对文章效应指标的选择,目前使用较多的是加权均数差(WMD)和标准均数差(SMD)。

让原始研究效应估计的精度性决定其在meta分析中的权重,消除了绝对值的大小对分析结果的影响。

WMD在STATA软件中的计算语句为:nostandard

则表示暴露组和对照组观察变量的相对大小,可以消除研究中不同测量单位带来的影响,适用于不同指标来衡量相同结果的meta分析。

SMD在STATA软件中的计算语句为:Cohen, Hedge, Glass

理论上应该先判断研究异质性的大小,再根据异质性来选择分析模型,但在实际操作中,常常先选择固定效应模型,然后计算异质性,如果异质性不接受,则再选择随机效应模型。

1)STATA 软件为 固定效应模型 提供的算法为倒方差法,实施语句为fixed。

2)STATA 软件为 随机效应模型 提供的算法为I-V heterogeneity法,实施语句为random。

打开STATA软件的数据录入界面,将之前收集好的原始数据录入,如下图所示

固定效应模型分析语句:

metan n1 mean1 sd1 n2 mean2 sd2, label(namevar=study) texts(180) fixed nostandard

随机效应模型分析语句:

metan n1 mean1 sd1 n2 mean2 sd2, label(namevar=study) texts(180) random nostandard

将语句输入STATA的命令对话框,点击回车后,命令的结果会呈现如下,并自动弹出森林图。结果如下图所示:

STATA语句:

metafunnel _ES _seES

将语句输入STATA的命令对话框,点击回车后,会自动弹出漏斗图。结果如图5所示:

完结

文章研究的结局指标是二分类变量时,频数可以用2×2的表格呈现,如图1所示:

对于文章的效应指标的选择,通常有OR值(比值比),RR值(相对危险度)和RD值(率差)。根据纳入文章的研究设计类型选择合适的分析指标。

1)数据录入:打开STATA软件中的数据录入界面,完成对纳入研究数据的录入。其中a,b,c,d分别代表二分类表中的频数,如图2所示:

分析STATA 语句:

固定效应模型:

metan a b c d, or fixed

随机效应模型:

metan a b c d, or random

将语句输入STATA的命令对话框,点击回车后,命令的结果会呈现如下,并自动弹出森林图。结果如图3所示:

首先使用的是固定效应模型,语句中lcols(study)用于在森林图中添加作者姓名和发表年份。结果显示:Q=5.1, p =0.404>0.05,表明研究间同质性较好,因为 p >0.1,I 2 <40%,故采用固定效应模型分析。最终的分析结果为 p <0.001,表明结果有统计学意义。

STATA绘制的森林图如图4所示:

3)绘制漏斗图

STATA语句:

metafunnel _ES _selogES

将语句输入STATA的命令对话框,点击回车后,会自动弹出漏斗图。结果如图5所示:

每个散点代表纳入的研究,漏斗图可以直观地提示发表偏倚。

这就是二分类数据meta初步分析操作流程。

在医学研究中,多分类数据很常见,例如血型(A型、B型、AB型和O型)。对于无序分类数据的研究,也可进行meta分析,但是 需要将多分类进行重新归纳整理成二分类的数据。 然后采用二分类数据meta分析的方法进行操作,具体过程请筒子们看看文前。

相信大家在面对临床研究中,遇到过 只有效应量和置信区间的结果数据 ,没有其他具体描述的,但是邮件又无法联系原文作者;或者该研究就是源于交叉实验的效应量、时间事件分析(HR)的研究。面对想好的idea,是不是有点抓狂?不用怕,STATA软件也可以整合这样的数据,进行meta分析,下面将向大家介绍。

只有HR及其置信区间 的数据为例:

1)首先,关于效应模型的选择。与前文类似。

2)数据录入:打开STATA软件的数据录入界面,将之前收集好的原始数据录入,如下图所示:

其中hr代表文章的风险比(HR)效应值,ll代表HR的95%可信区间的下限,ul代表HR的95%可信区间的上限。

3)数据分析及森林图绘制:

首先要计算HR和95%可信区间的对数值。因为在meta分析中,通常要求效应差异度量的对应样本统计量服从正态分布,效应指标是HR,则效应差异度量为HR的对数值。

STATA语句命令为:

等数据转换完成后,就可以进行meta分析了。STATA的实行语句为:

metan lnhr lnll lnul, eform label(namevar=study) texts(180) effect(HR)

将语句输入STATA的命令对话框,点击回车后,命令的结果会呈现如下,并自动弹出森林图。结果如图2所示:

其中eform代表结果从HR对数值返回HR值;label(namevar=study)则在表格和森林图中注明研究信息;texts(180)用于调整森林图中文字的大小。

结果显示:

Q=12.88, p =0.116>0.05, 表明研究间同质性较好,因为 p >0.1,I 2 =37.9%,故采用固定效应模型分析。最终的分析结果为 p =0.126>0.05,表明结果无有统计学意义。

弹出的森林图如图3所示:

介绍模型设定的相关内容,包括虚拟变量的使用、经济结构变动的检验、遗漏变量的检验、自变量数量的选择、极端数据的诊断与处理等方面的内容。

对于定性数据, 通常并不能将其直接纳入模型中进行回归分析,因为这样的分析并不符合经济学理论, 所以这时需要引入虚拟变量进行处理。一般情况下,如果分类变量总共有N类,为了避免多重共线性的出现, 通常只引入N-1个虚拟变量。

regress financevalue gdp

[图片上传中...(image-20191117211705269.png-c763b3-1574492559433-0)]

在时间序列模型之中,需要十分注重模型系数的稳定性, Chow 检验提供了一个较为严 谨的检验经济结构变动的方法。

检验的方法是分别进行三次回归。检验中国金融业增加值函数是否在2003 年以后发生了结构变化的操作过程如下:

遗漏变量属于解释变量选取错误的一种,因为某些数据确实难以获得,但是有时这种遗 漏将会大大降低模型的精确度。假设正确模型如下所示:

如果在模型设定中遗漏了一个与被解释变量相关的变量X2 ,即所设定的模型为:

遗漏变量有3种情况:

Stata 提供了两种检验是否存在遗漏变量的方法: 一种是Link检验,另一种是Ramsey 检验。 Link 检验 的基本思想是: 如果模型的设定是正确的,那么y的拟合值的平方项将不应具有解释能力。 Ramsey 检验 的基本思想是:如果模型设定无误,那么拟合值和解释变量的高阶项都不应再有解释能力。

wage=工资(单位:元/小时) , educ=受教育年限(单位: 年) , exper=工作经验年限(单位: 年) , tenure=任 职年限〈单位: 年) , lwage=工资的对数值。

分别利用Link 方法和Ramsey 方法检验模型 lwage =ß1educ +ß2exper +ß3tenure 是否遗漏了重要的解释变量。

从图7. 5 中可以看出,经过添加解释变量后的模型拟合优度有了一定程度的提高,而且通过Link 检验可以看出此时hatsq项的p 值为0. 758 ,无法拒绝hatsq系数为零的假设,说明被解释变量lwage 的拟合值的平方项不再具有解释能力,所以可以得出结论: 新模型基本没有遗漏重要的解释变量。

在图7.6 中,第1 个图表仍然是回归结果,第2 个图表是Ramsey 检验的结果,不难发现Ramsey 检验的原假设是模型不存在遗漏变量,检验的p 值为0 . 5762 ,没有拒绝原假设,即认为原模型不存在遗漏变量。

为了进一步验证添加变量是否会改变Ramsey 检验的结果,同样采取Link 检验中的方法, 生成受教育年限educ 和工作经验年限exper 的平方项,重新进行回归并进行检验,命令如下:

调整之后的检验结果,可以发现此时检验的p 值为0 . 6326 ,无法拒绝原假设,即认为模型不再存在遗漏变量。

人们总是希望建立具有经济意义而又简洁的模型,在现实的经济研究过程中,通常使用信息准则来确定解释变量的个数,较为常用的信息准则有两个。

中国工资的横截面数据,变量主要包括: wage=工资(单位:元/小时) , educ=受教育年限(单位:年) , exper=工作经验年限(单位:年) , tenure=任职年限(单位:年) , lwage=工资的对数值。

AIC 值为一37.77 , BIC 值为一24 .00 。

加入教育年限educ和工作经验年限exper的平方项,建立新模型lwage = ßo +ß1educ + ß2exper + ß3 tenure +ß4 educ2 + ß5 exper2 , 然后重新对其进行回归井计算, 命令如下:

AIC 值为-39.91,BIC 值为-19.25。第2 个模型的信息准则值更小,所以此模型优于第一个模型。

在全体观测值中,会有一些样本和总体样本距离较远,这些样本在回归中可能会对斜率或者截距的估计产生较大的影响,从而使得估计值和真值的差距较大,所以在实际应用中,首先应通过 绘制散点图 的方式观测是否有极端数值的存在,如果有,应该去掉这些极端数值再进行回归分析。 ​ 如果解释变量过多或者是面板数据,绘图的方式并不直观,通常使用 leverage 影响力方法 来判断该数据是否是极端数据。若数据的leverage 影响力值高于平均值, 则对回归系数影响较大,这时可能会产生极端数据的影响。

以price 为因变量, mpg(每加仑油所行驶的英里数) 、weight(汽车重量)和foreign(是否是进口车) 为自变量建立回归模型,找出样本数据中存在的极端数据。

建立回归模型price =ß0+ß1mpg+ ß2weight + ß3foreign ,为分析汽车数据中是否存在极端值,在Stata 中输入如下命令:

在结果中可以看到lev 的均值为0. 0541 ,而最大的lev 值为0.3001,所以该观测值有可能为极端数据,可以采取进一步的方法进行处理,从而保证模型的精确性。

处理的方法一般有两种: 一种方法为直接去掉极端值:另一种方法则选择其他更为恰当的模型进行回归分析。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/190976.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-30
下一篇2023-03-30

发表评论

登录后才能评论

评论列表(0条)

    保存