各种数据类型meta在stata中的实现_服务器知识

要对连续性数据进行meta分析，需要提取每篇文章的分组情况、样本量、均值、标准差。需要初步整理为如下格式，如下图所示：

对文章效应指标的选择，目前使用较多的是加权均数差（WMD）和标准均数差（SMD）。

让原始研究效应估计的精度性决定其在meta分析中的权重，消除了绝对值的大小对分析结果的影响。

WMD在STATA软件中的计算语句为：nostandard

则表示暴露组和对照组观察变量的相对大小，可以消除研究中不同测量单位带来的影响，适用于不同指标来衡量相同结果的meta分析。

SMD在STATA软件中的计算语句为：Cohen, Hedge, Glass

理论上应该先判断研究异质性的大小，再根据异质性来选择分析模型，但在实际操作中，常常先选择固定效应模型，然后计算异质性，如果异质性不接受，则再选择随机效应模型。

1)STATA 软件为 固定效应模型 提供的算法为倒方差法，实施语句为fixed。

2）STATA 软件为 随机效应模型 提供的算法为I-V heterogeneity法，实施语句为random。

打开STATA软件的数据录入界面，将之前收集好的原始数据录入，如下图所示

固定效应模型分析语句：

metan n1 mean1 sd1 n2 mean2 sd2, label(namevar=study) texts(180) fixed nostandard

随机效应模型分析语句：

metan n1 mean1 sd1 n2 mean2 sd2, label(namevar=study) texts(180) random nostandard

将语句输入STATA的命令对话框，点击回车后，命令的结果会呈现如下，并自动弹出森林图。结果如下图所示：

STATA语句：

metafunnel _ES _seES

将语句输入STATA的命令对话框，点击回车后，会自动弹出漏斗图。结果如图5所示：

完结

文章研究的结局指标是二分类变量时，频数可以用2×2的表格呈现，如图1所示：

对于文章的效应指标的选择，通常有OR值（比值比），RR值（相对危险度）和RD值（率差）。根据纳入文章的研究设计类型选择合适的分析指标。

1）数据录入：打开STATA软件中的数据录入界面，完成对纳入研究数据的录入。其中a,b,c,d分别代表二分类表中的频数，如图2所示：

分析STATA 语句：

固定效应模型：

metan a b c d, or fixed

随机效应模型：

metan a b c d, or random

将语句输入STATA的命令对话框，点击回车后，命令的结果会呈现如下，并自动弹出森林图。结果如图3所示：

首先使用的是固定效应模型，语句中lcols(study)用于在森林图中添加作者姓名和发表年份。结果显示：Q=5.1, p =0.404>0.05,表明研究间同质性较好，因为 p >0.1,I 2 <40%,故采用固定效应模型分析。最终的分析结果为 p <0.001,表明结果有统计学意义。

STATA绘制的森林图如图4所示：

3）绘制漏斗图

STATA语句：

metafunnel _ES _selogES

将语句输入STATA的命令对话框，点击回车后，会自动弹出漏斗图。结果如图5所示：

每个散点代表纳入的研究，漏斗图可以直观地提示发表偏倚。

这就是二分类数据meta初步分析操作流程。

在医学研究中，多分类数据很常见，例如血型（A型、B型、AB型和O型）。对于无序分类数据的研究，也可进行meta分析，但是 需要将多分类进行重新归纳整理成二分类的数据。 然后采用二分类数据meta分析的方法进行操作，具体过程请筒子们看看文前。

相信大家在面对临床研究中，遇到过 只有效应量和置信区间的结果数据 ，没有其他具体描述的，但是邮件又无法联系原文作者；或者该研究就是源于交叉实验的效应量、时间事件分析（HR）的研究。面对想好的idea，是不是有点抓狂？不用怕，STATA软件也可以整合这样的数据，进行meta分析，下面将向大家介绍。

以 只有HR及其置信区间 的数据为例：

1）首先，关于效应模型的选择。与前文类似。

2）数据录入：打开STATA软件的数据录入界面，将之前收集好的原始数据录入，如下图所示：

其中hr代表文章的风险比（HR）效应值，ll代表HR的95%可信区间的下限，ul代表HR的95%可信区间的上限。

3）数据分析及森林图绘制：

首先要计算HR和95%可信区间的对数值。因为在meta分析中，通常要求效应差异度量的对应样本统计量服从正态分布，效应指标是HR，则效应差异度量为HR的对数值。

STATA语句命令为：

等数据转换完成后，就可以进行meta分析了。STATA的实行语句为：

metan lnhr lnll lnul, eform label(namevar=study) texts(180) effect(HR)

将语句输入STATA的命令对话框，点击回车后，命令的结果会呈现如下，并自动弹出森林图。结果如图2所示：

其中eform代表结果从HR对数值返回HR值；label(namevar=study)则在表格和森林图中注明研究信息；texts(180)用于调整森林图中文字的大小。

结果显示：

Q=12.88, p =0.116>0.05, 表明研究间同质性较好，因为 p >0.1,I 2 =37.9%,故采用固定效应模型分析。最终的分析结果为 p =0.126>0.05,表明结果无有统计学意义。

弹出的森林图如图3所示：

介绍模型设定的相关内容，包括虚拟变量的使用、经济结构变动的检验、遗漏变量的检验、自变量数量的选择、极端数据的诊断与处理等方面的内容。

对于定性数据，通常并不能将其直接纳入模型中进行回归分析，因为这样的分析并不符合经济学理论，所以这时需要引入虚拟变量进行处理。一般情况下，如果分类变量总共有N类，为了避免多重共线性的出现，通常只引入N-1个虚拟变量。

regress financevalue gdp

[图片上传中...(image-20191117211705269.png-c763b3-1574492559433-0)]

在时间序列模型之中，需要十分注重模型系数的稳定性， Chow 检验提供了一个较为严谨的检验经济结构变动的方法。

检验的方法是分别进行三次回归。检验中国金融业增加值函数是否在2003 年以后发生了结构变化的操作过程如下:

遗漏变量属于解释变量选取错误的一种，因为某些数据确实难以获得，但是有时这种遗漏将会大大降低模型的精确度。假设正确模型如下所示:

如果在模型设定中遗漏了一个与被解释变量相关的变量X2 ,即所设定的模型为:

遗漏变量有3种情况：

Stata 提供了两种检验是否存在遗漏变量的方法: 一种是Link检验，另一种是Ramsey 检验。 Link 检验 的基本思想是: 如果模型的设定是正确的，那么y的拟合值的平方项将不应具有解释能力。 Ramsey 检验 的基本思想是:如果模型设定无误，那么拟合值和解释变量的高阶项都不应再有解释能力。

wage=工资(单位:元/小时) , educ=受教育年限(单位: 年) , exper=工作经验年限(单位: 年) , tenure=任职年限〈单位: 年) , lwage=工资的对数值。

分别利用Link 方法和Ramsey 方法检验模型 lwage =ß1educ +ß2exper +ß3tenure 是否遗漏了重要的解释变量。

从图7. 5 中可以看出，经过添加解释变量后的模型拟合优度有了一定程度的提高，而且通过Link 检验可以看出此时hatsq项的p 值为0. 758 ，无法拒绝hatsq系数为零的假设，说明被解释变量lwage 的拟合值的平方项不再具有解释能力，所以可以得出结论: 新模型基本没有遗漏重要的解释变量。

在图7.6 中，第1 个图表仍然是回归结果，第2 个图表是Ramsey 检验的结果，不难发现Ramsey 检验的原假设是模型不存在遗漏变量，检验的p 值为0 . 5762 ，没有拒绝原假设，即认为原模型不存在遗漏变量。

为了进一步验证添加变量是否会改变Ramsey 检验的结果，同样采取Link 检验中的方法，生成受教育年限educ 和工作经验年限exper 的平方项，重新进行回归并进行检验，命令如下:

调整之后的检验结果,可以发现此时检验的p 值为0 . 6326 ，无法拒绝原假设，即认为模型不再存在遗漏变量。

人们总是希望建立具有经济意义而又简洁的模型，在现实的经济研究过程中，通常使用信息准则来确定解释变量的个数，较为常用的信息准则有两个。

中国工资的横截面数据，变量主要包括: wage=工资(单位:元/小时) , educ=受教育年限(单位:年) , exper=工作经验年限(单位:年) , tenure=任职年限(单位:年) , lwage=工资的对数值。

AIC 值为一37.77 ， BIC 值为一24 .00 。

加入教育年限educ和工作经验年限exper的平方项，建立新模型lwage = ßo +ß1educ + ß2exper + ß3 tenure +ß4 educ2 + ß5 exper2 ，然后重新对其进行回归井计算，命令如下:

AIC 值为-39.91,BIC 值为-19.25。第2 个模型的信息准则值更小，所以此模型优于第一个模型。

在全体观测值中，会有一些样本和总体样本距离较远，这些样本在回归中可能会对斜率或者截距的估计产生较大的影响，从而使得估计值和真值的差距较大，所以在实际应用中，首先应通过 绘制散点图 的方式观测是否有极端数值的存在，如果有，应该去掉这些极端数值再进行回归分析。如果解释变量过多或者是面板数据，绘图的方式并不直观，通常使用 leverage 影响力方法 来判断该数据是否是极端数据。若数据的leverage 影响力值高于平均值，则对回归系数影响较大，这时可能会产生极端数据的影响。

以price 为因变量， mpg（每加仑油所行驶的英里数）、weight(汽车重量)和foreign(是否是进口车) 为自变量建立回归模型，找出样本数据中存在的极端数据。

建立回归模型price =ß0+ß1mpg+ ß2weight + ß3foreign ，为分析汽车数据中是否存在极端值，在Stata 中输入如下命令:

在结果中可以看到lev 的均值为0. 0541 ，而最大的lev 值为0.3001，所以该观测值有可能为极端数据，可以采取进一步的方法进行处理，从而保证模型的精确性。

处理的方法一般有两种: 一种方法为直接去掉极端值:另一种方法则选择其他更为恰当的模型进行回归分析。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/190976.html

各种数据类型meta在stata中的实现

发表评论

评论列表（0条）