摘要
一、引言
二、MG和PMG的估计原理
三、xtpmg命令在stata中的使用
(一)基本句式
(二)详细说明
四、实证操作
(一)模型设定
(二)PMG估计
(三)MG估计
(四)动态固定效应
五、结论
参考文献
近年来,与动态面板数据相关的文献开始关注截面观测数(N)和时间序列观测数(T)都较大的面板。海量数据的可获得性无疑是导致这种转变的关键因素。例如,一些跨国家或省份的数据集现在已经足够大,以至于可以分别估计每个国家(或省份)的参数。
大N大T动态面板的渐近性不同于传统的大N小T动态面板的渐近性。小T面板估计通常依赖于固定效应或随机效应估计,或固定效应估计和工具变量估计的组合,如Arellano和Bond(1991)的广义矩估计方法(GMM)。这些方法需要汇集(pool)各个组,并且只允许截距项在组间不同。然而,大N大T文献的一个中心发现是,斜率参数均匀性的假设通常是不合适的。Pesaran和Smith(1995年)、Im、Pesaran和Shin(2003年)、Pesaran、Shin和Smith(1997年、1999年)以及Phillips和Moon(2000年)提出了这一点。
随着大N大T动态面板固有的时间观测值的增加,非平稳性也受到关注。Pesaran,Shin和Smith(1997,1999)最近的论文提出了两种重要的新方法来估计非平稳动态面板:平均组(MG)和混合平均组(PMG)估计,其允许参数在不同组之间不同。MG估计值(参见Pesaran和Smith 1995)依赖于估计N个时间序列回归并平均系数,而PMG估计(参见Pesaran、Shin和Smith 1997、1999)依赖于系数的合并(pool)和平均。
在最近的实证研究中,MG和PMG估计量被应用于各种情形。例如,Freeman(2000)使用这些方法来评估1961-1995年间各州的酒精消费量。Martinez-Zarzoso和Bengochea-Morancho(2004)在1975-1998年间对22个经合组织成员国的环境库兹涅茨曲线进行了估算。Frank(2005)使用MG和PMG估计值来评估1945-2001年间美国各州收入不平等对经济增长的长期影响。
假设自回归分布滞后(ARDL)( )的动态面板模型具有如下形式:
其中横截面标记(组数)为i=1,2,…,N;时间序列标记(周期数)为t=1,2,…,T; 是解释变量,为k×1向量; 是k×1系数向量; 是标量; 是组特定效应。T必须足够大,以便模型可以分别估计每个组。模型也可以包括时间趋势和其他固定效应。
如果公式(1)中的变量是 I(1) 和协整的,那么误差项是所有 的 I(0) 过程。协整变量的一个主要特征是它们对长期均衡的任何偏离的响应。这一特征意味着在误差修正模型中,变量的短期动态变化受其偏离平衡的影响。因此,通常将公式(1)再次参数化为误差校正(Error Correction, EC)方程:
参数 是调整项的误差修正速度。如果 =0,则没有证据表明变量间存在长期关系。假设变量显示回归长期均衡的情况下,该参数预计将显著为负。特别重要的是向量 ,它包含变量之间的长期关系。
最近关于大N和大T的动态非平衡面板估计的文献提出了估计公式(2)的几种方法。在一种极端情况下,可以使用固定效应(FE)估计方法,其中每个组的时间序列数据被汇集(pool)在一起,并且只允许截距在组间不同。然而,如果斜率系数事实上不相同,那么FE方法会产生不一致且可能误导的结果。另一个极端情况下,Pesaran和Smith(1995)提出的MG估计可以分别为每组拟合,并可以计算出系数的简单算术平均值。使用这种估计方法,截距、斜率系数和误差方差都允许组间不同。
最近,Pesaran、Shin和Smith(1997、1999)提出了一个PMG估计法,它结合了合并和平均(pooling and averaging)。这种中间估计方法允许截距、短期系数和误差方差在组间不同(与MG估计法一样),但限制长期系数在组间相等(与FE估计法一样)。由于公式(2)的参数是非线性的,Pesaran、Shin和Smith(1999)提出了一种估计参数的极大似然法(Maximum likelihood method)。
将概率(likelihood)表示为每个横截面的概率(likelihood)的乘积并取对数,得到如下表达式:
xtpmg使用Stata强大的ML框架来实现PMG估计。具体来说,我们利用ml的hold选项,通过“反向替换”来最大化概率(likelihood)。从长期系数向量 的初始估计开始,可通过 对( , )的回归来估计短期系数和群组层面(group -specific)的调整项的速度。这些条件估计又被用来更新θ的估计。迭代过程一直持续直到收敛。
迭代条件似然最大化的参数估计与完全信息极大似然的参数估计是渐近一致的。但是,它们估计的协方差矩阵不同。然而,由于PMG参数的分布是已知的,我们可以获得所有估计参数的完全协方差矩阵。如Pesaran、Shin和Smith(1999)所示,协方差矩阵可以通过如下的逆矩阵求得:
MG参数只是单个系数的未加权平均值。例如,误差校正系数 的MG估计为
其方差为
其他短期系数的均值和方差也作了类似的估计。
lr(varlist) ——指定在计算长期协整向量时要包含的变量。
ec(string) ——用于指定新创建的误差更正的名称;默认值为_ _ec。
replace ——覆盖错误更正变量(如果存在)。
constraints( string ) ——指定要应用于模型的约束。此选项当前仅支持选项pmg一起使用。
noconstant ——不包含常数项。此选项不能与选项dfe一起使用。
cluster( varname ) ——指定观察值在组间是独立的,但不一定在组内。varname指定每个观察所属的组,例如,对个体进行重复观察的数据中的cluster(personid)。cluster()影响估计量的估计标准误差和方差-协方差矩阵(VCE),但不影响估计系数。
level(#) ——设置置信水平,默认是level(95)
technique(algorithm_spec) ——指定ml最大化方法。algorithm_spec是algorithm[#[algorithm[#]...]。algorithm可以是[nr|bfgs|dfp]。bhhh算法与xtpmg不兼容。technology()只能与选项pmg一起使用。
difficult ——将使用不同的步进算法在非凹区域的概率(likelihood)。
full ——指定列出所有N个横截面回归结果。默认情况下,仅列出平均系数。
model ——是要拟合的估计方法,是以下类型之一:
pmg 是默认值,并指定pmg估计。该模型限制长期系数向量在面板之间相等,同时允许组特定的短期和调整系数。
mg 指定mg估计。该模型将参数拟合为N个个体组回归的平均值。
dfe 指定了动态固定效应估计。
我们用24个OECD国家的年度总消费数据来说明xtpmg的使用。这些数据来自Pesaran、Shin和Smith(1997、1999),涵盖了1960-1993年。比利时1993年的年度观测数据不包括在估算样本中,比利时的估算期为1962-1992年,其他23个经合组织国家的估算期为1962-1993年。xtpmg要求在估计之前tsset设置数据。
假设长期消费函数为
其中,国家数i=1,2,…,N;周期数t=1,2,…,t;c是实际人均消费的对数;y是实际人均收入的对数;π是通货膨胀率。如果变量是I(1)和协整的,那么所有i的误差项都是I(0)过程。
公式(6)的ARDL(1,1,1)动态面板模型为
公式(7)的误差更正的再参数化公式是:
平差参数 和长期系数θ1i和θ2i的误差修正速度是最重要的。如果包含θ0i,则允许协整关系的非零均值。如果变量回归到长期均衡,人们会认为 为负。大多数总消费理论认为,长期收入弹性θ1i应等于1。通货膨胀效应θ2i通常被认为是负的。
首先,文章估计模型(8)的PMG估计量。在这种背景下,PMG模型考虑了异质的短期动态以及共同的长期收入和通货膨胀弹性。通常只有长期参数才有意义。pmg选项的默认结果包括长期参数估计和平均短期参数估计。
在结果中,估计的长期通胀弹性与预期一样显著为负。另外,估计的收入弹性也显著为正。理论上,收入弹性等于1。这个假设很容易验证:
相应的χ2值为121.2,可以拒绝单位收入弹性的原假设。
full选项估计并保存一个N+1多方程模型。第一个方程(按选项ec标注)表示标准化协整向量。剩下的N个方程列出了组特定的短期系数。
由于每组都有自己的估计方程,我们可以直观地预测变量。
类似地,交叉方程限制也很容易得到。
MG估计值是N个单独回归系数的未加权平均值。带有mg选项的xtpmg循环遍历样本中的所有面板,以估计(8)的参数
MG估计是一个两方程模型:标准化协整向量(EC)和短期动态系数(SR)。在比较PMG和MG估计量时,我们注意到,估计的长期收入和通货膨胀弹性在两个模型中都具有统计显著性和预期相同的符号。然而,PMG对通货膨胀弹性的估计在数量级上大于MG模型的估计(分别为-47和-35)。估计的长期收入弹性(分别为.90和.92)则正好相反。每个模型的调整估计速度意味着短期动态显著不同。
回想一下,PMG估计将所有面板的长期弹性限制为相等。当这些约束条件是真的时,这种跨国家的“加总”(pooling)产生了有效和一致的估计。然而,通常情况下,斜率相同的假设在经验上被否定。如果真实模型是异质的,则PMG估计是不一致的;MG估计在任何一种情况下都是一致的。这些模型的差异性检验是用常见的Hausman检验进行的。
计算的Hausman统计量为1.06,服从χ2(2)分布,应接受原假设。在这里我们得出结论,在原假设下(PMG和MG估计差异非系统性的),PMG估计是首选的有效估计。
动态FE估计与PMG估计一样,限制所有面板的协整向量系数相等。FE模型进一步限制了调整系数和短期系数的速度相等。带有dfe选项的xtpmg适合模型(8),同时允许面板层面的截距项。在计算标准误差时,允许使用cluster()选项进行组内相关性计算。
动态FE模型的所有系数都产生了预期的符号,事实上,它们与PMG和MG估计值相似。正如Baltagi、Griffin和Xiong(2000)所讨论的,FE模型受到误差项和滞后因变量之间内生性的联立方程偏差的影响。豪斯曼检验( Hausman test)可以很容易地用来衡量这种内生性的程度。
结果表明,在该样本数据下,联立方程偏差是最小的。在这个例子中,我们得出结论,FE模型优于MG模型。
本文介绍了Pesaran和Smith(1995)以及Pesaran,Shin和Smith(1997;1999)在估算具有大N大T的非平稳非平衡面板方面的最新进展。我们提供了一个新的Stata命令xtpmg,该命令估计了三种可供选择的模型:一个依赖于横截面合并(pooling)的传统动态FE估算,依赖于横截面平均值的MG估计和依赖于系数合并(pooling)和平均的PMG估计。
Blackburne III, E. F., &Frank, M. W. (2007). Estimation of nonstationary heterogeneous panels. The Stata Journal, 7(2), 197-208. 点击链接可在线阅读原文<https://maiimg.com/pdf/?e=agFqt4MbrUBcwm>
Arellano, M., and S. Bond. 1991. Some tests of specification for panel data: Monte Carlo evidence and an application to employment equations. Review of Economic Studies 58: 277–297.
Baltagi, B. H. 2001. Econometric Analysis of Panel Data. 2nd ed. New York: Wiley.
Baltagi, B. H., J. M. Griffin, and W. Xiong. 2000. To pool or not to pool: Homogeneous versus heterogeneous estimators applied to cigarette demand. Review of Economics and Statistics 82: 117–126.
Baum, C. F., M. E. Schaffer, and S. Stillman. 2003. Instrumental variables and GMM: Estimation and testing. Stata Journal 3: 1–31.
Frank, M. W. 2005. Income inequality and economic growth in the U.S.: A panel cointegration approach. Sam Houston State University Working Paper 05-03.
Freeman, D. G. 2000. Alternative panel estimates of alcohol demand, taxation, and the business cycle. Southern Economic Journal 67: 325–344.
Im, K. S., M. H. Pesaran, and Y. Shin. 2003. Testing for unit roots in heterogeneous panels. Journal of Econometrics 115: 53–74.
Martinez-Zarzoso, I., and A. Bengochea-Morancho. 2004. Pooled mean group estimation of an environmental kuznets curve for CO 2 . Economics Letters 82: 121–126.
Pesaran, M. H., Y. Shin, and R. P. Smith. 1997. Estimating long-run relationships in dynamic heterogeneous panels. DAE Working Papers Amalgamated Series 9721.
———. 1999. Pooled mean group estimation of dynamic heterogeneous panels. Journal of the American Statistical Association 94: 621–634.
Pesaran, M. H., and R. P. Smith. 1995. Estimating long-run relationships from dynamic heterogeneous panels. Journal of Econometrics 68: 79–113.
Phillips, P. C. B., and H. R. Moon. 2000. Nonstationary panel data analysis: An overview of some recent developments. Econometric Reviews 19: 263–286.
stata命令大全********* 面板数据计量分析与软件实现 *********
说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。
*----------面板数据模型
* 1.静态面板模型:FE 和RE
* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)
* 3.异方差、序列相关和截面相关检验
* 4.动态面板模型(DID-GMM,SYS-GMM)
* 5.面板随机前沿模型
* 6.面板协整分析(FMOLS,DOLS)
*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)
***
说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers
Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型
*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------
* -------- 一、常用的数据处理与作图 -----------
* ---------------------------------
* 指定面板格式
xtset id year (id为截面名称,year为时间名称)
xtdes /*数据特征*/
xtsum logy h /*数据统计特征*/
sum logy h /*数据统计特征*/
*添加标签或更改变量名
label var h "人力资本"
rename h hum
*排序
sort id year /*是以STATA面板数据格式出现*/
sort year id /*是以DEA格式出现*/
*删除个别年份或省份
drop if year<1992
drop if id==2 /*注意用==*/
*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)
egen year_new=group(year)
xtset id year_new
**保留变量或保留观测值
keep inv /*删除变量*/
**或
keep if year==2000
**排序
sort id year /*是以STATA面板数据格式出现
sort year id /*是以DEA格式出现
**长数据和宽数据的转换
*长>>>宽数据
reshape wide logy,i(id) j(year)
*宽>>>长数据
reshape logy,i(id) j(year)
**追加数据(用于面板数据和时间序列)
xtset id year
*或者
xtdes
tsappend,add(5) /表示在每个省份再追加5年,用于面板数据/
tsset
*或者
tsdes
.tsappend,add(8) /表示追加8年,用于时间序列/
*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)
bysort year:corr Y X Z,cov
**生产虚拟变量
*生成年份虚拟变量
tab year,gen(yr)
*生成省份虚拟变量
tab id,gen(dum)
**生成滞后项和差分项
xtset id year
gen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/
gen ylag2=L2.y
gen dy=D.y /*产生差分项*/
*求出各省2000年以前的open inv的平均增长率
collapse (mean) open inv if year<2000,by(id)
变量排序,当变量太多,按规律排列。可用命令
aorder
或者
order fdi open insti
*-----------------
* 二、静态面板模型
*-----------------
*--------- 简介 -----------
* 面板数据的结构(兼具截面资料和时间序列资料的特征)
use product.dta, clear
browse
xtset id year
xtdes
* ---------------------------------
* -------- 固定效应模型 -----------
* ---------------------------------
* 实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量,
* 使得每个截面都有自己的截距项,
* 截距项的不同反映了个体的某些不随时间改变的特征
*
* 例如: lny = a_i + b1*lnK + b2*lnL + e_it
* 考虑中国29个省份的C-D生产函数
*******-------画图------*
*散点图+线性拟合直线
twoway (scatter logy h) (lfit logy h)
*散点图+二次拟合曲线
twoway (scatter logy h) (qfit logy h)
*散点图+线性拟合直线+置信区间
twoway (scatter logy h) (lfit logy h) (lfitci logy h)
*按不同个体画出散点图和拟合线,可以以做出fe vs re的初判断*
twoway (scatter logy h if id<4) (lfit logy h if id<4) (lfit logy h if
id==1) (lfit logy h if id==2) (lfit logy h if id==3)
*按不同个体画散点图,so beautiful!!!*
graph twoway scatter logy h if id==1 || scatter logy h if id==2,msymbol(Sh)
|| scatter logy h if id==3,msymbol(T) || scatter logy h if id==4,msymbol(d) || ,
legend(position(11) ring(0) label(1 "北京") label(2 "天津") label(3 "河北") label(4
"山西"))
**每个省份logy与h的散点图,并将各个图形合并
twoway scatter logy h,by(id) ylabel(,format(%3.0f))
xlabel(,format(%3.0f))
*每个个体的时间趋势图*
xtline h if id<11,overlay legend(on)
* 一个例子:中国29个省份的C-D生产函数的估计
tab id, gen(dum)
list
* 回归分析
reg logy logk logl dum*,
est store m_ols
xtreg logy logk logl, fe
est store m_fe
est table m_ols m_fe, b(%6.3f) star(0.1 0.05 0.01)
* Wald 检验
test logk=logl=0
test logk=logl
* stata的估计方法解析
* 目的:如果截面的个数非常多,那么采用虚拟变量的方式运算量过大
* 因此,要寻求合理的方式去除掉个体效应
* 因为,我们关注的是 x 的系数,而非每个截面的截距项
* 处理方法:
*
* y_it = u_i + x_it*b + e_it (1)
* ym_i = u_i + xm_i*b + em_i (2) 组内平均
* ym = um + xm*b + em (3) 样本平均
* (1) - (2), 可得:
* (y_it - ym_i) = (x_it - xm_i)*b + (e_it - em_i) (4) /*within estimator*/ *
(4)+(3), 可得:
* (y_it-ym_i+ym) = um + (x_it-xm_i+xm)*b + (e_it-em_i+em)
* 可重新表示为:
* Y_it = a_0 + X_it*b + E_it
* 对该模型执行 OLS 估计,即可得到 b 的无偏估计量
**stata后台操作,揭开fe估计的神秘面纱!!!
egen y_meanw = mean(logy), by(id) /*个体内部平均*/
egen y_mean = mean(logy) /*样本平均*/
egen k_meanw = mean(logk), by(id)
egen k_mean = mean(logk)
egen l_meanw = mean(logl), by(id)
egen l_mean = mean(logl)
gen dyw = logy - y_meanw
gen dkw = logk - k_meanw
gen dlw=logl-l_meanw
reg dyw dkw dlw,nocons
est store m_stata
gen dy = logy - y_meanw + y_mean
gen dk = logk - k_meanw +k_mean
gen dl=logl-l_meanw+l_mean
reg dy dk dl
est store m_stata
est table m_*, b(%6.3f) star(0.1 0.05 0.01)
* 解读 xtreg,fe 的估计结果
xtreg logy h inv gov open,fe
*-- R^2
* y_it = a_0 + x_it*b_o + e_it (1) pooled OLS
* y_it = u_i + x_it*b_w + e_it (2) within estimator
* ym_i = a_0 + xm_i*b_b + em_i (3) between estimator
*
* -->R-sq: within 模型(2)对应的R2,是一个真正意义上的R2
* -->R-sq: between corr{xm_i*b_w,ym_i}^2
* -->R-sq: overall corr{x_it*b_w,y_it}^2
*
*-- F(4,373) = 855.93检验除常数项外其他解释变量的联合显著性
*
*
*-- corr(u_i, Xb) = -0.2347
*
*-- sigma_u, sigma_e, rho
* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)
dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)
*
* 个体效应是否显著?
* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29
* Prob >F = 0.0000 表明,固定效应高度显著
*---如何得到调整后的 R2,即 adj-R2 ?
ereturn list
reg logy h inv gov open dum*
*---拟合值和残差
* y_it = u_i + x_it*b + e_it
* predict newvar, [option]
/*
xb xb, fitted valuesthe default
stdp calculate standard error of the fitted values
ue u_i + e_it, the combined residual
xbu xb + u_i, prediction including effect
u u_i, the fixed- or random-error component
e e_it, the overall error component */
xtreg logy logk logl, fe
predict y_hat
predict a , u
predict res,e
predict cres, ue
gen ares = a + res
list ares cres in 1/10
* ---------------------------------
* ---------- 随机效应模型 ---------
* ---------------------------------
* y_it = x_it*b + (a_i + u_it)
* = x_it*b + v_it
* 基本思想:将随机干扰项分成两种
* 一种是不随时间改变的,即个体效应 a_i
* 另一种是随时间改变的,即通常意义上的干扰项 u_it
* 估计方法:FGLS
* Var(v_it) = sigma_a^2 + sigma_u^2
* Cov(v_it,v_is) = sigma_a^2
* Cov(v_it,v_js) = 0
* 利用Pooled OLS,Within Estimator, Between Estimator
* 可以估计出sigma_a^2和sigma_u^2,进而采用GLS或FGLS
* Re估计量是Fe估计量和Be估计量的加权平均
* yr_it = y_it - theta*ym_i
* xr_it = x_it - theta*xm_i
* theta = 1 - sigma_u / sqrt[(T*sigma_a^2 + sigma_u^2)]
* 解读 xtreg,re 的估计结果
use product.dta, clear
xtreg logy logk logl, re
*-- R2
* -->R-sq: within corr{(x_it-xm_i)*b_r, y_it-ym_i}^2
* -->R-sq: between corr{xm_i*b_r,ym_i}^2
* -->R-sq: overall corr{x_it*b_r,y_it}^2
* 上述R2都不是真正意义上的R2,因为Re模型采用的是GLS估计。
*
* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)
dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)
*
* corr(u_i, X) = 0 (assumed)
* 这是随机效应模型的一个最重要,也限制该模型应用的一个重要假设
* 然而,采用固定效应模型,我们可以粗略估计出corr(u_i, X)
xtreg market invest stock, fe
*
* Wald chi2(2) = 10962.50 Prob>chi2 = 0.0000
*-------- 时间效应、模型的筛选和常见问题
*---------目录--------
* 7.2.1 时间效应(双向固定(随机)效应模型)
* 7.2.2 模型的筛选
* 7.2.3 面板数据常见问题
* 7.2.4 面板数据的转换
* ----------------------------------
* ------------时间效应--------------
* ----------------------------------
* 单向固定效应模型
* y_it = u_i + x_it*b + e_it
* 双向固定效应模型
* y_it = u_i + f_t + x_it*b + e_it
qui tab year, gen(yr)
drop yr1
xtreg logy logk logl yr*, fe
* 随机效应模型中的时间效应
xtreg logy logk logl yr*, fe
* ---------------------------------
* ----------- 模型的筛选 ----------
* ---------------------------------
* 固定效应模型还是Pooled OLS?
xtreg logy logk logl yr*, fe /*Wald 检验*/
qui tab id, gen(dum) /*LR检验*/
reg logy logk logl /*POLS*/
est store m_ols
reg logy logk logl dum*,nocons
est store m_fe
lrtest m_ols m_fe
est table m_*, b(%6.3f) star(0.1 0.05 0.01)
* RE vs Pooled OLS?
* H0: Var(u) = 0
* 方法一:B-P 检验
xtreg logy logk logl, re
xttest0
* FE vs RE?
* y_it = u_i + x_it*b + e_it
*--- Hausman 检验 ---
* 基本思想:如果 Corr(u_i,x_it) = 0, Fe 和 Re 都是一致的,但Re更有效
* 如果 Corr(u_i,x_it)!= 0, Fe 仍然有效,但Re是有偏的
* 基本步骤
***情形1:huasman为正数
xtreg logy logk logl, fe
est store m_fe
xtreg logy logk logl, re
est store m_re
hausman m_fe m_re
*** 情形2:
qui xtreg logy h inv gov open,fe
est store fe
qui xtreg logy h inv gov open,re
est store re
hausman fe re
* Hausman 检验值为负怎么办?
* 通常是因为RE模型的基本假设 Corr(x,u_i)=0 无法得到满足
* 检验过程中两个模型的方差-协方差矩阵都采用Fe模型的
hausman fe re, sigmaless
* 两个模型的方差-协方差矩阵都采用Re模型的
hausman fe re, sigmamore
*== 为何有些变量会被drop掉?
use nlswork.dta, clear
tsset idcode year
xtreg ln_wage hours tenure ttl_exp, fe /*正常执行*/
* 产生种族虚拟变量
tab race, gen(dum_race)
xtreg ln_wage hours tenure ttl_exp dum_race2 dum_race3, fe
* 为何 dum_race2 和 dum_race3 会被 dropped ?
* 固定效应模型的设定:y_it = u_i + x_it*b + e_it (1)
* 由于个体效应 u_i 不随时间改变,
* 因此若 x_it 包含了任何不随时间改变的变量,
* 都会与 u_i 构成多重共线性,Stata会自动删除之。
*******异方差、序列相关和截面相关问题
* ---------------- 简 介 -------------
* y_it = x_it*b + u_i + e_it
*
* 由于面板数据同时兼顾了截面数据和时间序列的特征,
* 所以异方差和序列相关必然会存在于面板数据中;
* 同时,由于面板数据中每个截面(公司、个人、国家、地区)之间还可能存在内在的联系, * 所以,截面相关性也是一个需要考虑的问题。
*
* 此前的分析依赖三个假设条件:
* (1) Var[e_it] = sigma^2 同方差假设
* (2) Corr[e_it, e_it-s] = 0 序列无关假设
* (3) Corr[e_it, e_jt] = 0 截面不相关假设
*
* 当这三个假设无法得到满足时,便分别出现 异方差、序列相关和截面相关问题; * 我们一方面要采用各种方法来检验这些假设是否得到了满足;
* 另一方面,也要在这些假设无法满足时寻求合理的估计方法。
* ---------------- 假设检验 -------------
*== 组间异方差检验(截面数据的特征)
* Var(e_i) = sigma_i^2
* Fe 模型
xtreg logy logk logl, fe
xttest3
* Re 模型
* Re本身已经较大程度的考虑了异方差问题,主要体现在sigma_u^2上
*== 序列相关检验
* Fe 模型
* xtserial Wooldridge(2002),若无序列相关,则一阶差分后残差相关系数应为-0.5
xtserial logy logk logl
xtserial logy logk logl, output
* Re 模型
xtreg logy logk logl, re
xttest1 /*提供多个统计检验量*/
*== 截面相关检验
* xttest2命令 H0: 所有截面残差的相关系数都相等
xtreg logy logk logl, fe
xttest2
* 由于检验过程中执行了SUE估计,所以要求T>N
xtreg logy logk logl if id<6, fe
xttest2
* xtcsd 命令(提供了三种检验方法)
xtreg logy logk logl, fe
xtcsd , pesaran /*Pesaran(2004)*/
xtcsd , friedman /*Friedman(1937)*/
xtreg logy logk logl, re
xtcsd , pesaran
* ----------------- 估计方法 ---------------------
*== 异方差稳健型估计
xtreg logy h inv gov open, fe robust
est store fe_rb
xtreg logy h inv gov open, fe robust
est store fe
* 结果对比
esttab fe_rb fe, b(%6.3f) se(%6.3f) mtitle(fe_rb fe)
*== 序列相关估计
* 一阶自相关 xtregar, fe/re
* 模型: y_it = u_i + x_it*b + v_it (1)
* v_it = rho*v_it-1 + z_it (2)
xtregar logy h inv gov open, fe
est store fe_ar1
xtregar logy h inv gov open,fe lbi /*Baltagi-Wu LBI test*/
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)