如何绘制和sem图像相似的图_服务器知识

绘制和sem图像相似图形方法如下：

能画出结构方程模型图的软件有很多，比如Amos和SmartPLS，这两个软件在可视化方面做的非常好，Mplus和前两个软件有所不同，它是通过语法输入，从diagrammer生成图形，而Amos和SmartPLS是用户直接绘制图形。

R语言也可以绘制结构方程模型图，其优势在于用户可以对SEM图中的变量、线条、形状和颜色进行DIY。本文使用semPlot包中的semPaths函数进行模型图的绘制。

R的功能很强大，各种包很多。但就是因为包太多，造成了很大的麻烦。不可避免的，可以做结构方程模型的包也不少，例如：sem、psych、OpenMx，lavaan等。我选择了lavaan包。原因：语法简介易懂，上手快，支持非正态、连续数据，可以处理缺失值。

lavaan包是由比利时根特大学的Yves Rosseel开发的。lavaan的命名来自于 latent variable analysis，由每个单词的前两个字母组成，la-va-an——lavaan。

为什么说它简单呢? 主要是因为它的lavaan model syntax，如果你会R的回归分析，那它对你来说再简单不过了。

一、语法简介

语法一：f3~f1+f2（路径模型）

结构方程模型的路径部分可以看作是一个回归方程。而在R中，回归方程可以表示为y~ax1+bx2+c，“~”的左边的因变量，右边是自变量，“+”把多个自变量组合在一起。那么把y看作是内生潜变量，把x看作是外生潜变量，略去截距，就构成了lavaan model syntax的语法一。

语法二：f1 =~ item1 + item2 + item3（测量模型）

"=~"的左边是潜变量，右边是观测变量，整句理解为潜变量f1由观测变量item1、item2和item3表现。

语法三：item1 ~~ item1 , item1 ~~ item2

"~~"的两边相同，表示该变量的方差，不同的话表示两者的协方差

语法四：f1 ~ 1

表示截距

此外还有其它高阶的语法，详见lavaan的help文档，一般的结构方程建模分析用不到，就不再列出。

二、模型的三种表示方法

以验证性因子分析举例说明，对于如下图所示的模型：

方法一：最简化描述

只需指定最基本的要素即可，其他的由函数自动实现，对模型的控制力度最弱。只使用于函数cfa()和sem()

model<-'visual=~x1+x2+x3 textual=~x4+x5+x6 speed=~x7+x8+x9' fit <- cfa(model, data = HolzingerSwineford1939)

需要注意的是，这种指定模型的方式在进行拟合时，会默认指定潜变量的第一个测量变量的因子载荷为1，如果要指定潜变量的方差为1，可以：

model.bis <- 'visual =~ NA*x1 + x2 + x3 textual =~ NA*x4 + x5 + x6 speed =~ NA*x7 + x8 + x9 visual ~~ 1*visual textual ~~ 1*textual speed ~~ 1*speed'

方法二：完全描述

需要指定所有的要素，对模型控制力最强，适用于lavaan()函数，适合高阶使用者

model.full<- ' visual =~ 1*x1 + x2 +x3 textual =~ 1*x4 + x5 + x6 speed =~ 1*x7 + x8 +x9 x1 ~~ x1 x2 ~~ x2 x3 ~~ x3 x4 ~~ x4 x5 ~~ x5 x6 ~~ x6 x7 ~~ x7 x8 ~~ x8 x9 ~~ x9 visual ~~ visual textual ~~ textual speed ~~ speed visual ~~ textual +speed textual ~~ speed' fit <- lavaan(model.full, data = HolzingerSwineford1939)

方法三：不完全描述

最简化和完全描述的混合版，在拟合时增加 auto.* 参数，适用于lavaan()函数

model.mixed<- '# latent variables visual =~ 1*x1 + x2 +x3 textual =~ 1*x4 + x5 + x6 speed =~ 1*x7 + x8 +x9 # factor covariances visual ~~ textual + speed textual ~~ speed' fit <- lavaan(model.mixed, data = HolzingerSwineford1939, auto.var = TRUE)

可以设定的参数详见help帮助文档

PS:可以在lavaan()函数里设置参数mimic="Mplus"获得与Mplus在数值和外观上相似的结果，设置mimic="EQS",输出与EQS在数值上相似的结果

三、拟合结果的查看

查看拟合结果的最简单方法是用summary()函数，例如

summary(fit, fit.measures=TRUE)

但summary()只适合展示结果，parameterEstimates()会返回一个数据框，方便进一步的处理

parameterEstimates(fit,ci=FALSE,standardized = TRUE)

获得大于10的修正指数

MI<- modificationindices(fit) subset(MI,mi>10)

此外，还有其他的展示拟合结果的函数，功能还是蛮强大的

四、结构方程模型

（1）设定模型

model<- ' # measurement model ind60 =~ x1 + x2 +x3 dem60 =~ y1 + y2 + y3 + y4 dem65 =~ y5 + y6 + y7 + y8 # regressions dem60 ~ ind60 dem65 ~ ind60 + dem60 # redisual covariances y1 ~~ y5 y2 ~~ y4 +y6 y3 ~~ y7 y4 ~~ y8 y6 ~~ y8'

（2）模型拟合

fit <- sem(model, data = PoliticalDemocracy) summary(fit, standardized = TRUE)

（3）给回归系数设置标签

给回归系数设定标签在做有约束条件的结构方程模型时会很有用。当两个参数具有相同的标签时，会被视为同一个，只计算一次。

model.equal <- '# measurement model ind60 =~ x1 + x2 + x3 + dem60 =~ y1 + d1*y2 + d2*y3 + d3*y4 dem65 =~ y5 + d1*y6 + d2*y7 + d3*y8 # regressions dem60 ~ ind60 dem65 ~ ind60 + dem60 # residual covariances y1 ~~ y5 y2 ~~ y4 + y6 y3 ~~ y7 y4 ~~ y8 y6 ~~ y8'

（4）多组比较

anova(fit, fit.equal)

anova()会计算出卡方差异检验

（5）拟合系数

lavaan包可以高度定制化的计算出你想要的拟合指标值，例如，我想计算出卡方、自由度、p值、CFI、NFI、IFI、RMSEA、EVCI的值

fitMeasures(fit,c("chisq","df","pvalue","cfi","nfi","ifi","rmsea","EVCI"))

（6）多组结构方程

在拟合函数里面设置 group参数即可实现，同样的可以设置group.equal参数引入等式限制

五、作图

Amos以作图化操作见长，目前版本的Mplus也可以实现作图，那R语言呢，自然也是可以的，只不过是另一个包——semPlot，其中的semPaths()函数。

简单介绍一下semPaths()中的主要函数

semPaths(object, what = "paths", whatLabels, layout = "tree", ……）

（1）object：是拟合的对象，就是上文中的“fit”

（2）what：设定图中线的属性，默认为paths,图中所有的线都为灰色，不显示参数估计值；

semPaths(fit)

若what设定为est、par，则展示估计值，并将线的颜色、粗细、透明度根据参数估计值的大小和显著性做出改变

semPaths(fit,what = "est")

若设置为stand、std，则展示标准参数估计

semPaths(fit,what = "stand")

若设置为eq、cons，则与默认path相同，如果有限制等式，被限制的相同参数会打上相同的颜色；

（3）whatLabels：设定图中线的标签

name、label、path、diagram:将边名作为展示的标签

est、par:参数估计值作为边的标签

stand、std:标准参数估计值作为边的标签

eq、cons：参数号作为标签，0表示固定参数，被限制相同的参数编号相同

no、omit、hide、invisible：隐藏标签

（4）layout:布局

主要有树状和环状两种布局，每种布局又分别有两种风格。

默认为“tree”,树状的第二种风格如下图，比第一种看起来舒服都了

semPaths(fit,layout = "tree2")

第一种环状

semPaths(fit,layout = "circle")

额，都揉成一团了！

试试第二种风格

semPaths(fit,layout = "circle2")

还好一点。如果把Rstudio默认的图片尺寸设计好，作图效果会更棒。

还有一种叫spring的布局，春OR泉？

semPaths(fit,layout = "spring")

看起来跟环状的很像。

详细内容可以阅读以下文献，以及相应的help文档：

[1]Rosseel Y. lavaan: An R package for structural equation modeling[J]. Journal of Statistical Software, 2012, 48(2): 1-36.

第一步：获取要绘图的整洁数据（涉及到数据整洁和操作的知识）

第二步：整洁数据做映射操作，确定x,y,color,size,shape,alpha等

第三步：选择合适的几何对象（根据画图的目的、变量的类型和个数）

第四步：坐标系和刻度配置

第五步：标签信息和图例信息

第六步：选择合适的主题

ggplot2的语法包括10个部件。

数据（data）

映射（mapping）

几何对象（geom）

标度（scale）

统计变换（stats）

坐标系（coord）

位置调整（Position adjustments）

分面（facet）

主题（theme）

输出（output）

前3个是必须的，其它部件ggplot2会自动配置，也可以手动配置

ggplot2基本绘图模板：

注意：

1）添加图层的加号（+）只能放在行末尾

2）红色方框里面mapping是全局域，绿色方框里面mapping是局部域，执行先后顺序，先局部域，后全局域

ggplot2画图必要部件-数据，映射和几何对象

2.1 数据

数据（Data）用于画图的整洁数据

library(tidyverse

ggplot()先只提供数据，创建一个空图形。

# ggplot()先提供整洁数据，生成一个空图形

2映射

映射，把数据变量集与图形属性库建立关联。

最常用的映射有：

x：x轴

y：y轴

color：颜色

size：大小

shape：形状

fill：填充

alpha：透明度

以mpg数据集为例，把变量displ和hwy分别映射到x和y，变量drv映射到color，此时图形就有了坐标轴和网格线，color需要在有了几何对象后才能体现出来。

# 映射操作

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy, color = drv))

2.3 几何对象

几何对象是表达数据的视觉对象

不同类型的几何对象是从不同的角度表达数据。

pgglot2提供了50多种“几何对象”，均以geom_xxxx()的方式命名，常用的有：

几何对象很简单，只需要添加图层即可。

例如，以mpg数据集为例，画散点图。

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy,

color = drv)) +

geom_point()层依次叠加，在上图的基础上，再添加一个几何对象：光滑曲线。

#继续增加一个几何对象：光滑曲线

# 写法1

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy,

color = drv)) +

geom_point() +

geom_smooth(se=FALSE)

# 写法2

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +

geom_point(aes(color = drv)) +

geom_smooth(se=FALSE)

思考题：

1）写法1和写法2的差异？（全局域和局部域的使用差异）

2）写法2若是要实现写法1的功能，怎么编写代码？

标度

ggplot2会自动根据输入变量选择最优的坐标刻度方法，若要手动设置或调整，就需要使用标度函数。

标度函数用来控制几何对象中的标度映射（x轴，y轴或者由color，fill，shape，size产生的图例）。

ggplot2提供丰富的标度函数，常用的有：

拓展功能：scales包提供很多设置刻度标签风格的函数，比如百分数、科学计数法法、美元格式等。

3.1 修改坐标轴刻度及标签

连续变量使用scale_*_continuous()函数，参数breaks设置各个刻度的位置，参数labels设置各个刻度对应的标签。

离散变量使用scale_*_discrete()函数，修改离散变量坐标轴的标签。

时间变量使用scale_x_date()函数设置日期刻度，参数date_breaks设置刻度间隔，date_labels设置标签的日期格式

以mpg数据集为例，修改连续变量坐标轴刻度及标签。

# scale_y_continuous函数

# 对比分析和观察

# 图1

ggplot(mpg, aes(displ, hwy)) +

geom_point()

# 图2

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

scale_y_continuous(breaks = seq(15, 40, by = 10))

# 图3

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

scale_y_continuous(breaks = seq(15, 40, by = 10),

labels = c(" 一五 "," 二五 "," 三五 "))

以mpg数据集为例，修改离散变量的标签

# scale_x_discrete函数

# 对比分析和观察

# 图1

ggplot(mpg, aes(x = drv)) +

geom_bar()

# 图2

ggplot(mpg, aes(x = drv)) +

geom_bar() +

scale_x_discrete(labels = c("4" = " 四驱 ", "f" = " 前驱 ",

"r" = " 后驱 "))

以ggplot2自带的economics数据集为例，修改日期变量。

# scale_x_date函数

# 以ggplot2自带的economics为例

economics %>% glimpse()

# 图1

ggplot(tail(economics, 45), aes(date, uempmed / 100)) +

geom_line()

# 图2

ggplot(tail(economics, 45), aes(date, uempmed / 100)) +

geom_line() +

scale_x_date(date_breaks = "6 months", date_labels = "%Y-%b") +

scale_y_continuous(labels = scales::percent)

3.2 修改坐标轴标签、图例名及图例位置

用labs()函数参数x，y或者xlab()，ylab()，设置x轴，y轴标签。

若用参数color生成了图例，可以在labs()函数用参数color修改图例名。

用theme图层的参数legend.position设置图例的位置。

以mpg数据为例。

# 修改坐标轴标签，图例名和图例位置

mpg

# 图1

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

labs(x = " 引擎大小 (L)", y = " 高速燃油率 (mpg)",

color = " 驱动类型 ") +

theme(legend.position = "top")

# 图2

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlab(" 引擎大小 (L)") +

ylab(" 高速燃油率 (mpg)") +

labs(color = " 驱动类型 ") +

theme(legend.position = "top")

# 图3 不需要图例

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlab(" 引擎大小 (L)") +

ylab(" 高速燃油率 (mpg)") +

theme(legend.position = "none")

3.3 设置坐标轴的范围

用coord_cartesian()函数参数xlim和ylim，或者用xlim()，ylim()设置x轴和y轴的范围。

以mpg数据集为例。

# 修改坐标轴的范围

# 图1 coord_cartesian()的参数xlim和ylim

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))

# 图2 xlim()和ylim()函数

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlim(5, 7) +

ylim(10, 30)

3.4 变换坐标轴

用scale_x_log10()函数变换坐标系，可以保持原始数据的坐标刻度。

# 修改坐标轴的范围

# 图1 coord_cartesian()的参数xlim和ylim

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))

# 图2 xlim()和ylim()函数

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlim(5, 7) +

ylim(10, 30)

3.5 设置图形标题

用labs()函数设置图形标题。

参数title 设置正标题

参数subtitle 设置副标题

参数caption 设置脚注标题（默认右下角）

# 设置标题

# mpg数据集为例

p <- ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

geom_smooth(se = FALSE) +

labs(title = " 燃油效率与引擎大小的关系图 ",

subtitle = " 两座车 ( 跑车 ) 因重量小而符合预期 ",

caption = " 数据来自 fueleconomy.gov")

标题若要居中，采用theme图层设置。

p + theme(plot.title = element_text(hjust = 0.5),

plot.subtitle = element_text(hjust = 0.5))

3.6 设置color、fill颜色

数据的某个维度信息可以通过颜色来表示。

可以直接使用颜色值，建议使用RColorBrewer（调色板）或者colorspace包。

1）连续变量

- 用scale_color_gradient()设置二色渐变色。

# 连续变量

# 图1 scale_color_gradient()函数

ggplot(mpg, aes(displ, hwy, color = hwy)) +

geom_point() +

scale_color_gradient(low = "green", high = "red")

- 用scale_color_distiller()设置调色板中的颜色

# 图2 scale_color_distiller()函数

ggplot(mpg, aes(displ, hwy, color = hwy)) +

geom_point() +

scale_color_distiller(palette = "Set1")

2）离散变量

- 用scale_color_manual()手动设置颜色，还可以修改图例及其标签信息

# 离散变量

# 图1 scale_color_manual()函数

ggplot(mpg, aes(displ, hwy, color = drv)) +

geom_point() +

scale_color_manual(" 驱动方式 ",

values = c("red", "blue", "green"),

breaks = c("4", "f", "r"))

ggplot(mpg, aes(displ, hwy, color = drv)) +

geom_point() +

scale_color_manual(" 驱动方式 ",

values = c("red", "blue", "green"),

labels = c(" 四驱 ", " 前驱 ", " 后驱 "))

-用scale_fill_brewer()调用调色板中的颜色

# 图2 scale_fill_brewer()函数

ggplot(mpg, aes(x = class, fill = class)) +

geom_bar() +

scale_fill_brewer(palette = "Dark2")

.7 添加文字标注

ggrepel包提供了geom_label_repel()函数或者geom_text_repel()函数，为图形添加文字标注。

操作步骤：

第一步：先准备好标记点的数据

第二步：增加文字标注图层，包括标记点的数据和标注的文字给label参数

# 设置文字标注信息

library(ggrepel)

# 选取每种车型 hwy 值最大的样本

best_in_class <- mpg %>%

group_by(class) %>%

slice_max(hwy, n = 1)

best_in_class %>% select(class, model, hwy)

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = class)) +

geom_label_repel(data = best_in_class,

aes(label = model))

计变换、坐标系和位置调整

.1 统计变换

统计变换是构建新的统计量而画图。

例如，条形图或直方图，是对数据分组的频数做画图；平滑曲线是对数据拟合模型的预测值画图。

gplot2可以把统计变换直接融入画图中，不必先在对数据做统计变换后再画图。

gplot2提供30多种统计，均以stats_xxx()的方式命名。

1）可在几何对象中直接使用的统计变换，直接使用几何对象就可以了。

能在几何对象创建的，而需要单独使用。

mpg数据集为例。

stat_summary()做统计绘图并汇总。

# 图1 stat_summary()做统计绘图并汇总

p <- ggplot(mpg, aes(x = class, y = hwy)) +

geom_violin(trim = FALSE, alpha = 0.5, color = "green")

p + stat_summary(fun = mean,

fun.min = function (x) {mean(x) - sd(x)},

fun.max = function (x) {mean(x) + sd(x)},

geom = "pointrange",

color = "red")

tat_smooth()添加光滑曲线，与geom_smooth()相同。

参数method设置平滑曲线的拟合方法，如lm线性回归、glm广义线性回归、loess多项式回归、gam广义加法模型(mgcv包)、rlm稳健回归(MASS包)等。

参数formula指定平滑曲线方程，如y ~ x, y ~ poly(x, 2)， y ~ log(x)等。

参数se设置是否绘制置信区间。

# 图2 stat_smooth()添加平滑曲线

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

stat_smooth(method = "lm",

formula = y ~ splines::bs(x, 3),

se = FALSE)

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

geom_smooth(method = "lm",

formula = y ~ splines::bs(x, 3),

se = FALSE)

4.2 坐标系

ggplot2默认是直角坐标系。

- coord_cartesian()

常用的其它坐标系：

以mpg数据集为例，坐标轴翻转。

# 图1 坐标轴翻转coord_flip()

p <- ggplot(mpg, aes(class, hwy)) +

geom_boxplot()

p + coord_flip()

直角坐标下条形图转换为极坐标下玫瑰图。

# 图2 直角坐标条形图-->极坐标玫瑰图

p <- ggplot(mpg, aes(class, fill = drv)) +

geom_bar()

p + coord_polar()

4.3 位置调整

条形图的位置调整

# 图1：条形图条形位置调整

ggplot(mpg, aes(class, fill = drv)) +

geom_bar()

ggplot(mpg, aes(class, fill = drv)) +

geom_bar(position = "dodge")

ggplot(mpg, aes(class, fill = drv)) +

geom_bar(position = position_dodge(preserve = "single"))

散点图的散点位置调整

# 图1：散点图的散点位置调整

ggplot(mpg, aes(displ, hwy)) +

geom_point()

ggplot(mpg, aes(displ, hwy)) +

geom_point(position = "jitter")

用patchwork包排布多个图形

library(patchwork)

p1 <- ggplot(mpg, aes(displ, hwy)) +

geom_point()

p2 <- ggplot(mpg, aes(drv, displ)) +

geom_boxplot()

p3 <- ggplot(mpg, aes(drv)) +

geom_bar()

p1 | (p2 / p3)

p1 | p2 | p3

p1 / p2 / p3

p1 / (p2 | p3)

分面

利用分类变量把图形分成若干“子图”（面），实际上就是对数据分组后再画图，属于数据分析里面细分和下钻的思想。

5.1 用facet_wrap()函数

封装分面，先生成一维的面板系列，再封装到二维中。

语法形式：~ 分类变量或者 ~ 分类变量1 + 分类变量2

参数scales设置是否共用坐标刻度，fixed 默认共用， free 不共用，还可以额通过free_x，free_y单独设置。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/477550.html

如何绘制和sem图像相似的图

发表评论

评论列表（0条）