LDA Effect Size (LEfSe) Analysis(LEfSe丰度差异分析)

LDA Effect Size (LEfSe) Analysis(LEfSe丰度差异分析),第1张

LEfSe[1]是一种用于发现高维生物标识和揭示基因组特征的软件。包括基因,代谢和分类,用于区别两个或两个以上生物条件(或者是类群)。该算法强调的是统计意义和生物相关性。让研究人员能够识别不同丰度的特征以及相关联的类别。

LEfSe通过生物学统计差异使其具有强大的识别功能。然后,它执行额外的测试,以评估这些差异是否符合预期的生物学行为。具体来说,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非参数因子克鲁斯卡尔—沃利斯和秩验检)检测具有显著丰度差异特征,并找到与丰度有显著性差异的类群。最后,LEfSe采用线性判别分析(LDA)来估算每个组分(物种)丰度对差异效果影响的大小。

LEfSe软件用于发现两组或两组以上的biomarker,主要是通过非参数因子Kruskal-Wallis秩和检验来实现的。

运行LEfSe软件主要分三大步骤:第一步:需要把普通的物种、基因等等的丰度信息的表格转化成LEfSe识别的格式。这一步会生成.in结尾的文件

第二步:这一步也是最关键的一步,统计显著差异的biomarker、统计子组组间差异、统计effect sizes(LDA score),会生成.res格式的文件。如下图所示

Step1:两组或两组以上的样本中采用的非参数因子Kruskal-Wallis秩和检验检测出biomarker。

Step2:基于上步的显著差异物种基因,进行两两组之间的Wilcoxon秩和检验,检测出组间差异。

Step3:线性判别分析(LDA)对biomarker进行评估差异显著的物种的影响力(即LDA score),最终获得biomarker。

第三步:基于第二大步的数据,绘制各种图片。

下图展示了LEfSe算法的工作原理:

输入:

LEfSe分析输入配置文件,可通过分析模块 " LEfSe formatting Generate Input config file for LEFSe Analysis" 得到。

输出:

LEfSe分析输出结果文件(表格文件):

**列为feature

第二列为各组分丰度平均值中**值的对数值(the logarithm value of the highest mean among all the classes)

如果feature在组间具有显著性差异,则,

第三列为平均值最高的组(the class with the highest mean)

第四列为the logarithmic LDA score

第五列为检验的p值

分析模块引用了LEfSE[2](v1.0)软件 ( https://bitbucket.org/biobakery/biobakery/wiki/lefse )。

LEfSe在线工具地址: https://huttenhower.sph.harvard.edu/galaxy/

参考文章:

https://www.jianshu.com/p/35e3f725c554 (介绍在线分析方法)

https://blog.csdn.net/weixin_44207974/article/details/111570993 (LEfSE原理讲解)

https://blog.csdn.net/sinat_38163598/article/details/73528079

http://www.360doc.com/content/17/1115/00/33459258_703906446.shtml

http://blog.sina.com.cn/s/blog_55cbb3d10102wedp.html (这三篇文章解读LEfse)

lefse分析(LDA差异贡献分析)

LDA差异贡献分析,PCA和LDA的差别在于,PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息,是无监督的,而LDA是由监督的,增加了种属之间的信息关系后,结合显著性差异标准测试(克鲁斯卡尔-沃利斯检验和两两Wilcoxon测试)和线性判别分析的方法进行特征选择。除了可以检测重要特征,他还可以根据效应值进行功能特性排序,这些功能特性可以解释顶部的大部分生物学差异。使用LefSe软件分析获得,其中显著差异的logarithmic LDA score设为2。

问题:LDA分析有什么用?

回答:组间差异显著物种又可以称作生物标记物(biomarkers),该分析主要是想找到组间在丰度上有显著差异的物种。

这是用于微生物的请配合看博主对应的lefse分析文章来使用。

文献如下所示:

[1] Chenhong Zhang, Shoufeng Li, Liu Yang, et al. Structural modulation of gut microbiota in life-long calorie-restricted mice. NATURE COMMUNICATIONS,4:2163,DOI:10.1038/ncomms3163(2013).

[2] Segata N, Izard J, Waldron L, Gevers D, Miropolsky L et al. (2011) Metagenomic biomarker discovery and explanation. Genome Biol 12: R60.10.1186/gb-2011-12-6-r60 PubMed: 21702898.

工具网址: http://huttenhower.sph.harvard.edu/galaxy/

文章引用: Segata et. al 2011

分析的流程如下:

1、导入含有2行metadata的微生物丰度表

2、鉴定与metadata分类相关的微生物标记

3、根据分析结果绘制Bar及Cladograms图

因为LEfSe的输入文件要求将微生物丰度表和metadata合并在一起,而qiime1中我们将丰度表和metadata的表是分开的,所以我们首先要将两张表格合并。

输入文件含有以下几个要素:

1、Sample Identifiers,样本唯一识别号,通常是mapping文件中的样本ID

2、Class variable,该变量将会用于确定分组以比较两组或多组的差异。

3、Subclass variable,该变量时可选的,当你需要对样本增加更多的描述性信息的时候可以使用该变量。

第一步是要将你的OTU表转化为相对丰度表,qiime中的 sumarize_taxa.py 可以进行该操作,并且添加样本的meta信息。

产生的文件里包含不同分类水平的文件。你可以选择你想要进行分析的水平文件用于下游分析。通常我们选择Level6(Genus 属)水平。

产生的文件包含了所有mapping文件里的meta信息。而LEfSe最多需要两列meta信息和一列Sample identifiers,所以你必须删除其他你不感兴趣的meta信息。另外,删除列名“#SampleID”中的“#”。

最后产生的文件如下图所展示。

打开网站 http://huttenhower.sph.harvard.edu/galaxy/ ,选择左侧LEfSe功能:

然后点击左侧菜单的Get Data,然后上传文件。上传成功后会看见右侧菜单栏增加了你上传的文件。

然后我们要进行第一步 Format Data,在这一步里我们需要确定哪一列是我们的class/subclass和sample ID。

a. 对于第一个选择,确保输入的文件是你想要分析的文件。(如果没有显示出来,可以重新点击以下LEfSe)

b. 确定meta信息是按照列还是行给予。根据你输入文件的格式确定,如果是LEfSe范例中给的输入文件则按照Rows, d 如果是qiime1合并得到的输入文件则选择Columns

c. 对于剩下的3个选择,你必须将列名对应到其的变量类别Class/SubClass以及SampleID。如果你没有SubClass那可以选择no subclass。

选择完毕后点击Execute。

接着可以点击左侧LDA Effect Size(LEfSe),确定你的筛选标准包括p value和effect size cutoff。

LEfSe能够发现代表、描述特定群体的分类群,因此如果看到根据变量(例如对照或治疗)着色的任何分类群,可以将其解释为该分类群与其他群体相比显着增加。

完成了LDA Effect Size之后就可以继续点击左侧菜单栏,进行图像的绘制。

Plot LEfSe Results

该图为条形图条形长度表示特定组中特定分类群的效应大小(LDA)。 条形的长度表示log10转换的LDA分数。 颜色表示与其他组相比,发现分类群的哪个组更丰富,即代表在哪个组丰度更高。 即使rag2(红色)的LDA得分为负,这也是由于计算效果大小时分子和分母的顺序。 此顺序由字母顺序确定,因此我们始终可以使用效果大小的绝对值来解释某个分类群的两组之间差异的比例。

Plot Cladogram

第二个图以分支图的形式显示结果,这是表示显着性和系统发育的直观方式。 颜色代表系统发育树的哪个分支更显着地代表某一群体。 在这种情况下,放线菌和拟杆菌在rag2组中更丰富,而厚壁菌在truc组中更为丰富

其他

剩下两个画图功能可以更详细的展示不同样本的不同生物标记的分布。大家可以根据自己的需求选择。

除了使用qiime1以外,我们还可以使用Koeken工具产生输入文件。该工具可将LEfSe直接与QIIME数据一起用于快速分析。 它的构建使用户可以使用LEfSe分析他们的16s rRNA数据,而无需手动更改meta数据信息并将数据上传到Galaxy。通常,此meta变量是关于数据的时间特征,以便于我们可以查看每个时间点的生物标记分类单元。

安装:

例子: 如果包含--clade选项,将为每个分析生成分支图。

最终Koeken会在每个时间点产生许多文件,包括了LEfSe的结果。当然,如果需要,你还可以像之前的例子一样,将产生的文件传到LEfSe的网站上进行后续的分析。

最后生成的文件如下:


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/523930.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-21
下一篇2023-06-21

发表评论

登录后才能评论

评论列表(0条)

    保存