偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。
在偏最小二乘回归中,预测方程将由从矩阵Y'XX'Y中提取出来的因子来描述;为了更具有代表性,提取出来的预测方程的数量可能大于变量X与Y的最大数。
简而言之,偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法,这种灵活性让它适用于传统的多元校正方法所不适用的许多场合,例如一些观测数据少于预测变量数时。并且,偏最小二乘回归可以作为一种探索性的分析工具,在使用传统的线性回归模型之前,先对所需的合适的变量数进行预测并去除噪音干扰。
作为一个多元线性回归方法,偏最小二乘回归的主要目的是要建立一个线性模型:Y=XB+E,其中Y是具有m个变量、n个样本点的响应矩阵,X是具有p个变量、n个样本点的预测矩阵,B是回归系数矩阵,E为噪音校正模型,与Y具有相同的维数。在通常情况下,变量X和Y被标准化后再用于计算,即减去它们的平均值并除以标准偏差。
简单的说,PLS是一种预测方法,得到的值就是通过这种方法得到的预测值。
肯定要借助专业的数据分析工具来做,全球领先的企业云计算平台百会最近发布了一款全新的sem优化工具——百会搜索赢家。有别市面上的自动竞价调词优化软件,百会搜索赢家是国内首款以销售结果为评估依据的SEM优化工具。也就是说,有别于其他前端优化的SEM工具,百会搜索赢家专注于后端优化,清晰、准确的告诉您投入产出比及帮助您管理好你花钱买来的客户,让企业在搜索引擎上以更低的成本获取更大的收益,实现在搜索引擎上持续有效的回报。由于搜索赢家集成了百会CRM,因此:1、搜索引擎投放之外的其它市场活动效果,也可以用搜索赢家来追踪。2、企业通过搜索引擎投放以外的方式获得的客户,也可以用搜索赢家来管理。现在起访问百会官网可以免费试用百会“搜索赢家”。主成分分析(PCA)和偏最小二乘法(PLS)是对变量数超过样本数量或变量之间存在多重共线性的组学数据进行可视化、回归、分类和特征选择的常用方法。
PLS和正交偏最小二乘法(OPLS)是有监督的模式,它们使用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型,实现对样品类别的预测,是一种建模类型的方法 相较而言,OPLS能够分别对相关因子和不相关变异进行建模,虽然计算方式与PLS相同,但OPLS具有更强的解释性。
而且,当无监督(PCA)无法很好地区分组间样本时,PLS-DA可以实现有效分离。并且PLS-DA和OPLS-DA所构建的分类预测模型,可进一步用于识别更多的样本类别,这是探索性的PCA方法无法做到的。
另外,PLS-DA和OPLS-DA所构建的分类模型中的载荷图可用于衡量各代谢物组分对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选。 ## 实例解读
OPLS-DA loading plots for different mulberry cultivars
该数据是通过液相色谱-高分辨率质谱(LC-HRMS)来研究年龄、体重指数(bmi)和性别对尿液中代谢物浓度的影响,是一个list具体包含:
由于目的是识别给定数据集的特征,而不是建模预测未知数据的分类,在这里将所有数据均作为训练集构建模型。
opls的计算结果中常用对象包括:
执行PLS统计建模时,一般会同时给出4个图片:
PLS-DA model of the gender response
显著性诊断(左上) :实际和模拟模型的R2Y和Q2Y值经随机排列后的散点图,模型R2Y和Q2Y(散点)大于真实值时(横线),表明产生过拟合 2 。
Inertia(惯量)柱形图(右上) :通过展示累计解释率评估正交组分是否足够
离群点展示(左下) :通过scoreMN和loadingMN计算出各样本在投影平面及正交平面的坐标,并标明相互差异较大的样本。
x-score plot(右下) :各样本在PLS-DA轴中的坐标;R2X、R2Y等值展示在下方,用于评估模型优度:
与其说是可视化方法,不如称为数据提取章节。
通过变量投影重要度(Variable Importance for the Projection,VIP),可以衡量各代谢物组分含量对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选(阈值通常设为1)。
Orthogonal partial least squares(OPLS) 将观测值矩阵X的差异分为两个部分:第一部分代表与Y相关的差异,第二部分代表与Y不相关(正交垂直)的差异,结果展示时需要结合起来讨论;由于OPLS区分了无关变量数据,从而使模型更加容易解读。
另外,OPLS可以更好地避免过拟合现象,预测性能优势并没有明显提升;因此,如果PLS-DA模型尚可:“summary”的4个plot的结果比较好,仍推荐使用PLS-DA。
执行OPLS后的数据提取,与PLS和PCA略有不同,需要同时考虑得分矩阵和正交矩阵。
过度拟合(Overfitting)是当机器学习应用于具有比样本更多变量的数据集的主要问题前期随机数实验表明:当变量的数量超过样本的数量时,可以实现完美的PLS-DA分类。而,当样本数量超过观测的数量时,PLS过度拟合可能发生。因此,有必要通过标签的随机排列来检查模型的Q2Y值是否显著。
1. Li, H. et al. Abnormal expression of bHLH3 disrupts a flavonoid homeostasis network, causing differences in pigment composition among mulberry fruits. Hortic Res 7 , 83 (2020).
2. Thevenot, E. A., Roux, A., Xu, Y., Ezan, E. &Junot, C. Analysis of the human adult urinary metabolome variations with age, body mass index and gender by implementing a comprehensive workflow for univariate and opls statistical analyses. Journal of Proteome Research 14 , 3322–3335 (2015).
3. Thévenot, E. A., Roux, A., Xu, Y., Ezan, E. &Junot, C. Analysis of the human adult urinary metabolome variations with age, body mass index, and gender by implementing a comprehensive workflow for univariate and opls statistical analyses. 14 , 3322–3335 (2015).
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)