PLS在应用统计学中是“偏最小二乘法”的英文缩写。
偏最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。
扩展资料
与传统多元线性回归模型相比,偏最小二乘回归的特点是:
(1)能够在自变量存在严重多重相关性的条件下进行回归建模;
(2)允许在样本点个数少于变量个数的条件下进行回归建模;
(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;
(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);
(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。
参考资料
百度百科-偏最小二乘法
PLS是用线性回归模型和最小二乘法把X(描述性变量)和Y(观察变量)投射到一个新的空间,从而能在X空间中的找到一个多维向量最大化表示出Y空间上的变化,找到X和Y最根本的联系。 正交偏最小二乘法(OPLS)是基于PLS的,把连续的变量正交(orthogonal) 投射到 latent structure,从而把变量分成了可以预测的和无关的两种,第一个latent variable可以解释X和Y之间的共同变化,也就是X中变化跟Y变化有关的,第二之后的latent variable是在X变化中对Y无关的(正交的)。如果是不连续的变量,就可以对不同的class进行分类,就是OPLS-DA。X是描述性变量的矩阵,Y是不同的class种类,同样的,第一个latent variable描述的是X中对between class有关联的变化,也就是X对Y分类有关的信息,后面与之正交的latent varible 描述的都是X中within class之间的变化,也就是对Y的分类无关。OPLS相比PLS,分类的准确率并没有改进,只是让结果能更好的被诠释和理解而已。我也不太能描述,抄一下别人的说法。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)