11 - PLS，PCA-LDA, DT, ANN简要介绍_服务器知识

此本来自自己硕士论文的综述部分。

偏最小二乘法可以分为偏最小二乘回归法（Partial least square regression, PLSR）与偏最小二乘法判别分析（Partial least square discriminate analysis, PLS-DA）。PLSR实现的主要思想是将自变量和因变量分别进行线性组合分析，再将求得的数据进行关联分析，所以其为主成分分析、典型相关性分析与多元线性回归建模的组合。PLS-DA是有监督的判别分析法，Gottfries等首先报道了PLS-DA使用，而后Barker与Rayens明确了其用于判别分析的理论基础，并且对于其应用的优缺点由Brereton与Lloyd进一步阐释（Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 ）。其与PLSR区别是因变量是类别，而不是连续的变量，一般是在PLSR分析后加入一个逻辑判别函数如Sigmoid函数（在逻辑回归判别中将详述）。因为两者前面分析部分相似，故这里主要介绍PLSR算法。PLSR中自变量与因变量的基础结构公式为：

X = TPT + E

Y = UQT + F

PLSR一般基于非线性迭代最小二乘算法（NIPALS）建立。其步骤为（1）对自变量X和因变量Y同时提取各自的主成分t1（x1、x2...xn的线性组合）与u1（y1、y2...yn的线性组合），并且要求这两个主成分相关性最大；（2）再进行X与Y分别对t1与u1的回归，若方程达到了设置的满意度，则停止计算；（3）否则，再利用t1对X解释后剩余的信息和u1对Y解释后剩余的信息重新按照（1）进行，再次循环，直到符合设定的阈值。最终X可能会提取到t1、t2...tn个主成分，Y提取到u1、u2…un，使Y的u组合对t1、t2...tn进行回归，进而转化成Y对x1、x2...xn的回归方程（Wold et al 2001）。

PLSR是基于FT-MIR建立模型研究中使用最为广泛和经典的算法，上述关于基于FT-MIR检测牛奶脂肪酸、蛋白质及氨基酸和抗生素残留的定量模型研究中均使用了PLSR算法，可见其应用之普遍。PLS-DA已在食品分析中的产品认证、医学诊断中的疾病分类和代谢组分析中进行广泛应用，并且Gromski等在综述代谢组的分析中，将其和随机森林与支持向量机进行了比较（Gromski et al 2015, Lee et al 2018）。

PLS的优点：（1）能处理样本量远小于特征属性数量的数据；（2）能处理特征属性间存在多重共线性的问题；（3）建立的模型时包含自变量与因变量的信息。其缺点有：（1）不能很好的处理非线性问题；（2）容易过拟合，需注意主成分数的选择。

主成分分析（Principal Component Analysis，PCA）是一种无监督的降维分析方法。PCA降维的基本原则是使降维后方差最大与损失最小，如图1-2。其实现的基本过程：（1）对所有样本进行中心化处理；（2）计算样本的协方差矩阵；（3）对协方差矩阵进行特征值分解；（4）对得到的特征值进行排序，取前n个组成新矩阵；（5）以新矩阵来代替原来样本的特征（Abdi and Williams 2010, Jolliffe and Cadima 2016）。

线性判别分析（Linear discriminat analysis，LDA）是一种有监督的降维与判别分析方法。LDA降维原则是类别内方差最小，类别间方差最大，这样的特点更有利于进行判别分析（Anandkumar et al 2015）。其实现的基本过程为（1）计算样本各类别内的类内散度矩阵Sw；（2）计算样本各类别间的散度矩阵Sb；（3）对Sw做奇异分解，得到Sw -1 ；（4）对Sw -1 Sb做特征分解；（5）取上一步得到的前n特征向量以最大似然法求得各类别的均值和方差做后续的判别分析。

LDA不适用自变量远远大于样本的情况，而PCA可以，故这里将两个算法进行联用，先以PCA进行降维，再以LDA进行判别分析（Yang and Yang 2003）。

PCA-LDA的优点：（1）两个算法的联用可以同时对原数据进行降维和判别分析；（2）LDA采用的是各类均值，算法较优。其缺点有（1）只适合符合高斯分布的样本数据分析；（2）可能会有过拟合的风险。

决策树是基础的分类和回归方法，本研究主要集中在其用于分类上。决策树是通过树状结构对具有特征属性的样本进行分类。每一个决策树都包括根节点（第一个特征属性），内部节点（其他特征属性）以及叶子节点（类别），通用的为每个内部节点有两个分支（Kaminski et al 2018）。其实现的基本步骤：（1）在所有属性中选择最优属性，通过其将样本分类；（2）将分类的样本再通过另一个特征属性再次分类，一直循环直到将样本分到各叶子节点；（3）对生成的树进行剪枝（包含预剪枝与后剪枝）。决策树选择特征属性的算法不同会有不同结果，典型算法包括：CART算法（Breiman et al 1984）、ID3算法（Quinlan 1986）、C4.5算法（Quinlan 1992）等，但这些方法生成的过程相似。

CART采用基尼指数最小化原则，进行特征选择，递归地生成二叉树，该算法只能对特征进行二分。ID3算法在各个节点上采用信息增益来选择特征，每一次选择的特征均使信息增益最大，逐步构建决策树，但缺点是其会选择取值较多的特征，而C4.5算法采用信息增益比选择特征，解决了ID3的缺点。

DT的优点：（1）运行速度相对较快；（2）可同时处理不同类型的数据，基本不需要预处理；（3）结果容易解释，并可进行可视化。其缺点：（1）容易过拟合，导致泛化能力不强；（2）不支持在线学习，若有新样本，DT需要全部重建；（3）当各类别数据样本不平衡时，结果会偏向有更多数值的特征；（4）不能处理样本特征属性之间的相关性（James et al 2013, Painsky and Rosset 2015）。

人工神经网络是以神经元为单位模仿生物神经网络的结构与功能的数学算法模型（Marcel and Sander 2018）。其可以进行线性与非线性的判别分析，属于有监督的学习分类法，主要分为前馈型神经网络、反馈型神经网络与自组织神经网络。

单位神经元如图1-3中A，一般有多个输入的“树突”，再分别给予不同的权重求和，与阈值比较，达到阈值的通过激活函数求出输出数据，最后进行输出。激活函数f通常分为三类：阈值函数、分段函数、双极性连续函数。

这里以经典的单隐层神经网络为例进行讲解，如图1-3中B。其输入层包含三个神经元，隐含层有四个神经元，输出层有两个神经元。其运算过程为由输入层输入数据，随机设定权重和阈值，通过隐藏层计算再传递到输出层，输出层会根据设定的期望进行判断，如果不符合，则返回重新改变权重和阈值，进入循环，直到符合设定的期望再停止运算，这样就能得到模型的权重和阈值，可对新数据进行判别，这种运算法即为常见的反馈型神经网络（Tu 1996）。多层神经网络属于深度学习，以卷积神经网络为基础进行构建。

ANN的优点：（1）能够自主学习；（2）能解决线性与非线性的问题；（3）可处理因变量之间的相互作用。其缺点：（1）需要设置大量的参数进行约束；（2）结果解释性差，为黑箱算法；（3）计算学习时间长；（4）容易过拟合（Tu 1996）。

①Google和PageRank算法。 ②PageRank算法。 ③HITS算法。 ④ ARC算法。主要针对关键词在文章中出现密度的原理，和一定推广手段（如：推广平台，问答，权重网站外链等），从而引导蜘蛛来爬行，并对其关键词收录，来达到自身想要的利益，但效果普通

以下回答的两个公式为基础：女生组：y1=a1+b1x+c1z；男生组：y2=a2+b2x+c2z。1. 比较两个回归系数之间差别的公式为：(b1-b2)/se12，其中b1和b2是被比较的回归系，se12是两者的Join Standard Error(联合标准误差)，其结果是一个以自由度为n-k-2的t分布（其中n是样本量、k是原来的自变量数，本案中为x和c两个）。2. 在SPSS（其实是任何OLS回归）中，你如果将男女分成两个样本分布做回归，可以得到b1和b2，但得不到联合标准误差se12（因为b1和b2出现在不同的模型中），所以无法用到上述公式。3. SEM（包括AMOS）是通过比较男女样本的拟合度之差别来比较两组回归系数之间的等同性，这种方法在OLS回归中并不适用。同时，SEM的这种做法是有代价的：它将一个总样本分成两个小样本，其结果是降低了Power of Analysis (统计分析效力)，从而在没有降低犯Type I的误差的同时又提高了犯Type II误差。4.更合理的方法是男女不分组、保留在同一样本内，将性别转换成dummy变量，再生成性别与你想比较的自变量（如X）的交互变量（如X*性别），也就是说，将你的公式1（或公式2）中改成：Y = a + bX + cZ + dS +eSX + fSZ其中S是性别（假定男=0、女=1），SX是性别与X的交互变量、SZ是性别与Z的交互变量。如果男女在S上的取值（即0和1）代人该公式，就可以分解成以下两个公式（注意：样本还是一个）：女生组（S=1）：Y = a + bX + cZ + d1 +e1X + f1Z = (a+d) + (b+e)X + (c+f)Z男生组（S=0）：Y = a + bX + cZ + d0 + e0X + f0Z = a + bX + cZ如果d是显著的（即男女本身之差别），就说明女生在Y上的截距（即平均值）比男生高d个单位；如果e是显著的（即性别对X与Y之关系的影响），就说明女生的X斜率比男生大e个单位；如果f是显著的（即性别对Z与Y之关系的影响），就说明女生的Z斜率比男生大f个单位。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/409273.html

11 - PLS，PCA-LDA, DT, ANN简要介绍

发表评论

评论列表（0条）