11 - PLS，PCA-LDA, DT, ANN简要介绍_服务器知识

此本来自自己硕士论文的综述部分。

偏最小二乘法可以分为偏最小二乘回归法（Partial least square regression, PLSR）与偏最小二乘法判别分析（Partial least square discriminate analysis, PLS-DA）。PLSR实现的主要思想是将自变量和因变量分别进行线性组合分析，再将求得的数据进行关联分析，所以其为主成分分析、典型相关性分析与多元线性回归建模的组合。PLS-DA是有监督的判别分析法，Gottfries等首先报道了PLS-DA使用，而后Barker与Rayens明确了其用于判别分析的理论基础，并且对于其应用的优缺点由Brereton与Lloyd进一步阐释（Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 ）。其与PLSR区别是因变量是类别，而不是连续的变量，一般是在PLSR分析后加入一个逻辑判别函数如Sigmoid函数（在逻辑回归判别中将详述）。因为两者前面分析部分相似，故这里主要介绍PLSR算法。PLSR中自变量与因变量的基础结构公式为：

X = TPT + E

Y = UQT + F

PLSR一般基于非线性迭代最小二乘算法（NIPALS）建立。其步骤为（1）对自变量X和因变量Y同时提取各自的主成分t1（x1、x2...xn的线性组合）与u1（y1、y2...yn的线性组合），并且要求这两个主成分相关性最大；（2）再进行X与Y分别对t1与u1的回归，若方程达到了设置的满意度，则停止计算；（3）否则，再利用t1对X解释后剩余的信息和u1对Y解释后剩余的信息重新按照（1）进行，再次循环，直到符合设定的阈值。最终X可能会提取到t1、t2...tn个主成分，Y提取到u1、u2…un，使Y的u组合对t1、t2...tn进行回归，进而转化成Y对x1、x2...xn的回归方程（Wold et al 2001）。

PLSR是基于FT-MIR建立模型研究中使用最为广泛和经典的算法，上述关于基于FT-MIR检测牛奶脂肪酸、蛋白质及氨基酸和抗生素残留的定量模型研究中均使用了PLSR算法，可见其应用之普遍。PLS-DA已在食品分析中的产品认证、医学诊断中的疾病分类和代谢组分析中进行广泛应用，并且Gromski等在综述代谢组的分析中，将其和随机森林与支持向量机进行了比较（Gromski et al 2015, Lee et al 2018）。

PLS的优点：（1）能处理样本量远小于特征属性数量的数据；（2）能处理特征属性间存在多重共线性的问题；（3）建立的模型时包含自变量与因变量的信息。其缺点有：（1）不能很好的处理非线性问题；（2）容易过拟合，需注意主成分数的选择。

主成分分析（Principal Component Analysis，PCA）是一种无监督的降维分析方法。PCA降维的基本原则是使降维后方差最大与损失最小，如图1-2。其实现的基本过程：（1）对所有样本进行中心化处理；（2）计算样本的协方差矩阵；（3）对协方差矩阵进行特征值分解；（4）对得到的特征值进行排序，取前n个组成新矩阵；（5）以新矩阵来代替原来样本的特征（Abdi and Williams 2010, Jolliffe and Cadima 2016）。

线性判别分析（Linear discriminat analysis，LDA）是一种有监督的降维与判别分析方法。LDA降维原则是类别内方差最小，类别间方差最大，这样的特点更有利于进行判别分析（Anandkumar et al 2015）。其实现的基本过程为（1）计算样本各类别内的类内散度矩阵Sw；（2）计算样本各类别间的散度矩阵Sb；（3）对Sw做奇异分解，得到Sw -1 ；（4）对Sw -1 Sb做特征分解；（5）取上一步得到的前n特征向量以最大似然法求得各类别的均值和方差做后续的判别分析。

LDA不适用自变量远远大于样本的情况，而PCA可以，故这里将两个算法进行联用，先以PCA进行降维，再以LDA进行判别分析（Yang and Yang 2003）。

PCA-LDA的优点：（1）两个算法的联用可以同时对原数据进行降维和判别分析；（2）LDA采用的是各类均值，算法较优。其缺点有（1）只适合符合高斯分布的样本数据分析；（2）可能会有过拟合的风险。

决策树是基础的分类和回归方法，本研究主要集中在其用于分类上。决策树是通过树状结构对具有特征属性的样本进行分类。每一个决策树都包括根节点（第一个特征属性），内部节点（其他特征属性）以及叶子节点（类别），通用的为每个内部节点有两个分支（Kaminski et al 2018）。其实现的基本步骤：（1）在所有属性中选择最优属性，通过其将样本分类；（2）将分类的样本再通过另一个特征属性再次分类，一直循环直到将样本分到各叶子节点；（3）对生成的树进行剪枝（包含预剪枝与后剪枝）。决策树选择特征属性的算法不同会有不同结果，典型算法包括：CART算法（Breiman et al 1984）、ID3算法（Quinlan 1986）、C4.5算法（Quinlan 1992）等，但这些方法生成的过程相似。

CART采用基尼指数最小化原则，进行特征选择，递归地生成二叉树，该算法只能对特征进行二分。ID3算法在各个节点上采用信息增益来选择特征，每一次选择的特征均使信息增益最大，逐步构建决策树，但缺点是其会选择取值较多的特征，而C4.5算法采用信息增益比选择特征，解决了ID3的缺点。

DT的优点：（1）运行速度相对较快；（2）可同时处理不同类型的数据，基本不需要预处理；（3）结果容易解释，并可进行可视化。其缺点：（1）容易过拟合，导致泛化能力不强；（2）不支持在线学习，若有新样本，DT需要全部重建；（3）当各类别数据样本不平衡时，结果会偏向有更多数值的特征；（4）不能处理样本特征属性之间的相关性（James et al 2013, Painsky and Rosset 2015）。

人工神经网络是以神经元为单位模仿生物神经网络的结构与功能的数学算法模型（Marcel and Sander 2018）。其可以进行线性与非线性的判别分析，属于有监督的学习分类法，主要分为前馈型神经网络、反馈型神经网络与自组织神经网络。

单位神经元如图1-3中A，一般有多个输入的“树突”，再分别给予不同的权重求和，与阈值比较，达到阈值的通过激活函数求出输出数据，最后进行输出。激活函数f通常分为三类：阈值函数、分段函数、双极性连续函数。

这里以经典的单隐层神经网络为例进行讲解，如图1-3中B。其输入层包含三个神经元，隐含层有四个神经元，输出层有两个神经元。其运算过程为由输入层输入数据，随机设定权重和阈值，通过隐藏层计算再传递到输出层，输出层会根据设定的期望进行判断，如果不符合，则返回重新改变权重和阈值，进入循环，直到符合设定的期望再停止运算，这样就能得到模型的权重和阈值，可对新数据进行判别，这种运算法即为常见的反馈型神经网络（Tu 1996）。多层神经网络属于深度学习，以卷积神经网络为基础进行构建。

ANN的优点：（1）能够自主学习；（2）能解决线性与非线性的问题；（3）可处理因变量之间的相互作用。其缺点：（1）需要设置大量的参数进行约束；（2）结果解释性差，为黑箱算法；（3）计算学习时间长；（4）容易过拟合（Tu 1996）。

SEM简单介绍，以下资料来源

因果关系：SEM一般用于建立因果关系模型，但是本身却并不能阐明模型的因果关系。

一般应用于：测量错误、错漏的数据、中介模型（mediation model）、差异分析。

历史：SEM 包括了回归分析，路径分析（wright, 1921）,验证性因子分析（confirmatory factor analysis）（Joreskog, 1969）.

SEM也被称为协方差结构模型（covariance structure modelling），协方差结构分析和因果模型。

因果关系：

究竟哪一个是“真的”？在被假设的因果变量中其实有一个完整的因果链。

举一个简单的例子：吃糖果导致蛀牙。这里涉及2个变量，“吃糖果”和“蛀牙”，前者是因，后者是果。如果上一个因果关系成立，那将会形成一个因果机制，也许会出现这样的结构：

3. 这时还有可能出现更多的潜在变量：

这里我又举另外一个例子，回归模型

在这里，回归模型并不能很好的描述出因果次序，而且也不能轻易的识别因果次序或者未测量的因子。这也是为什么在国外学术界SEM如此流行的原因。

我们在举另外一个例子“路径分析”

路径分析能让我们用于条件模型（conditional relationships），上图中的模型是一种调解型模型或者中介模型，在这里Z 是作为一个中介调节者同时调节X和Y这两个变量的关系。

在这里我们总结一下：

回归分析简单的说就是：X真的影响Y 吗？

路径分析：为什么/如何 X 会影响Y？是通过其他潜在变量Z 来达到的吗？例子：刷牙（X）减少蛀牙（Y）通过减少细菌的方法（Z）。------测量和测试中介变量（例如上图中的Z变量）可以帮助评估因果假设。

在这里要提一下因素模型（factor model）

在这个模型当中，各个变量有可能由于受到未被观察到的变量所影响，变得相互有内在的联系，一般来说那些变量都很复杂、混乱，而且很多变量是不能直接被观察到的。

举个例子：“保龄球俱乐部的会员卡”和“本地报纸阅读”，是被观察到的变量，而“社会资产”则是未被观察到的变量。另一个例子：“房屋立法”和“异族通婚”是被观察到的变量，而“种族偏见”是未被观察到的变量。

相互关系并不完全由被观察到的变量的因果关系所导致，而是由于那些潜在的变量而导致。

这些被观察到变量（y1--y4）也有可能由一个潜在的变量（F）所影响。

其实应该说是最大似然法和最小二乘法的区别吧。

采用OLS的回归分析方法存在几方面的限制：

（1）不允许有多个因变量或输出变量

（2）中间变量不能包含在与预测因子一样的单一模型中

（3）预测因子假设为没有测量误差

（4）预测因子间的多重共线性会妨碍结果解释

（5）结构方程模型不受这些方面的限制

SEM的优点：

（1）SEM程序同时提供总体模型检验和独立参数估计检验；

（2）回归系数，均值和方差同时被比较，即使多个组间交叉；

（3）验证性因子分析模型能净化误差，使得潜变量间的关联估计较少地被测量误差污染；

（4）拟合非标准模型的能力，包括灵活处理追踪数据，带自相关误差结构的数据库（时间序列分析），和带非正态分布变量和缺失数据的数据库。

构方程模型最为显著的两个特点是：

（1）评价多维的和相互关联的关系；

（2）能够发现这些关系中没有察觉到的概念关系，而且能够在评价的过程中解释测量误差。

1、最小二乘法的典型应用是求解一套x和y的成对数据对应的曲线（或者直线）方程。

其思想是：设y和x之间的关系可以用一个公式在表示，但其系数为待定系数。然后，将各个点的实测数据与计算求得的数据相减，得到“误差”或者不符值（有正有负，但其平方都是正的），将这些不符值的平方相加，得到总的“误差”。通过调整公式中的各个系数，使得误差平方和最小，那么就确定了y和x之间的方程的最好结果。求解最小二乘问题的过程中没有提及概率问题。

2、而极大似然估计值，是用于概率领域的一种方法，和最小二乘法是两个领域的。这种方法是应用求极大值的方法，让某一个公式求导值为0，再根据情况判断该极值是否是合乎要求。极大似然估计法可以用于正态分布中 μ, σ2的极大似然估计。极大似然估计法就是要选取类似的数值作为参数的估计值，使所选取的样本在被选的总体中出现的可能性为最大。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/340048.html

11 - PLS，PCA-LDA, DT, ANN简要介绍

发表评论

评论列表（0条）