概率论mle什么意思

概率论mle什么意思,第1张

mle的意思是最大似然估计,英文为maximum likelihood estimation,简称MLE。最大似然估计一种重要而普遍的求估计量的方法。最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。

最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。“似然”是对likelihood的一种较为贴近文言文的翻译,“似然”用现代的中文来说即“可能性”。故而,若称之为“最大可能性估计”则更加通俗易懂。

最大后验概率MAP

统计学中,MAP为最大后验概率(Maximum a posteriori)的缩写。估计方法根据经验数据获得对难以观察的量的点估计。它与最大似然估计中的Fisher方法有密切关系,但是它使用了一个增大的优化目标,这种方法将被估计量的先验分布融合到其中。所以最大后验估计可以看作是规则化的最大似然估计。

根据上一篇 贝叶斯分类器(1)贝叶斯决策论概述、贝叶斯和频率、概率和似然 ,我们对贝叶斯分类器所要解决的问题、问题的求解方法做了概述,将贝叶斯分类问题转化成了求解 的问题,并提出了第一个求解方法:极大似然估计,也对似然的概念做了一定的理解,在本篇中,我们来介绍极大似然估计的原理、使用方法及其与最大后验估计MAP的区别。

我们已经知道,似然即参数的似然,表示给定样本下,参数 为真值的可能性,所以,极大似然估计就是以最大化参数的似然值的方法来估计参数的真值的算法。

对于一批样本,共有M个属性值和N个类别,那么 就是一个M维向量,要求得 ,其实就是要求 ,因为对不同的类别 ,类条件概率 应该是不同的分布,所以应该有N个不同的分布假设和似然函数。

我们按极大似然估计的步骤来看看怎样计算

取对数得到对数似然函数,连乘转换为累加,求导之类的计算更加方便:

注意:

知乎上大神详细介绍了从散度的角度解读极大似然估计: 知乎 - 微调的回答 ,跟随大神的脚步学习一下(原回答了引入了期望,我觉得其实不用期望也没问题):

MLE的第一步是假设分布(或者已有一个分布),接下来就是通过最大化 发生的概率来求得分布参数,认为这就是最可能真实的分布,这个思路其实还是有一点绕的,凭什么说 发生的概率最大的参数就是真的参数呢?我们的目的是求出真实分布,最直观的思路应该是看我们 算出来的分布跟真实分布的相似程度 ,这刚好可以通过散度来解释。

这里的散度是机器学习的散度,也就是信息论中的散度,与物理上的散度不太一样。机器学习中我们常用的散度是KL散度(KL-Divergence)。信息论中, 可以理解为:用来衡量在同一份数据P下,使用P的编码方案和Q的编码方案的平均编码长度的差异,如果我们把真实的分布 和计算得到的分布 看做样本数据的编码方案,那么我们就可以用KL散度来计算两种分布之间的相似程度:

注意上面两个分布的顺序是不能变的,因为定义中的P必须是真实分布,数据就是由P产生的。我们的目标是人是让 最小,注意到式中 是定值,所以:

看上面的推导,再看看极大似然的公式:

是不是根本就是一样的?所以其实如果我们正向考虑极大似然估计,当模型是条件概率分布,损失函数是对数损失函数时,极大似然估计就是做 经验风险最小化 ;如果我们反过来考虑,即上面从散度推导的过程,MLE就是在寻找最接近真实分布的分布。

以上一篇提到的西瓜好坏分类为例:

西瓜数据集如下图:

显然样本共有 个属性值和 个类别,首先根据样本估计类先验概率 ,然后为每个属性估计条件概率 ,要求 ,应该假设两个六维概率分布,比如我们假设样本为6元正态分布:

均值向量 为6维向量,协方差矩阵 是一个6*6的正定矩阵。

然后分别写出似然函数的对数形式:

最后再求偏导解方程即可,多元正态分布求导计算还是挺复杂的,本篇主要讲极大似然估计,具体计算过程就不写了,大家明白是怎么做的就好。

讲完了极大似然估计的理论和操作,再来看看它和一个跟它很像的算法最大后验估计MAP的关系。

极大似然估计MLE是频率学派的参数估计方法,最大后验估计MAP是贝叶斯学派的参数估计方法。因此,同样是参数估计的问题,MLE中参数是确定值,故定义为 ;MAP中参数是一个随机变量,故定义为 ,是一个后验概率,受到先验 和样本 的共同作用,这就是他们最本质的区别了,由此可得到其计算过程的区别:

极大似然估计MLE对参数 的估计是:

最大后验估计MAP对参数 的估计是:

我们发现原来MAP与MLE在计算上的不同就是多了一个先验概率项,因此如果有一个合理的先验的话,MAP会比MLE对样本数据的依赖更小一些,如果数据量很大的话他们基本就是一样的了,以我们上一篇中的抛硬币例子来说:

如果按极大似然估计计算,取对数求导后计算得到 ,这似乎不太符合我们的常识,如果是用MAP呢?对抛硬币问题,我们先验是 (注意MAP中的 是随机变量,先验是一个分布,不能是一个数值哦,如果给一个数值的话,样本就不起作用了),因此:

正态分布的概率密度函数:

因此:

在MAP中使用一个高斯分布的先验的效果就类似于在MLE中采用L2正则,相当于 结构风险最小化 ,可以说,当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验估计。

回到 的计算上来, 进行取对数、求导,可得 ,结果受到了先验和样本共同的作用。

显然MAP的计算要麻烦的多,现实中很多问题都要比我们的例子复杂的多,其求解通常不会像我们的例子这样求导计算。

总结一下:

我们将贝叶斯分类器转化为了求解 的问题,使用极大似然估计是我们介绍的第一个求解方法,它还存在一些不足:

在下一篇中,我们来看看求解 问题的另一个方法:朴素贝叶斯。

主要参考资料

《机器学习》周志华

《统计学习方法》 李航

知乎 - 微调的回答

聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计

最大后验估计MAP


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/226069.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-08
下一篇2023-04-08

发表评论

登录后才能评论

评论列表(0条)

    保存