朴素贝叶斯算法中拉普拉斯平滑的证明

朴素贝叶斯算法中拉普拉斯平滑的证明,第1张

        朴素贝叶斯算法中的拉普拉斯平滑,是为了缓解先验概率为零的情况。在贝叶斯估计中,使用狄利克雷分布作为先验分布,来估计多项分布中的参数值,即可得到拉普拉斯平滑。证明如下:

        引入狄利克雷分布的定义,若随机向量符合狄利克雷分布,即  ,其中  ,设 ,则   的概率密度函数为:

    下面计算随机向量   的分量   的期望。我们通过计算   来代替,这仍然不失一般性。  的概率密度函数为:

 的期望为:

故,

        引入多项分布的定义,若随机向量满足多项分布,即   ,其中  ,则   的分布律为:

        在多项分布参数的贝叶斯估计中,使用狄利克雷分布作为先验分布。设  为狄利克雷分布的概率密度函数,  为多项分布的分布律,则后验分布为:

        由于多项分布的后验分布也是狄利克雷分布,故狄利克雷分布是多项分布的共轭分布。由此可得多项分布参数   的贝叶斯估计值为:

        设   为数据集中的样本,  为样本特征向量,  为分类变量。   为数据集样本数,  为分类个数,  表示第  个分类,  表示数据集中第   个分类的样本数。现在要根据数据集来估计分类的先验概率 。

        由于  ,所以这是一个多项分布的参数估计问题。使用上面已经证明的多项分布参数的贝叶斯估计,并设  ,则:

        根据数据集估计特定分类下特征值的先验概率,其实就是在该分类的子数据集中进行多项分布的参数估计。按照上面相同的方法,设   为特征个数,   为第   个特征包含的值个数,  为第  个特征的第  个值,  为第  个分类的数据集中第  个特征取第   个值的样本数,则:

        这就证明了朴素贝叶斯算法中的拉普拉斯平滑。

正则化 ,是一种可以改善或者减少过度拟合问题(over-fitting)的技术。

拟合: 拟合牵扯到一个泛化能力的问题,对于训练好的模型,若在训练集表现差,不必说在测试集表现同样会很差,这可能是欠拟合(under fitting)导致;若模型在训练集表现非常好,却在测试集上差强人意,则这便是过拟合(over fitting)导致的,过拟合与欠拟合也可以用 Bias(偏差) 与 Variance(方差) 的角度来解释,欠拟合会导致高 Bias ,过拟合会导致高 Variance ,所以模型需要在 Bias 与 Variance 之间做出一个权衡。

解决欠拟合的方法:

1、增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间

2、尝试非线性模型,比如核SVM 、决策树、DNN等模型

3、如果有正则项可以较小正则项参数

4、Boosting ,Boosting 往往会有较小的 Bias,比如 Gradient Boosting 等.

解决过拟合的方法:

1、交叉检验,通过交叉检验得到较优的模型参数

2、特征选择,减少特征数或使用较少的特征组合,对于按区间离散化的特征,增大划分的区间

3、正则化,常用的有 L1、L2 正则。而且 L1正则还可以自动进行特征选择

4、如果有正则项则可以考虑增大正则项参数

5、增加训练数据可以有限的避免过拟合

6、Bagging ,将多个弱学习器Bagging 一下效果会好很多,比如随机森林等.

拉普拉斯平滑

平滑 本质上讲就是希望参数每次迭代的变化不要太过于剧烈


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/2182.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-01-31
下一篇2023-01-31

发表评论

登录后才能评论

评论列表(0条)

    保存