第四课:模型补充
朴素贝叶斯分类
【原理】朴素贝叶斯原理
作者 : 老饼 日期 : 2022-06-26 03:45:41 更新 : 2022-09-27 17:12:15
本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com


朴素贝叶斯是一个用于做分类的算法,它简单,易用,见效,是一个经典的算法。

本文介绍朴素贝叶斯的算法原理,计算公式。



  01. 算法介绍   


朴素贝叶斯是基于贝叶斯后验概率建立的模型。

它用于解决分类问题。



它的主要思想是,
通过历史数据,对每个类别建立经验概率公式,
然后当新样本进来时,
用各个类别的概率经验公式分别进行预测,
最终,属于哪个类别的概率最大,就认为是哪个类别。

注:为了简化,我们不一定用概率公式p(x),也可以使用它的简化版g(x)替代它。



  02. 贝叶斯概率公式与判别函数  


模型的关键是如何用历史数据构建类别的概率公式,

贝叶斯原理恰好可以解决这个问题。


   (一) 贝叶斯原理   


贝叶斯原理为,
在已知发生B条件下,发生A的概率为:

 
如果上述公式较抽象,
则可以将贝叶斯原理理解为:
  
 即: 发生B,且发生A = 发生A且发生B



   (二) 属于各类别的概率计算公式   


根据贝叶斯原理可以得到,
在已知表现特征,属于类别 i 的概率则为:
 
 
如果各特征间是独立的,
那特征的概率可以拆成累积形式,上式可以写成
 



   (三) 判别函数   


因为每个分母一样,
所以我们最终每个类别的决策器只取上式的分子即可,如下

 
此时,G代表的就不再是概率,而是判别值,称Gi为第i类别的判别函数。


  03.  具体计算  


朴素贝叶素公式里对第i类的概率估计依赖于

P(表现为特征Xk|已知属于类别 i),P(属于类别 i ), P(特征Xk)


这三者的具体计算主要用历史样本估算,如下


P(表现为特征Xk|已知属于类别 i)  = 类别 i 中特征k为  的样本个数/ 类别i样本个数
P(属于类别 i ) =  类 i 在总本样中的占比                                                                      
P(特征Xk) =  特征k等于  的占比                                                                          
备注
 
(1) 连续变量需要离散化成组别                                    
(2) 如果我们使用G判别函数,则不需要计算P(特征Xk) 






 End 









联系小饼