第五课:模型补充
朴素贝叶斯分类
【补充】朴素贝叶斯概念补充
作者 : 老饼 日期 : 2022-06-27 20:08:42 更新 : 2022-11-30 17:38:10
本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com



本文补充一些朴素贝叶斯模型相关的概念,

通过这些概念的理解,加深对朴素贝叶斯模型的理解


   01. 贝叶斯原理、贝叶斯分类器与朴素贝叶斯的区别   


  贝叶斯原理  、 贝叶斯分类器 、朴素贝叶斯 这几个概念很容易混淆,
非常有必要将它的区别梳理一下。



  贝叶斯原理   

 
    指的是贝叶斯的后验公式。 

 
  贝叶斯分类器    

指用贝叶斯后验公式建立的分类器。

 
  朴素贝叶斯    

在贝叶斯分类器的基础上,添加了“变量间独立”的假设条件。

 




  02. 先验概率、后验概率、信息证据  


为方便查看,再次贴上贝叶斯原理公式:




  先验概率  


先验概率是指,事情未发生,利用以往经验,对未来预测。
例如,贝叶斯原理中的P(属于类别i) 就是先验概率,
先验概率就是,事情还没发生,我就已经能获得的事件发生概率。
例如,下一个阅读这张文章的人我不知道,
但我根据读者性别分布,知道下个读者是男生的性别概率为70%,
先验概率一般由历史发生的概率来获得。


   后验概率  


后验概率是指,事情已经发生,执果寻因,用结果倒推原因的概率。
贝叶斯原理中的 P(属于类别i|已知表现为x特征) 就是后验概率。
后验概率必须是事情发生了,根据一些表现特征,再来推断已发生但我未能直接获得的信息。
例如,下个读者在未到来时,
我根据先验概率,只能知道70%是男生,
此时,上帝也不能确定是男是女。
但当这个读者真正来读时,
上帝就100%确定读者的性别了,而我不知道,
但我根据“读者是在半夜三点阅读的”这一个信息,
我可以推断,这家伙90%是男的。
这就是后验概率,
事情虽然已经明确发生,上帝已经知道了,但我并不知道,
我可以根据一些表征,获得比先验概率更强的后验概率。


  信息证据  


信息证据是一个重要、常见的概念。

我们往往不能直接观察到目标信息y(例如样本的类别),
但我们可以观察到y的一些关联信息x(例如样本的特征),

如果不借用X的信息,我们只能根据以往y的分布进行估算新样本的概率。
但是,当我们掌握了信息X,
我们就可以根据X去补充、修正原先的预测概率,使预测更加准确,
假设X=[x1,x2....xn],每掌握多一个xi,都能让我们把概率修正得更准确,
X里包含的每个xi也就成了我们判断y的信息证据。







 End 









联系老饼