本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com
本文补充一些朴素贝叶斯模型相关的概念,
通过这些概念的理解,加深对朴素贝叶斯模型的理解
贝叶斯原理 、 贝叶斯分类器 、朴素贝叶斯 这几个概念很容易混淆,
非常有必要将它的区别梳理一下。
贝叶斯原理
指的是贝叶斯的后验公式。
贝叶斯分类器
指用贝叶斯后验公式建立的分类器。
朴素贝叶斯
在贝叶斯分类器的基础上,添加了“变量间独立”的假设条件。
为方便查看,再次贴上贝叶斯原理公式:
先验概率
先验概率是指,事情未发生,利用以往经验,对未来预测。
例如,贝叶斯原理中的P(属于类别i) 就是先验概率,
先验概率就是,事情还没发生,我就已经能获得的事件发生概率。
例如,下一个阅读这张文章的人我不知道,
但我根据读者性别分布,知道下个读者是男生的性别概率为70%,
先验概率一般由历史发生的概率来获得。
后验概率
后验概率是指,事情已经发生,执果寻因,用结果倒推原因的概率。
贝叶斯原理中的 P(属于类别i|已知表现为x特征) 就是后验概率。
后验概率必须是事情发生了,根据一些表现特征,再来推断已发生但我未能直接获得的信息。
例如,下个读者在未到来时,
我根据先验概率,只能知道70%是男生,
此时,上帝也不能确定是男是女。
但当这个读者真正来读时,
上帝就100%确定读者的性别了,而我不知道,
但我根据“读者是在半夜三点阅读的”这一个信息,
我可以推断,这家伙90%是男的。
这就是后验概率,
事情虽然已经明确发生,上帝已经知道了,但我并不知道,
我可以根据一些表征,获得比先验概率更强的后验概率。
信息证据
信息证据是一个重要、常见的概念。
我们往往不能直接观察到目标信息y(例如样本的类别),
但我们可以观察到y的一些关联信息x(例如样本的特征),
如果不借用X的信息,我们只能根据以往y的分布进行估算新样本的概率。
但是,当我们掌握了信息X,
我们就可以根据X去补充、修正原先的预测概率,使预测更加准确,
假设X=[x1,x2....xn],每掌握多一个xi,都能让我们把概率修正得更准确,
X里包含的每个xi也就成了我们判断y的信息证据。
End