本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com
本文展示一个朴素贝叶斯的具体计算实例,
通过本实例,更具体的了解朴素贝叶素的使用。
问题
现有身高、体重与性别的历史数据如下
问题:现在来了个身高分组为3,体重分组为2的,
需要如何判断该样本的类别
本节以朴素贝叶斯的判断过程为例,讲述朴素贝叶素是如何对一个新样本作出判断的
模型思想回顾
朴素贝叶斯就是以历史数据作为依据
判断新样本属于各类别的概率
最后属于哪个类别的概率较大
就判为属于哪一类
具体判断过程
1、估算各类别下特征表现的概率
P(身高=3|已知属于男) = 男样本中身高分组为3的个数 / 男样本个数 = 1/3
P(体重=2|已知属于男) = 男样本中体重分组为2的个数 / 男样本个数 = 1/3
P(身高=3|已知属于女) = 女样本中身高分组为3的个数 / 女样本个数 = 1/4
P(体重=2|已知属于女) = 女样本中体重分组为2的个数 / 女样本个数 = 2/4
2、估算属于各类别的先验概率(即类别占比)
P(属于男) =
P(属于女) =
3、 估算特征表现概率(即特征占比)
P(身高=3) = 身高为分组3的占比 =
P(体重=2) = 体重为分组2的占比 =
4、计算样本属于各类别的概率值(或判别值)
5、结论
是男的概率为 ,是女的概率为,由此,判断样本属于女
备注:特征占比在实际计算中不需计算,因为最后是比较大小,分母不必计算
下面说明用本例数据最终生成的模型和如何使用模型进行判别
建模过程
我们需要输出的模型为《类别概率表》和《特征概率表》,
通过公式可计算如下:
《类别概率表》
《特征概率表》
![]()
模型应用流程
现在来了个身高分组为3,体重分组为2的,
模型应用时一般只用判别函数G,不需计算具体概率,
通过查表可算得:
由,可判该样本为女。
End