老饼讲解-机器学习 机器学习 神经网络 深度学习
机器学习入门
1.学前解惑
2.第一课:初探模型
3.第二课:逻辑回归与梯度下降
4.第三课:决策树
5.第四课:逻辑回归与决策树补充
6.第五课:常见的其它算法
7.第六课:综合应用

【逻辑回归】逻辑回归损失函数交叉熵形式的理解

作者 : 老饼 发表日期 : 2022-09-24 17:26:04 更新日期 : 2023-12-27 19:42:24
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com


逻辑回归的损失函数一般可以从最大似然去理解,也可以从交叉熵角度去理解,

本文讲解如何从信息量的角度去理解逻辑回归损失函数交叉熵形式的意义



    01. 逻辑回归与信息熵的知识重温     



本节先重温前面学到的相关知识,以方便后面理解逻辑回归损失函数交叉熵形式



    重温交叉熵损失函数    


在逻辑回归模型的学习中,我们提到逻辑回归损失函数的交叉熵形式
 
 
 由于之前知识的限制,我们对它的含义并没有作过多的讲解,
经过《信息量与信息熵》和《逻辑回归Sigmoid函数的由来》的学习
现在回头再来看该公式




   重温信息熵与逻辑回归模型思想   


1、不确定性
 
信息熵有个非常关键的核心思想,
如果一件事情包含的信息熵越大,说明事件对我们来说越混沌、模糊
逐步获取信息的过程,就是在逐步消除事件的不确定性

 
2、逻辑回归的思想
 逻辑回归模型,就是通过加入变量(增加信息),来逐步降低样本类别的不确定性




    02. 再看交叉熵损失函数     



本节讲解如何理解逻辑回归的交叉熵损失函数



    交叉熵损失函数分析    


逻辑回归损失函数交叉熵形式如下:                                
                   
 
它由两部分组成:                                                              
                和 
 
 由于0类样本的 y 等于0,1类样本的也为0,     
所以逻辑回归交叉熵损失函数可以写成如下形式:            
 
即所有样本预测正确的概率取对数再取反:
 
这样就非常明了了,
就是“知道样本的真实类别”所包含的信息量
 相当于在模型预测的P的基础上,
我们再“知道样本的真实类别”时,所获得的信息量

 
我们当然是希望这个信息量越小越好,
这个信息量越小,说明我们对“真实类别”这件事已经认识得越清晰
👉Pass:        
严格来说,
 
只能叫信息量,不能叫熵,
因为熵是信息量的期望,
要改成
才叫熵,
但无所谓,有没有
,对w,b何时取最小值是没影响的



  03. 总结  



本节重新从信息熵的角度理解和总结逻辑回归模型



    重新理解逻辑回归模型    


通过上节《逻辑回归Sigmoid函数的由来》与本文的学习,
我们可以重新梳理和理解逻辑回归模型的思想

逻辑回归模型,就是通过不断添加信息
使“距离真相”所需要的信息量越来越小。
而w,b的训练,就是寻找最佳的信息权重(准确地说,是类别信息差的权重),
使得信息被充分利用,最后让距离真相所需的信息最小化








 End 






联系老饼