老饼讲解-机器学习 机器学习 神经网络 深度学习
机器学习入门
1.学前解惑
2.第一课:初探模型
3.第二课:逻辑回归与梯度下降
4.第三课:决策树
5.第四课:逻辑回归与决策树补充
6.第五课:常见的其它算法
7.第六课:综合应用

【概念】信息量是什么

作者 : 老饼 发表日期 : 2022-09-22 01:48:13 更新日期 : 2024-03-16 21:30:57
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



信息量是信息学中的一个概念,同时也是机器学习中的一个基本知识,

例如决策树、逻辑回归等模型和交叉熵损失函数就是基于信息量而提出的,

由于信息量概念在机器学习中如此地广泛使用,本文讲解信息量的相关概念与计算公式



  01. 信息量是什么   




本节讲解香农信息量是什么及香农信息量是如何定义出来的




     信息量的定义与计算公式    


信息量是对信息的一种量化指标,用于衡量信息的大小,
信息量中最常用的就是香农信息量,香农信息量的定义与计算公式如下:
  
其中,p是事件x发生的概率,h则为事件x所包含的香农信息量
从式中可以看到,事件的香农信息量与事件的概率成反比,
 香农信息量
即一件事发生的概率越小,则包含的信息量越大





    ✍️笔者小故事:关于信息量的非客观性    


笔者初接触时曾经疑问"为什么这件事的信息量是-ln(p)”
后来才明白信息量并不是一种客观存在的"量",是不可能探究出它"真实的量"的
信息量只是一种人为的定义,最多只能讨论这种人为定义合不合理
 香农信息量对信息的度量
 而信息量的定义可以有很多种,但香农的定义目前是较为实用且合理的
也就是说,-ln(p)只是用香农定制的这把"尺子"来度量一个事件的信息大小时的值
它既不是一个客观量,也不是"信息量"的唯一值,而仅仅是"香农信息量"






  02. 信息量是如何定义出来的   



本节讲解香农信息量是如何定义出来的,并从中了解它的特性



      香农是如何定义信息量的    


信息量首先是香农定义出来的,他对信息量的量化主要有三步:
 👉1. 确定信息是具有可度量性的                                           
👉2. 探究信息量化公式应该满足的特性                                
👉3. 根据量化值的特性,反推出信息量的定义公式               

   信息的可度量性   

信息是一个抽象的概念,但我们隐约可以感觉,信息是有大小之分的,
 例如,“小明爱吃榴莲”明显就比“小明爱吃米饭”这件事的信息量更多
 
信息量与概率的关系
并且仔细探究,会发现信息的大小,与事件发生的概率负相关,
即知道一个越小概率的事,获得的信息量越大
既然信息有了大小之分,于是香农(Shannon)决定正式把它量化
信息量需要满足的特性
 
既然要把信息量化,那么,信息量应该满足什么特性呢?
香农总结后,认为需要满足以下三个特性:
 
 1. 单调性                                                                               
   从日常直觉总觉来说,概率越小的事情,信息量应该越大
也就是说,信息量应该与事件发生的概率负单调           
  2. 非负性                                                                            
信息量的最小值应该为0,不能是负数                          
  3. 累加性                                                                             
   
 两个独立事件各自的信息量之和,                                     
需要与这两个独立事件构成的整体事件的信息量相等    
         例如,"小明爱吃米饭”和“小明是小学生”的信息量之和   
应该等于“小明是个爱吃米饭的小学生”             
    香农对信息的量化过程     
 
不妨用h来表示信息量                                                          
        由它与概率的负单调性,可以知道,h应该有以下形式:              
        ,其中 F是负单调函数
              
      又由累加性,两个独立事件的整体事件信息等于两个独立事件的信息和,           
可知,h应该满足                                      


                   
 也即需要找一个负单调函数F,使它满足                               
               
 刚好满足这条件,于是香农用-log作为F                         
正式定义信息量为:                                                           
  





  03. 信息量在机器学习中的意义   



本节讲解在机器学习如何理解信息量



     在机器学习中如何理解信息量      


信息量主要用于定义一件事件所包含的信息的多少
而在机器学习中,它具有其特殊意义,下面我们讲述机器学习中如何看待信息量
机器学习与信息量
机器学习的目的往往是依靠模型去确定一个事件(样本)的真实面目
如果我们对一件事情完整掌握,那么它对我们的信息量永远都为0
 机器学习与信息量
而如果我们对事件只有一个大概的猜测,并非完全掌握,
那么事件在发生时越出乎我们的意料之外,得到的信息量就越多
 在机器学习中,我们当然希望事件的真相带给我们的信息量越少越好,
这说明事件的真相与我们的预期更加一致,没什么好惊讶的
在机器学习中如何直观理解信息量
总的来说,在机器学习中,我们可以用"事件的震惊程度"来理解"事件的信息量"
 信息量的直观意义
我们通过模型不断地降低事件的信息量,这样可以使事件发生时,就再也震惊不到我们了






好了,信息量的概念与意义就写到这了~






  End  


   

联系老饼