老饼讲解-机器学习 机器学习 神经网络 深度学习
线性模型

【辨析】直观理解岭回归不能去掉无效变量

作者 : 老饼 发表日期 : 2022-08-11 11:48:40 更新日期 : 2023-11-09 16:38:44
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



岭回归最大的缺点是无法去除无效变量,

本文利用二维的场景,讲解如何直观理解为什么岭回归无法去除无效变量



   01. 问题   



本节先介绍本文要讨论的“岭回归无法去除无效变量”是一个什么样的问题



      什么是“岭回归无法去除无效变量”     


岭回归最大最大的缺点就是,它一般无法去掉无效变量
它表现为模型求得的每个变量的系数基本都不会为0
 也就是说,
如果有一个与y无关的变量,
理想中的模型该变量的系数应该为0
而岭回归最后给出的该变量的系数并不为0





   02. 问题辨析   



本节辨析岭回归为何无法去除无效变量



     岭回归为何无法去除无效变量    


下面以二维场景为例,
用反证法从几何上说明岭回归求得的系数不为0


 损失函数的构成
   回顾岭回归的损失函数 

 

从损失函数可以看到,
损失函数由与  两部分构成
 简记为   与 

 假设最优解存在系数为0
假设岭回归最优解的某个系数为0,
在几何上表现为落在某轴上,不妨记为点P,
设点p在     与  两部分的值分别为c1,c2
则此时损失函数值为
  
 举例证明存在更优解
又由于圆 上任意一点对于的值都是c1
椭圆  上任意一点对于的值都是c2
如果在圆与椭圆的两交点连线上取某点P'
         由于P'在圆内且在椭圆内,
则对于的值必小于c1,
对于的值必小于c2
也即如果以P'作为解,损失函数值<
因此而P不是最小解

 结论
从上面的分析可以得知,如果椭圆不落在轴上时
椭圆与圆就会有两个交点,最优解的变量系数就不会为0
因而岭回归不能去掉变量









 End 






联系老饼