【辨析】直观理解岭回归不能去掉无效变量

作者 : 老饼发表日期 : 2022-08-11 11:48:40 更新日期 : 2023-11-09 16:38:44

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

岭回归最大的缺点是无法去除无效变量，

本文利用二维的场景，讲解如何直观理解为什么岭回归无法去除无效变量

01. 问题

本节先介绍本文要讨论的“岭回归无法去除无效变量”是一个什么样的问题

什么是“岭回归无法去除无效变量”

岭回归最大最大的缺点就是，它一般无法去掉无效变量
它表现为模型求得的每个变量的系数基本都不会为0
也就是说，
如果有一个与y无关的变量，
理想中的模型该变量的系数应该为0
而岭回归最后给出的该变量的系数并不为0

02. 问题辨析

本节辨析岭回归为何无法去除无效变量

岭回归为何无法去除无效变量

下面以二维场景为例，
用反证法从几何上说明岭回归求得的系数不为0

损失函数的构成
   回顾岭回归的损失函数

从损失函数可以看到,
损失函数由与  两部分构成
简记为   与

假设最优解存在系数为0
假设岭回归最优解的某个系数为0，
在几何上表现为落在某轴上，不妨记为点P，
设点p在     与  两部分的值分别为c1,c2
则此时损失函数值为

举例证明存在更优解
又由于圆上任意一点对于的值都是c1
椭圆  上任意一点对于的值都是c2
如果在圆与椭圆的两交点连线上取某点P'
         由于P'在圆内且在椭圆内，
则对于的值必小于c1，
对于的值必小于c2
也即如果以P'作为解，损失函数值<
因此而P不是最小解

结论
从上面的分析可以得知，如果椭圆不落在轴上时
椭圆与圆就会有两个交点，最优解的变量系数就不会为0
因而岭回归不能去掉变量

End