本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
岭回归最大的缺点是无法去除无效变量,
本文利用二维的场景,讲解如何直观理解为什么岭回归无法去除无效变量
本节先介绍本文要讨论的“岭回归无法去除无效变量”是一个什么样的问题
什么是“岭回归无法去除无效变量”
岭回归最大最大的缺点就是,它一般无法去掉无效变量
它表现为模型求得的每个变量的系数基本都不会为0
也就是说,
如果有一个与y无关的变量,
理想中的模型该变量的系数应该为0
而岭回归最后给出的该变量的系数并不为0
本节辨析岭回归为何无法去除无效变量
岭回归为何无法去除无效变量
下面以二维场景为例,
用反证法从几何上说明岭回归求得的系数不为0
损失函数的构成
回顾岭回归的损失函数
从损失函数可以看到,
损失函数由与 两部分构成
简记为 与
假设最优解存在系数为0
假设岭回归最优解的某个系数为0,
在几何上表现为落在某轴上,不妨记为点P,
设点p在 与 两部分的值分别为c1,c2
则此时损失函数值为
举例证明存在更优解
又由于圆 上任意一点对于的值都是c1
椭圆 上任意一点对于的值都是c2
如果在圆与椭圆的两交点连线上取某点P'
由于P'在圆内且在椭圆内,
则对于的值必小于c1,
对于的值必小于c2
也即如果以P'作为解,损失函数值<
因此而P不是最小解
结论
从上面的分析可以得知,如果椭圆不落在轴上时
椭圆与圆就会有两个交点,最优解的变量系数就不会为0
因而岭回归不能去掉变量
End