python线性回归

一.理论基础
1.回归公式
对于单元的线性回归,我们有:f(x) = kx + b 的方程(k代表权重,b代表截距)。
对于多元线性回归,我们有:

或者为了简化,干脆将b视为k0·x0,,其中k0为1,于是我们就有:

2.损失函数
损失函数是用于衡量数据集真实值与预测值的误差的函数,其值越小,说明误差越小,模型模拟出来的效果也就越好。

3.误差衡量
在线性回归中,我们可以通过可视化的方式来对数据的预测值和真实值进行逐一的比较,从而得出模型效果好坏的结论,但是如果仅仅依靠可视化的表示方式,不能严谨地对模型进行量化的评估。因此,我们导入以下指标,以供模型的评价。

MSE(平均平方误差,mean squared error):总体上看,y的预测值与真实值之间的距离越小,则MSE越接近于0,则模型的效果越好。
RMSE(root of mean squared error),是MSE的开根号:同MSE。

 

MAE(平均绝对值误差,mean absolute error):即预测值与真实值绝对值累加的平均数。
R方:R方同样是用来描述模型好坏的指标,范围为[0,1],其值越接近1则表示模型的误差越小。其中,TSS是与上方的RSS抵消,使得RSS/TSS不会超过1,从而使得R方的值不会低于0。所以在训练集当中R方的范围为[0,1]。而由于训练集测试出来的模型是机器学习出来适用于训练集上的,所以将训练出来的模型运用于测试集时,有一定的可能会出现得出的R方小于0的情况,这种情况下则说明训练出来的模型不太好。

————————————————
版权声明:本文为CSDN博主「数据洪流」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_45891155/article/details/111109655

THE END