数据类型分为连续型和离散型。离散型的数据经常用来表示分类,连续型的数据经常用来表示不确定的值。比如一个产品质量分为1类,2类,这是离散型。房价1.4万/平,3.4万/平,这是连续型。之前我们学的都是分类,那么对于一些连续型的数据,我们就可以通过回归算法来进行预测了。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。那么什么是线性关系和非线性关系?
比如说在房价上,房子的面积和房子的价格有着明显的关系。那么X=房间大小,Y=房价,那么在坐标系中可以看到这些点:
如果房间面积大小和房价的关系可以用一根直线表示,那么这就是线性关系:
而如果不是一根直线,那么就是非线性关系:
线性回归通过一个或者多个自变量与因变量之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。
线性回归方程,就是有k
个特征,然后每个特征都有相应的系数,并且在所有特征值为0
的情况下,目标值有一个默认值。因此线性回归方程如下:
h
(