Logistic Regression = Linear Regression + Logistic(Sigmoid) Function
分类问题根据要划分的类别数量,可分为:
Softmax
函数解决。Softmax函数怎么解决???看一下之前的笔记。
二元分类中,通常将“是”类称为“正类”(Positive),而将“否”类称为“负类”(Negative),与之对应的训练集也可划分为“正样本”和“负样本”。
阶跃函数(StepFunction,又称Heaviside Function)的函数图像:
从图像中可以看出,阶跃函数似乎可用于二元分类问题,但是由于它是不连续的,这样的函数是不可导的,而在机器学习中,可导性非常重要,否则就无法搭配使用梯度下降算法,使得偏差最小了。
因此,最适合的函数是Logistic函数,它既可导,又具有类似阶跃函数的能力。
Logistic函数有一个特性:X轴的值越是小于0,Y轴的值越是接近于0;X轴的值越是大于0,Y轴的值越是接近于1。线性模型的预测结果是一个连续的数值,但是我们只需要把其预测结果再加上Logistic函数,就能够映射到分类问题所需要的预测结果。
思路如下:
把线性回归的预测结果,再套上Logistic函数的“马甲”,使得最终的预测值在 \((0, 1)\) 范围内,假如预测结果大于某个阈值(比如0.5)就认为是正类,否则就认为是负类。
1.Logistic回归的数学表达式
Logistic函数的数学表达式:
\[Logistic(z) = \frac{1}{1+e^{-z}} = \frac{1}{1+\exp(-z)} \]把线性回归的预测值作为Logistic函数的输入值,就得到了Logistic回归的假设函数:
\[H(x) = \frac{1}{1+e^{-(w^Tx_i+b)}} \]2.Logistic回归的损失函数
Logistic回归的损失函数:
\[L(x) = -y\log H(x) - (1-y) \log (1-H(x)) \]Logistic回归分类算法信息表
具体三个步骤和线性回归一样。
在sklearn库中,线性模型都在linear_model
类库下。
1.LinearRegression类
对应线性回归算法,也称为普通最小二乘法法(Ordinary Least Square, OLS),其损失函数为:
\[L(x) = \min\limits_{w} \|Xw -y\|_2^2 \]2.Ridge类
对应Ridge回归算法,又称为岭回归,是在线性回归的基础上添加了L2正则项,其损失函数为:
\[L(x) = \min\limits_{w} \|Xw -y\|_2^2 + a\|w\|_2^2 \]3.Lasso类
对应Lasso回归算法,是在线性回归的基础上添加了L1正则项,其损失函数为:
\[L(x) = \min\limits_{w} \frac{1}{2n}\|Xw -y\|_2^2 + a\|w\|_1 \]4.LogisticRegression类
为本章所讲的Logistic回归,用法如下:
# 从sklearn导入线性模型中的Logistic回归算法 from sklearn.linear_model import LogisticRegression # 导入鸢尾花分类数据集 from sklearn.datasets import load_iris # 载入鸢尾花数据集 X, y = load_iris(return_X_y=True) # 训练模型 clf = LogisticRegression().fit(X, y) # 使用模型进行分类预测 clf.predict(X)
预测结果如下:
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])
使用默认的性能评估器:
clf.score(X, y)
得分如下:
0.96
Logistic回归分类算法结构清晰,原理简单,但在多特征、多类别场景下容易过拟合,表现不如二分类领域。
Logistic回归分类算法的特点
算法使用案例
研究点击率(Click Through Rate, CTR)时,Google提出的LR-FTRL算法,同样利用了Logistic回归算法。