逻辑回归(Logistic)是二分类任务的首选方法。它输出一个 0 到 1 之间的离散二值结果。简单来说,它的结果不是 1 就是 0。所以逻辑回归解决的是分类问题,不是回归问题。它就是通过拟合 一个逻辑函数 (Logit Function )来预测一个事件发生的概率 所以它预测的是一个概率值。它的输出值应该为 0~1,因此非常适合处理二分类问题。
在 scikit-learn 中的实现类是 LogisticRegression 。
下面以一个Titanic数据集的例子来演示逻辑回归算法
1 import numpy as np 2 import pandas as pd 3 import sklearn 4 # 从sklearn导入LogisticRegression方法 5 from sklearn.linear_model import LogisticRegression 6 # 导入划分训练集和测试集的方法 7 from sklearn.model_selection import train_test_split 8 from sklearn.preprocessing import LabelEncoder 9 from sklearn.metrics import classification_report 10 from sklearn.metrics import accuracy_score 11 12 13 #读取数据 14 data = pd.read_csv("./data/titanic/train.csv") 15 label = LabelEncoder() 16 data['sex'] = label.fit_transform(data['sex']) 17 data['class'] = label.fit_transform(data['class']) 18 data['alone'] = label.fit_transform(data['alone']) 19 #data['Embarked'] = data['Embarked'].astype(str) 20 data['embark_town'] = label.fit_transform(data['embark_town']) 21 22 features = ['class', 'age', 'n_siblings_spouses', 'parch', 'fare', 'sex', 'alone', 'embark_town','survived'] 23 data = data[features] 24 print(data.head()) 25 26 #划分训练集和测试集 27 X = data[['class', 'age', 'n_siblings_spouses', 'parch', 'fare', 'sex', 'alone', 'embark_town']] 28 y = data[['survived']] 29 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2)#random_state为随机种子,确保每次划分的结果是相同的 30 31 32 model = LogisticRegression(penalty='none') # 请在此处修改 penalty 的参数值,只有l2 和 none两个值 33 model.fit(X_train,y_train) 34 35 # 测试模型 36 pred_y = model.predict(X_test) 37 # 输出判断预测是否与真实值相等 38 y_predict = model.predict(X_test[:20]) 39 # 打印预测结果 40 print('===================预测值=======================') 41 print(y_predict) 42 43 # 打印真实值 44 print('===================真实值=======================') 45 print(np.array(y_test[:20]).tolist()) 46 print('==================预测准确率======================') 47 Accuracy = accuracy_score(y_test[:20], y_predict) 48 print('准确率为:{:.2f}%'.format(Accuracy*100))