在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
1.可以发现文件里的数据有些为0,现实是不合理的
2.利用唯一标识house_id,删除重复值
3.缺失值处理,将bedrooms和bathrooms列的缺失行删除
①选中地址列的数据区域即bedrooms所在的列,点击数据——筛选——图中下拉三角形,筛选值为0:
②选中删除bedrooms值为0的所有行:
4.按上面同样的删除bathrooms列的缺失值,处理后表里neighbor和style列还有字符值:
5.可以选择删除字符列或将列值改掉,我们选择改掉:
①选择开始–>查找与替换–>替换:
6.处理后的表:
1.导入包
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt
2.读取文件
df = pd.read_csv('D:/house_prices.csv')#返回表格的一些基本信息,主要介绍数据集各列的数据类型,是否为空值,内存占用情况 df.info(); df.head()
3.去除第一列house
4.赋值变量
x_data = new_data.iloc[:, 0:5] #area、bedrooms、bathroom对应列 y_data = new_data.iloc[:, -1] #price对应列 print(x_data, y_data, len(x_data))
5.建立模型并输出结果
# 应用模型 model = linear_model.LinearRegression() model.fit(x_data, y_data) print("回归系数:", model.coef_) print("截距:", model.intercept_) print('回归方程: price=',model.coef_[0],'*neiborhood+',model.coef_[1],'*area +',model.coef_[2],'*bedrooms +',model.coef_[3],'*bathromms +',model.coef_[4],'*sytle ',model.intercept_)
本次实验了解了多元回归模型的相关概念,构建模型的基本步骤。学会了如何用Excel表构建多元回归模型,如何增加删除线性单元。熟悉使用sklearn库调用函数的方法,了解了一些处理数据的基本方法,包括处理缺省值和非数值数据的处理方法等。
https://blog.csdn.net/qq_47281915/article/details/120928871?spm=1001.2014.3001.5501https://www.cnblogs.com/chouxianyu/p/11704665.html#%E9%A2%98%E7%9B%AE%E8%A6%81%E6%B1%82
https://blog.csdn.net/YangMax1/article/details/120812509