机器学习-特征降维

本文主要是介绍机器学习-特征降维，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

特征降维

目标

知道特征选择的嵌入式、过滤式以及包裹氏三种方式
应用VarianceThreshold实现删除低方差特征
了解相关系数的特点和计算
应用相关性系数实现特征选择

降维

降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

降低随机变量的个数
相关特征(correlated feature)：相对湿度与降雨量之间的相关等等

正是因为在进行训练的时候，我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大

降维的两种方式

特征选择
主成分分析（可以理解一种特征提取的方式）

特征选择

什么是特征选择

定义: 数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。

方法:

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
- 方差选择法：低方差特征过滤
- 相关系数
Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
- 决策树:信息熵、信息增益
- 正则化：L1、L2
- 深度学习：卷积等
Wrapper (包裹式)

模块

sklearn.feature_selection 复制代码

过滤式

低方差特征过滤

删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

特征方差小：某个特征大多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别

API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
- X:numpy array格式的数据[n_samples,n_features]
- 返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。
- 删除所有低方差特征
- Variance.fit_transform(X)

数据计算

我们对某些股票的指标特征之间进行一个筛选

一共这些特征

pe_ratio,pb_ratio,market_cap,return_on_asset_net_profit,du_return_on_equity,ev,earnings_per_share,revenue,total_expense

index,pe_ratio,pb_ratio,market_cap,return_on_asset_net_profit,du_return_on_equity,ev,earnings_per_share,revenue,total_expense,date,return

0,000001.XSHE,5.9572,1.1818,85252550922.0,0.8008,14.9403,1211444855670.0,2.01,20701401000.0,10882540000.0,2012-01-31,0.027657228229937388

1,000002.XSHE,7.0289,1.588,84113358168.0,1.6463,7.8656,300252061695.0,0.326,29308369223.2,23783476901.2,2012-01-31,0.08235182370820669

2,000008.XSHE,-262.7461,7.0003,517045520.0,-0.5678,-0.5943,770517752.56,-0.006,11679829.03,12030080.04,2012-01-31,0.09978900335112327

3,000060.XSHE,16.476,3.7146,19680455995.0,5.6036,14.617,28009159184.6,0.35,9189386877.65,7935542726.05,2012-01-31,0.12159482758620697

4,000069.XSHE,12.5878,2.5616,41727214853.0,2.8729,10.9097,81247380359.0,0.271,8951453490.28,7091397989.13,2012-01-31,-0.0026808154146886697

def variance_demo():

"""

过滤低方差特征

:return:

"""

# 1、获取数据

data = pd.read_csv("factor_returns.csv")

data = data.iloc[:, 1: -2]

print(data)

# 2、实例化一个转换器

transfer = VarianceThreshold(threshold=5)

# 3、调用fit_transform

data_new = transfer.fit_transform(data)

print("data_new", data_new, data_new.shape)

return None

if __name__ == '__main__':

# 低方差特征过滤

variance_demo()

特点

相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下：

当r>0时，表示两变量正相关，r<0时，两变量为负相关
当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系
当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱

一般可按三级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性相关；0.7≤|r|<1为高度线性相关

这个符号：|r|为r的绝对值， |-5| = 5

API

from scipy.stats import pearsonr

x ： (N,) array_like

y ： (N,) array_like Returns: (Pearson’s correlation coefficient, p-value)

主成分分析

目标

应用PCA实现特征的降维
应用：用户与物品类别之间主成分分析

什么是主成分分析(PCA)

定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量

作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。

应用：回归分析或者聚类分析当中

那么更好的理解这个过程呢？我们来看一张图

API

sklearn.decomposition.PCA(n_components=None)
- 小数：表示保留百分之多少的信息
- 整数：减少到多少特征
- 将数据分解为较低维数空间
- n_components:
- PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后指定维度的array

数据计算

[[2,8,4,5], 
[6,3,0,8], 
[5,4,9,1]]

def pca():

"""

主成分分析进行降维

:return:

"""

# 信息保留70%

pca = PCA(n_components=0.7)

data = pca.fit_transform([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])

print(data)

return None

案例：探究用户对物品类别的喜好细分降维

数据

order_products__prior.csv：订单与商品信息
- 字段：order_id, product_id, add_to_cart_order, reordered
products.csv：商品信息
- 字段：product_id, product_name, aisle_id, department_id
orders.csv：用户的订单信息
- 字段：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所属具体物品类别
- 字段： aisle_id, aisle

分析

合并表，使得user_id与aisle在一张表当中
进行交叉表变换
进行降维

def pca_case_study():

"""

主成分分析案例

:return:

"""

# 去读四张表的数据

prior = pd.read_csv("./instacart/order_products__prior.csv")

products = pd.read_csv("./instacart/products.csv")

orders = pd.read_csv("./instacart/orders.csv")

aisles = pd.read_csv("./instacart/aisles.csv")

print(prior)

# 合并四张表

mt = pd.merge(prior, products, on=['product_id', 'product_id'])

mt1 = pd.merge(mt, orders, on=['order_id', 'order_id'])

mt2 = pd.merge(mt1, aisles, on=['aisle_id', 'aisle_id'])

# pd.crosstab 统计用户与物品之间的次数关系（统计次数）

cross = pd.crosstab(mt2['user_id'], mt2['aisle'])

# PCA进行主成分分析

pc = PCA(n_components=0.95)

data_new = pc.fit_transform(cross)

print("data_new:\n", data_new.shape)

return None

作者：后端码匠
链接：https://juejin.cn/post/6995744773902434334
来源：掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这篇关于机器学习-特征降维的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

机器学习

机器学习-特征降维

特征降维

目标

降维

降维的两种方式

特征选择

什么是特征选择

模块

过滤式

低方差特征过滤

数据计算

相关系数

特点

主成分分析

目标

什么是主成分分析(PCA)

数据计算

案例：探究用户对物品类别的喜好细分降维

数据

分析

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯