Python Pandas基础数据处理方法总结

本文主要是介绍Python Pandas基础数据处理方法总结，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

- 一、提取数据
- - - 1. 从csv文件
    - 2. 从数据仓库
- 二、新建
- - - 1. DataFrame
- 三、数据筛选
- - - 1. 判断空值
    - 2. 根据一列数据筛选
- 四、表之间
- - - 1. 横向合并（列相同情况下）
    - 2. 纵向合并
    - 3. merge
- 五、表内
- - - 1. 排序
    - 2. 去重
    - 3. 分组计数
    - 4. groupby( )
    - 5. iloc( )
    - 6. 循环每列
    - 7. 删除/选取列
- 五、统计学相关
- - - 1. crosstable
    - 2. 卡方检验
    - 3. SelectKBest
- 五、Jupyter Notebook相关
- - - 1. 展示所有行/所有列

一、提取数据

1. 从csv文件

pd.read_csv('/home/xxx/xxxx_0818.csv')

2. 从数据仓库

# 需要配置
spark.sql('''
select * from tbl
where member_id = '001'
''').toPandas()

二、新建

1. DataFrame

# 一共三列，列名：feature，ex，pvalue：
pd.DataFrame({'feature':[], 'ex':[], 'pvalue':[]}
# 带数据：
pd.DataFrame({'feature':index, 'ex':example, 'pvalue':p, 'chi':chi}, index = [1])

三、数据筛选

1. 判断空值

df_new[df_new['col1'].isnull() == False]

2. 根据一列数据筛选

dataframe[dataframe['col1']<0.05]

四、表之间

1. 横向合并（列相同情况下）

df_orig = df_orig.append(df_new, ignore_index=True)

2. 纵向合并

cols = gender.join(is_married)
cols = basic.join(age_segment1)

3. merge

member_level_merge = pd.merge(member_level, m_info, on = 'member_id', how = 'left')

五、表内

1. 排序

dataframe.sort_values(['col1'], ascending = False)

2. 去重

dataframe.drop_duplicates('member_id')

3. 分组计数

table['date_difference'].value_counts()
table.groupby('date_difference).size()

4. groupby( )

在这里插入代码片

5. iloc( )

table.iloc[:, 0:3]  # 第一至三列

6. 循环每列

for index, row in dataframe.iteritems():
	print(index)    # 打印每列的列名

或者

for col in df.columns:
	print(index)     # 打印每列的列名

7. 删除/选取列

X = df.drop(['col1', 'col2', 'col3'], axis=1)  # 删除列
y = df.label   # 选取列

五、统计学相关

1. crosstable

pd.crosstab(label, feature, margins=True)

2. 卡方检验

# p-value
scipy.stats.chi2_contingency(cross_table)[1]
# chi^2
scipy.stats.chi2_contingency(cross_table)[0]

3. SelectKBest

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
skb = SelectKBest(chi2, k=2)
skb = skb.fit(cols, feat)
skb.get_support()

五、Jupyter Notebook相关

1. 展示所有行/所有列

# 所有行
pd.set_option('display.max_rows', None)
# 所有列
pd.set_option('display.max_columns', None)

这篇关于Python Pandas基础数据处理方法总结的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python Pandas基础数据处理方法总结

目录

一、提取数据

1. 从csv文件

2. 从数据仓库

二、新建

1. DataFrame

三、数据筛选

1. 判断空值

2. 根据一列数据筛选

四、表之间

1. 横向合并（列相同情况下）

2. 纵向合并

3. merge

五、表内

1. 排序

2. 去重

3. 分组计数

4. groupby( )

5. iloc( )

6. 循环每列

7. 删除/选取列

五、统计学相关

1. crosstable

2. 卡方检验

3. SelectKBest

五、Jupyter Notebook相关

1. 展示所有行/所有列

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯