将不同的数据源进行合并 , 类似数据库 join merge .
工具函数
默认按行合并。 axis=0 ,试试 axis = 1
结果中,索引是重复的。 这可能并不是我们想要的结果。
1)捕捉索引重复的错误。 verify_integrity=True
当数据源 带有 不同的 列名 。
位置上缺失的参数会用NaN表示。可以使用join 和 join_axes(老版本)参数设置合并方式。
默认的合并方式是对所有输入列进行并集合并:join = outer .
对输入列进行交集合并: join = inner
另一种,直接确定结果使用的列名。老版本是由join_axes参数。新版本使用merge方法了。
pd.merge()实现的功能基于关系代数。 relational algebra ,关系代数式处理关系数据的通用理论。
一对一连接
俩个df都有employee列,自动以这列作为键 进行连接。
多对一连接
有一列的值有重复。 会保留重复值。
多对多连接
共同列 都有重复值 。
获取到的结果有多余的列。使用drop()方法将这列去掉。
简单的方法,join()方法按照索引进行合并。
索引与列混合使用。
默认是内连接 inner join. 取共同列的交集。
内连接 inner join
外连接 outer join
左连接 left join
右连接 right join
默认自动会增加后缀。
使用suffixex参数