Pandas 另一类重要操作是过滤、清理以及其他的转换工作。
DataFrame的duplicated
方法返回一个布尔型Series,表示各行是否是重复行(前面出现过的行)。还有一个与此相关的drop_duplicates
方法,它会返回一个DataFrame,重复的数组会标为False。【这两种方法默认会判断全部列,也可以指定部分列进行重复项判断。例如,只希望根据某一列过滤重复项,只需要传参到上面的方法中。】
duplicated和drop_duplicates默认保留的是第一个出现的值组合。传入keep=‘last’则保留最后一个。
希望根据数组、Series或DataFrame列中的值来实现转换工作。
Series的map
方法可以接受一个函数或含有映射关系的字典型对象,但是如果碰到一些映射的对象中有些值的首字母大写了,而有些则没有,就需要使用Series
的str.lower
方法,将各个值转换为小写。
例如:
lowercased=data[