数据清洗函数
|
函数 |
含义 |
|
duplicated() |
判断序列元素是否重复 |
|
drop_duplicates() |
删除重复值 |
|
hasnans() |
判断序列是否存在缺失(返回TRUE或FALSE) |
|
isnull() |
判断序列元素是否为缺失(返回与序列长度一样的bool值) |
|
notnull() |
判断序列元素是否不为缺失(返回与序列长度一样的bool值) |
|
dropna() |
删除缺失值 |
|
fillna() |
缺失值填充 |
|
ffill() |
前向后填充缺失值(使用缺失值的前一个元素填充) |
|
bfill() |
后向填充缺失值(使用缺失值的后一个元素填充) |
|
dtypes() |
检查数据类型 |
|
astype() |
类型强制转换 |
|
pd.to_datetime |
转日期时间型 |
|
factorize() |
因子化转换 |
|
sample() |
抽样 |
|
where() |
基于条件判断的值替换 |
|
replace() |
按值替换(不可使用正则) |
|
str.replace() |
按值替换(可使用正则) |
|
str.split.str() |
字符分隔 |