数据分析库pandas之Series,Dataframe: replace函数及map函数,
Dataframe库使用replace函数(且不支持method和limit参数),且map不是Dataframe的方法,其实是Series的方法。
duplicated :得到重复的行索引(布尔值)、keep参数(是否保留):‘first‘,'last',False、inplace:是否替换
drop_duplicated():删除重复的行索引
drop():删除具体的行索引
rename:index行索引、columns列索引,level参数
df.all():得到行的布尔值。用于清洗不满足的数据
df.std():求标准差。
数据分析最后一步:聚合操作
groupby返回根据某一列或多列进行分组;
groups返回查看分组后的属性。
在许多情况下,我们将数据分成几组,并在每个子集上应用一些功能。在应用中,我们可以执行以下操作:
- Aggregation :计算一些摘要统计
grouped = df.groupby('Year') print(grouped['Points'].agg(np.mean))
- Transformation :执行一些特定组的操作
grouped = df.groupby('Team') score = lambda x: (x - x.mean()) / x.std()*10 print(grouped.transform(score))
- Filtration:根据某些条件下丢弃数据 比如
df.groupby('Team').filter(lambda x: len(x) >= 3)