爬虫数据处理 pandas数据处理

zoukankan html css js c++ java

爬虫数据处理 pandas数据处理
pandas数据处理

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True
- keep参数：指定保留哪一重复的行数据

映射

1) replace()函数：替换元素

DataFrame替换操作

单值替换

普通替换：替换所有符合要求的元素:to_replace=15,value='e'

按列指定单值替换： to_replace={列标签：替换值} value='value'

多值替换

列表替换: to_replace=[] value=[]

字典替换（推荐） to_replace={to_replace:value,to_replace:value}

map()函数：新建一列， map函数并不是df的方法，而是series的方法

map()可以映射新一列数据

map()中可以使用lambd表达式

map()中可以使用方法，可以是自定义的方法

eg:map({to_replace:value})

注意 map()中不能使用sum之类的函数，for循环

注意：并不是任何形式的函数都可以作为map的参数。只有当一个函数具有一个参数且有返回值，那么该函数才可以作为map的参数。

使用聚合操作对数据异常值检测和过滤

使用df.std()函数可以求得DataFrame对象每一列的标准差

数据清洗

清洗空值

dropna fillna isnull notnull any all

清洗重复值

drop_duplicates（keep）

清洗异常值

异常值监测的结果（布尔值），作为清洗的过滤的条件

随机抽样

当DataFrame规模足够大时，直接使用np.random.permutation(x)函数，就配合take()函数实现随机抽样

数据分类处理【重点】

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

分组：先把数据分为几组

用函数处理：为不同组的数据应用不同的函数以转换数据

合并：把不同组得到的结果合并起来

数据分类处理的核心：

- groupby()函数 - groups属性查看分组情况 - eg: df.groupby(by='item').groups

高级数据聚合

使用groupby分组后，也可以使用transform和apply提供自定义函数实现更多的运算

df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)

transform和apply都会进行运算，在transform或者apply中传入函数即可

transform和apply也可以传入一个lambda表达式
查看全文

相关阅读:
如何使用pgpool failover_stream.sh自己控制选择指定的master节点
 使用pgpool管理数据库集群故障的问题
 pgpool中定义的数据库节点及pgpool支持的复制模式
 pgpool中的配置参数的定义
 pgpool-II在故障切换过程中是如何选举新主节点的
 nginx的proxy_pass路径转发规则浅析（末尾/问题）
elasticsearch 安装配置详解
 查看ElasticSearch服务状态和结果的URL
Elastic数据迁移方法及注意事项
 Kafka安装及部署

原文地址：https://www.cnblogs.com/XLHIT/p/11347436.html

爬虫 数据处理 pandas数据处理

pandas数据处理

映射

1) replace()函数：替换元素

DataFrame替换操作

map()函数：新建一列 ， map函数并不是df的方法，而是series的方法

注意：并不是任何形式的函数都可以作为map的参数。只有当一个函数具有一个参数且有返回值，那么该函数才可以作为map的参数。

使用聚合操作对数据异常值检测和过滤

随机抽样

数据分类处理【重点】

高级数据聚合

使用groupby分组后，也可以使用transform和apply提供自定义函数实现更多的运算

爬虫数据处理 pandas数据处理

map()函数：新建一列， map函数并不是df的方法，而是series的方法