pandas库之数据处理与规整

上一节我们介绍了 DataFrame 的数据查看与选择

本节主要讲解 DataFrame 的数据处理，包括缺失数据处理、函数的应用和映射、数据规整、分组等。

# 首先导入库
import pandas as pd
# 获取平安银行近几个工作日的开盘价、最高价、最低价、收盘价。
df = get_price('000001.XSHE',start_date='2016-07-01', end_date='2016-07-20', frequency='daily', fields=['open','high','low','close'])
df[df > 9.0] = NaN
df

1 缺失数据处理

1. 1去掉包含缺失值的行：

df.dropna()

1.2 对缺失值进行填充：

df.fillna(value=0)

1.3 判断数据是否为nan，并进行布尔填充：

pd.isnull(df)

2 函数的应用和映射

df.mean()#列计算平均值
open     8.831538
high     8.863636
low      8.812857
close    8.855385
dtype: float64
df.mean(1)#行计算平均值
2016-07-01    8.7025
2016-07-04    8.7575
2016-07-05    8.8025
2016-07-06    8.7925
2016-07-07    8.7775展开输出 ↓    
2016-07-08    8.7625
2016-07-11    8.7575
2016-07-12    8.8150
2016-07-13    8.9100
2016-07-14    8.9550
2016-07-15    8.9625
2016-07-18    8.9800
2016-07-19    8.9600
2016-07-20    8.9650
dtype: float64
df.mean(axis = 1,skipna = False) # skipna参数默认是 True 表示排除缺失值
2016-07-01    8.7025
2016-07-04    8.7575
2016-07-05    8.8025
2016-07-06    8.7925
2016-07-07    8.7775展开输出 ↓    
2016-07-08    8.7625
2016-07-11    8.7575
2016-07-12    8.8150
2016-07-13       NaN
2016-07-14    8.9550
2016-07-15    8.9625
2016-07-18       NaN
2016-07-19       NaN
2016-07-20    8.9650
dtype: float64
df.sort_index()#行名字排序

df.sort_index(axis=1)#列名字排序

# 数据默认是按升序排序的，也可以降序排序
df.sort_index(axis=1,ascending = False)

常用的方法如上所介绍们，还要其他许多，可自行学习，下面罗列了一些，可供参考：

count 非na值的数量

describe 针对Series或个DataFrame列计算汇总统计

min、max 计算最小值和最大值

argmin、argmax 计算能够获取到最大值和最小值得索引位置（整数）

idxmin、idxmax 计算能够获取到最大值和最小值得索引值

quantile 计算样本的分位数（0到1）

sum 值的总和

mean 值得平均数

median 值得算术中位数（50%分位数）

mad 根据平均值计算平均绝对离差

var 样本值的方差

std 样本值的标准差

skew 样本值得偏度（三阶矩）

kurt 样本值得峰度（四阶矩）

cumsum 样本值得累计和

cummin，cummax 样本值得累计最大值和累计最小值

cumprod 样本值得累计积

diff 计算一阶差分（对时间序列很有用）

pct_change 计算百分数变化

3 数据规整

Pandas提供了大量的方法能够轻松的对Series，DataFrame和Panel对象进行各种符合各种逻辑关系的合并操作

concat 可以沿一条轴将多个对象堆叠到一起。

append 将一行连接到一个DataFrame上

duplicated 移除重复数据

3.1 concat

df1 = get_price('000001.XSHE',start_date='2016-07-05', end_date='2016-07-08', frequency='daily', fields=['open','high','low','close'])
df1

df2 = get_price('000001.XSHE',start_date='2016-07-12', end_date='2016-07-15', frequency='daily', fields=['open','high','low','close'])
df2

纵向拼接(默认)：

pd.concat([df1,df2],axis=0)

横向拼接，index对不上的会用 NaN 填充:

pd.concat([df1,df2],axis=1)

下面演示一下index 可以对上情况的横向拼接结果：

df3 = get_price('000001.XSHE',start_date='2016-07-12', end_date='2016-07-15', frequency='daily', fields=['low','close'])
df4 = get_price('000001.XSHE',start_date='2016-07-12', end_date='2016-07-15', frequency='daily', fields=['open','high'])
pd.concat([df3,df4],axis=1)

3.2 append

df1

s = df1.iloc[0]
s
open     8.80
high     8.83
low      8.77
close    8.81
Name: 2016-07-05 00:00:00, dtype: float64
df1.append(s, ignore_index=False) # ignore_index=False 表示索引不变

df1.append(s, ignore_index=True) # ignore_index=True 表示索引重置

3.3 移除重复数据duplicated

z = df1.append(s, ignore_index=False)
z

z.duplicated()
2016-07-05    False
2016-07-06    False
2016-07-07    False
2016-07-08    False
2016-07-05     True展开输出 ↓    
dtype: bool
移除重复数据：

z.drop_duplicates()

4 分组

z.groupby('open').sum()

z.groupby(['open','close']).sum()

df9 = get_price(['000001.XSHE','000002.XSHE'],start_date='2016-07-12', end_date='2016-07-15', frequency='daily', fields=['open','high','low','close'])
df9
<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 4 (major_axis) x 2 (minor_axis)
Items axis: close to open
Major_axis axis: 2016-07-12 00:00:00 to 2016-07-15 00:00:00
Minor_axis axis: 000001.XSHE to 000002.XSHE
df9[:,0,:]

df9[:,:,0]

df9[:,:,1]

df9[0,:,:]

df9.ix[:,0]

Pandas

1. Series

2. DataFrame

2.1 创建一个DataFrame，包括一个numpy array, 时间索引和列名字：

2.2 查看数据

2.3 选择数据

2.3.1 通过下标选取数据:

2.3.2 使用标签选取数据：

2.3.3. 使用位置选取数据：

2.3.4 通过逻辑指针进行数据切片：