Pandas数据规整
数据分析和建模方面的大量编程工作都是用在数据准备上的,有时候存放在文件或数据库中的数据并不能满足数据处理应用的要求
Pandas提供了一组高级的、灵活的、高效的核心函数和算法,它们能够轻松地将数据规整化为你需要的的形式
合并
连接
Pandas提供了大量方法,能轻松的对Series,DataFrame和Panel执行合并操作
连接pandas对象 .concat()
df = pd.DataFrame(np.random.randn(10, 4)) df pieces = [df[:2], df[3:5], df[7:]] pd.concat(pieces)
追加 .append()
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D']) df s = df.iloc[3] s df.append(s, ignore_index=True)
分组
group by()
:一般指以下一个或多个操作步骤
- Splitting 将数据分组
- Applying 对每个分组应用不同的function
- Combining 使用某种数据结果展示结果
df = pd.DataFrame({ 'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'], 'B' : ['one', 'one', 'two', 'three','two', 'two', 'one', 'three'], 'C' : np.random.randn(8), 'D' : np.random.randn(8) }) df #分组后sum求和: a = df.groupby('A').sum() a = df.groupby('A',as_index=False).sum() a #对多列分组后sum: b = df.groupby(['A','B']).sum() b = df.groupby(['A','B'],as_index=False).sum() b