zoukankan html css js c++ java

Pandas 学习笔记

Pandas 的基本概念就是 DataFrame，所有属性和操作都是围绕它而来。

Padans 中的每一列叫做 Series，每一个 Series 中的数据类型要保持一致，但是 DataFrame 中的 Series 的类型可以不一样。

一般 Python 三剑客的导入的方法如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

创建 Series 和索引

序列 = 数据 + 索引 + 序列名 + 数据类型

>>> s_age = pd.Series(data=[1, 2, 3, 4], index=["a", "b", "c", "d"], name="mySeries", dtype=np.int32)
>>> s_age
a    1
b    2
c    3
d    4
Name: mySeries, dtype: int32
>>> s_age.reindex(['a','b','e']) # 重排
a    1.0
b    2.0
e    NaN
Name: mySeries, dtype: float64
>>> s_age[0]
1
>>> s_age[1:2]
b    2
Name: mySeries, dtype: int32
>>> s_age[1:2]=22
>>> s_age
a     1
b    22
c     3
d     4
Name: mySeries, dtype: int32
>>> s_age["a"]
1

创建 DataFrame

用 Series 创建

>>> s1 = pd.Series(data=["M", "F", "M", "F"], index=["a", "b", "c", "d"], name="sex")
>>> s2 = pd.Series(data=[21, 22, 23, 24], index=["a", "b", "c", "d"], name="age")
>>> df = pd.DataFrame({'sex': s1.astype("category"), 'age': s2})
>>> df
   age sex
a   21   M
b   22   F
c   23   M
d   24   F

从文件中读取

包括但不限于 csv，数据库。

iris=pd.read_csv('https://raw.github.com/pydata/pandas/master/pandas/tests/data/iris.csv', sep=',')

查看属性

>>> df.index # 行名
Index(['a', 'b', 'c', 'd'], dtype='object')
>>> df.columns # 列名
Index(['age', 'sex'], dtype='object')
>>> df.dtypes # 列属性，也就是 Series 类型
age       int64
sex    category
dtype: object

head 和 tail 就和 Linux 下面的 haed 和 tail 命令类似。

>>> df.head()
   age sex
a   21   M
b   22   F
c   23   M
d   24   F
>>> df.tail()
   age sex
a   21   M
b   22   F
c   23   M
d   24   F
>>> df.describe()
             age
count   4.000000
mean   22.500000
std     1.290994
min    21.000000
25%    21.750000
50%    22.500000
75%    23.250000
max    24.000000

聚合

就和 sql 中的 groupby 类似。

>>> df.groupby([df["sex"]]).agg({"age": ["sum", "mean"]})
    age
    sum mean
sex
F    46   23
M    44   22

排序

可以指定排序的依据，是否倒序等等。

>>> df.sort_index(ascending=False)
   age sex
d   24   F
c   23   M
b   22   F
a   21   M
>>> df.sort_values(by="age", ascending=False)
   age sex
d   24   F
c   23   M
b   22   F
a   21   M

透视

>>> df
   age sex  sorce
a   21   M     11
b   22   F     12
c   23   M     13
d   24   F     14
>>> df.pivot_table(index=['age'], columns=['sex'], values=['sorce'], aggfunc=[len, np.mean,np.sum],margins=True, fill_value=0)
      len         mean           sum
    sorce        sorce         sorce
sex     F  M All     F   M All     F   M All
age
21      0  1   1     0  11  11     0  11  11
22      1  0   1    12   0  12    12   0  12
23      0  1   1     0  13  13     0  13  13
24      1  0   1    14   0  14    14   0  14
All     2  2   4    13  12  12    26  24  50

索引

也就是定位元素。

>>> df[1:3] # 切片
   age sex  sorce
b   22   F     12
c   23   M     13
>>> df[df.sorce>12] # bool 索引
   age sex  sorce
c   23   M     13
d   24   F     14
>>> df.query('sorce>12') # sql 索引
   age sex  sorce
c   23   M     13
d   24   F     14
>>> df = pd.DataFrame(np.arange(10).reshape(-1, 2), columns=['A', 'B'])
>>> df.where(df.A>2, 10) # 不满足条件的填充
    A   B
0  10  10
1  10  10
2   4   5
3   6   7
4   8   9
>>> df
   A  B
a  0  1
b  2  3
c  4  5
d  6  7
e  8  9
>>> df.A # 选择列
a    0
b    2
c    4
d    6
e    8
Name: A, dtype: int64
>>> df[['A', 'B']] # 选择多列
   A  B
a  0  1
b  2  3
c  4  5
d  6  7
e  8  9
>>> df.loc[['a','b'], ['A','B']] # 选择行与列
   A  B
a  0  1
b  2  3
>>> df.iloc[1:3, 0:2] # 根据行列下标来选择
   A  B
b  2  3
c  4  5

合并数据

# axis 设置纬度，join 指定合并方式，参考 sql 的连接
pd.concat([df1,df2],axis=0,join='outer')
# merge 就和 sql 的 join 类似
pd.merge(df1,df2,on=['age'],how='left')

更多参数和直观的体现可以参考 Merge, join, and concatenate。

采样

df1.sample(n=100, weights='age',axis=0, replace=True)

sklearn 也有对 DataFrame 进行 shuffle 的函数。

https://www.ouyangsong.com/posts/19907/

欧阳松 (@ouyangsong) 的博客，关于算法，编程语言以及黑客精神的笔记，记录了程序员的修炼之道。

查看全文

相关阅读:
心得体悟帖---200209(效率太低的事情我是不会做的，这个可以解释我所有的行为)
心得体悟帖---200209(顺心而动的睡觉方式（6+1或者5+2的睡觉方式）)
按钮用图片做背景hover时闪烁
 范仁义Emmet课程---1、HTML速写之Emmet语法规则
 CSS3疑难问题---5、:before和::before的区别
 reset.css是什么
 日常英语---200209（Abbreviations（Emmet Abbreviations Syntax））
日常英语---200209（relative（layer model））
日常英语---200209（Emmet Abbreviations Syntax）
伪元素和伪类在chrome浏览器里面还是比较好区分的

原文地址：https://www.cnblogs.com/ouyangsong/p/9348189.html