Pandas学习笔记

zoukankan html css js c++ java

Pandas学习笔记
Pandas主要有下面几种数据类型：
- Series（一维数组）
- DataFrame（二维数组）
- Panel（三维数组）
- Panel4D（四维数组）
- PanelND（N维数组）
Series
```
pandas.Series(data=None, index=None)
```
其中，data 可以是字典，或者NumPy 里的 ndarray 对象等。index 是数据索引，索引是 Pandas 数据结构中的一大特性，它主要的功能是帮助我们更快速地定位数据。
```
%matplotlib inline
import pandas as pd

s = pd.Series({'a': 10, 'b': 20, 'c': 30})
'''
a    10
b    20
c    30
dtype: int64
'''
```
type(s)可以查看数据的类型。
```
pandas.core.series.Series
# pandas.core.series.Series
```
由于 Pandas 基于 NumPy 开发。那么 NumPy 的数据类型 ndarray 多维数组自然就可以转换为 Pandas 中的数据。而 Series 则可以基于 NumPy 中的一维数据转换。
```
import numpy as np
s = pd.Series(np.random.randn(5))
'''
0   -1.912776
1   -1.462528
2   -0.416607
3   -1.522392
4   -1.196030
dtype: float64
'''
```
DataFrame

DataFrame是Pandas中最常见的一种，由于常常数据是以二维形式存储在csv种，所以用Pandas读取csv中的二维数组是一项必不可少的技能，你可以把 DataFrame 看成是 Series 的扩展类型，它仿佛是由多个 Series 拼合而成。它和 Series 的直观区别在于，数据不但具有行索引，且具有列索引。

DataFrame的构造方法有：
- 一维数组、列表、字典或者 Series 字典。
- 二维或者结构化的 numpy.ndarray。
- 一个 Series 或者另一个 DataFrame。
```
df = pd.DataFrame({'one': pd.Series([1, 2, 3]),
                   'two': pd.Series([4, 5, 6])})
'''
	one	two
0	1	4
1	2	5
2	3	6
'''
```
使用列表组成的字典和字典组成的列表都可以用来构建DataFrame，字典的 keys 为列名，列表的顺序为索引。

使用 Numpy 来构建一个 DataFrame：
```
pd.DataFrame(np.random.randint(5, size=(2, 4)))
'''
	0	1	2	3
0	2	0	4	0
1	2	2	2	1
'''
```
数据读取

从csv文件读取数据：
```
df = pd.read_csv('./titanic/train.csv')
'''
     PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0              1         0       3  ...   7.2500   NaN         S
1              2         1       1  ...  71.2833   C85         C
2              3         1       3  ...   7.9250   NaN         S
3              4         1       1  ...  53.1000  C123         S
4              5         0       3  ...   8.0500   NaN         S
..           ...       ...     ...  ...      ...   ...       ...
886          887         0       2  ...  13.0000   NaN         S
887          888         1       1  ...  30.0000   B42         S
888          889         0       3  ...  23.4500   NaN         S
889          890         1       1  ...  30.0000  C148         C
890          891         0       3  ...   7.7500   NaN         Q

[891 rows x 12 columns]
'''
```
基本操作

一个DataFrame由列名称、索引和数据组成。

上面，我们已经读取了一个外部数据，这是洛杉矶的人口普查数据。有些时候，我们读取的文件很大。如果全部输出预览这些文件，既不美观，又很耗时。还好，Pandas 提供了 head() 和 tail() 方法，它可以帮助我们只预览一小块数据。
```
df.head()  # 默认显示前 5 条
df.tail(7)  # 指定显示后 7 条
```
Pandas 还提供了统计和描述性方法，方便你从宏观的角度去了解数据集。describe() 相当于对数据集进行概览，会输出该数据集每一列数据的计数、最大值、最小值等。
```
df.describe()
```
Pandas 将 DataFrame 转化为 Numpy 数组。
```
df.values()
```
其他常用还有：
- df.index
- df.columns
- df.shape
数据选择

数据选择常用在对数据的处理过程中，它提供了像 Numpy 中一样对数据灵活的处理方式。

基于索引数字选择

Pandas 中 DataFrame 是支持行索引和列索引的。.iloc方法可以接受如下类型：
- 整数，例如5
- 整数组成的列表，如[1, 2, 3]
- 布尔数组
- 可返回索引值的函数或参数
例如，获得前3行：
```
df.iloc[:3]
```
获取1、3、5行：
```
df.iloc[[1, 3, 5]]
```
获取2-4列：
```
df.iloc[:, 1:4]
```
基于标签名称选择

选择 'Total Population' 列到 'Total Males' 列。
```
df.loc[:, 'Total Population':'Total Males']
```
数据删减

Pandas 中以.drop开头的函数与删除有关。

指定删除的列或行：
```
df.drop(labels=['Median Age', 'Total Males'], axis=1)
```
去重，可以用axis指定行去重还是列去重：
```
df.drop_duplicates()
```
删除缺失值：
```
df.dropna()
```
数据填充

检测缺失值
```
df = pd.DataFrame(np.random.rand(9, 5), columns=list('ABCDE'))
# 插入 T 列，并打上时间戳
df.insert(value=pd.Timestamp('2017-10-1'), loc=0, column='Time')
# 将 1, 3, 5 列的 1，3，5 行置为缺失值
df.iloc[[1, 3, 5, 7], [0, 2, 4]] = np.nan
# 将 2, 4, 6 列的 2，4，6 行置为缺失值
df.iloc[[2, 4, 6, 8], [1, 3, 5]] = np.nan

df.isna()
'''
	A	B
0	False	False
1	False	True
2	True	True
3	False	False
4	False	False
5	False	False
'''
```
填充

用0填充df.fillna(0)。

用缺失值前面的值填充df.fillna(method='pad')，用后面的值填充df.fillna(method='bfill')。

其他的df.fillna参数请参考官方文档。

参考

Pandas 数据处理基础入门

Tutorials
一个人没有梦想，和咸鱼有什么区别！
查看全文

相关阅读:
多线程面试题
 Tcpdump MySQL Query
Gossip和Redis集群原理
 mysql-table_open_cache_file_limits/
introducing-backup-locks-percona-server-2/
MySQL 一致性读深入研究
 how-to-configure-mysql-masterslave-replication-with-mha-automatic-failover/
mysqlOOM
mysql 线程池
 Linux performance monitor tool

原文地址：https://www.cnblogs.com/TABball/p/12829449.html

Pandas学习笔记

Series

DataFrame

数据读取

基本操作

数据选择

基于索引数字选择

基于标签名称选择

数据删减

数据填充

检测缺失值

填充

参考