Pandas快速入门笔记

zoukankan html css js c++ java

Pandas快速入门笔记
我正以Python作为突破口，入门机器学习相关知识。出于机器学习实践过程中的需要，我快速了解了一下提供了类似关系型或标签型数据结构的Pandas的使用方法。下面记录相关学习笔记。

数据结构

Pandas最主要的知识点是两个数据结构，分别是Series和DataFrame。你可以分别把它们简单地理解为带标签的一维数组和二维数组。

以下实践假设已经运行了必要的import语句，如：
import pandas as pd
Series

先在命令行里面看一下Series的样子：

可以看到Series是一个列表，列表的每一项都有一个称之为index的索引（如：a、b、c...），和一个与之对应的值（如：0、1、2...）。

创建Series

看过了Series的内容，很容易想到创建Series需要提供两项内容：数据与索引。基于这两项内容可以产生几种变形：
- 使用Python的列表创建Series
  使用列表作为数据项，另外通过index关键词指定另一个索引列表。
pd.Series([1,2,3], index=['a', 'b', 'c'])
- 使用Python的二元组创建Series
  作为上面一种形式变形，可以把索引和数据一一组合在一起成为元组，然后以元组列表作为创建Series的参数。
pd.Series({'a': 0, 'b': 1, 'c': 2})
- 使用单独标量创建元素值一样的Series
# a、b、c的值都是1 pd.Series(1, index=['a', 'b', 'c'])
- 使用NumPy数组创建Series
  为了让NumPy数据可以快速转换成Pandas的数据，Pandas提供了使用ndarray创建Series的方式。
import numpy as np pd.Series(np.array([1,2,3]), index=['a','b','c'])
访问Series

下面假设有一个Series为s=pd.Series([1,2,3], index=['a', 'b', 'c'])。访问这个s可以选择下面方式：
- Series可以像NumPy的数组一样访问。特殊的是：Series使用元素索引访问其元素的值；而使用切片索引访问其片段（包含索引和值的Series）。
print(s[0]) # 结果为数值：1 print(s[0:1]) # 结果为Series：a 1
- Series还可以像Python的字典那样访问其元素或检查元素是否存在。
print(s['a']) # 结果为数值：1 print(s.a) # 结果为数值：1 print('a' in s) # 结果为True
- 另外还可以用搜索条件过滤Series获取切片。
print(s[s > 2]) # 结果为Series： c 3
Series的相关操作

大部分NumPy的通用函数可以应用在Series上，因此不再赘述。

需要注意的点在于，当参与操作的Series会根据索引自动对齐元素然后进行操作，如存在某个索引是不在另一个Series中，则使用NaN作为结果。
s1 = pd.Series([1,2,3], index=['a','b','c']) s2 = pd.Series([3,2,1], index=['b','c','d']) s1 + s2
结果包含四个元素，内容如下：
a NaN b 5.0 c 5.0 d NaN
Series的name属性

每个Series有一个name属性，它将在在二维的数据结构中作为Series的索引。

DataFrame

我们依旧先来看一下DataFrame的样子。

DataFrame实际上是一个二维数组，可以由多个Series组成。每个Series作为一列或者一行。

创建DataFrame

DataFrame的创建方法太多了，因此这里只举几种常用的例子。希望能有更深入的了解，还是查阅官方文档比较合适。

创建DataFrame大体可以分为两种情况，一种是按行提供数据，另一种是按列提供数据。
- 按行提供数据
这种方式把DataFrame当成一个行列表，我们为列表提供每一行的内容。行数据可以是Python的列表、NumPy的数组、Pandas的Series等。如下：
# 列表形式 l1 = [11, 12, 13] l2 = [21, 22, 23] l3 = [31, 32, 33, 34] df = pd.DataFrame([l1,l2,l3], dtype='int32') # ndarray形式 a1 = np.array([11,12,13]) a2 = np.array([21,22,23]) a3 = np.array([31,32,33,34]) df = pd.DataFrame([a1,a2,a3], dtype='int32') # Series形式 s1 = pd.Series([11,12,13]) s2 = pd.Series([21,22,23]) s3 = pd.Series([31,32,33,34]) df = pd.DataFrame([s1,s2,s3], dtype='int32')
以上三种形式创建了同样的DataFrame，结果如下：
0 1 2 3 0 11 12 13 NaN 1 21 22 23 NaN 2 31 32 33 34.0
注意到，我们并没有提供行索引和列索引，这种情况DataFrame的构造函数会自动为我们添加索引。特殊的，如果我们使用Series按行创建时，如果Series设置了name属性，则name属性将作为DataFrame的索引呈现，其中若有为指定name属性的将按顺序给与默认命名（如：‘Unnamed 0’）。例如：
s1 = pd.Series([11,12,13]) s2 = pd.Series([21,22,23]) s3 = pd.Series([31,32,33,34]) s1.name = 's1' df = pd.DataFrame([s1,s2,s3], dtype='int32')
这时的df的结果为：
0 1 2 3 s1 11 12 13 NaN Unnamed 0 21 22 23 NaN Unnamed 1 31 32 33 34.0
- 按列提供数据
这种方式把DataFrame当成一个列元组，我们为元组提供每一项元素，这个元素就是单独的一列。列可以是Python的列表、NumPy的数组、Pandas的Series等。

按列提供数据需要注意的指明每列的索引，在DataFrame中称之为columns。如下：
# 列表形式 l1 = [11, 12, 13] l2 = [21, 22, 23] df = pd.DataFrame({'c1': l1, 'c2': l2}) # ndarray形式 a1 = np.array([11, 12, 13]) a2 = np.array([21, 22, 23]) df = pd.DataFrame({'c1': a1, 'c2': a2})
上述二者的结果为：
c1 c2 0 11 21 1 12 22 2 13 23
需要注意的是，这种形式提供的每一列必须拥有相同的长度，否则将报异常。
s1 = pd.Series([11,12,13]) s2 = pd.Series([21,22,23]) s3 = pd.Series([31,32,33,34])
结果为：
c1 c2 c3 0 11.0 21.0 31 1 12.0 22.0 32 2 13.0 23.0 33 3 NaN NaN 34
Series形式提供的数据将会自动对齐，每个索引为一行。若某个Series中不存在某个索引，则这一列对应位置使用NaN填充。

访问DataFrame

下方表格展示了几种索引或选择DataFrame的方法：

以下是上表的示例：

修改数据的时候也可以应用上述查询方式直接进行赋值，但是需要注意的是所赋的内容的类型需要与表格右方的类型对齐。针对Series内容，如果赋值时用的是列表或者ndarray，其长度必须于原来内容的长度一致。例如：

查询与修改元素可以用二级索引，如df.loc['r2'][0] = 2。

删除行或者列可以使用DataFrame.drop函数，它会返回删除后的结果，并不会修改原来的数据。对删除列而言，使用类似del df[0]的语句可以直接删除源数据。而删除元素对DataFrame是无意义的，直接用赋值形式就可以替代。

插入列可以直接用DataFrame.insert函数，与drop不同，它会在原来的数据中插入内容。（另外，目前我尚未发现有直接插入行的操作。有了解的读者可在下方留下言。）

有关数据对齐

当Series或者DataFrame进行操作的时候，如果索引不一致将会进行对齐，然后才操作。下面描述一下这几种情况。
- 两个Series参与操作，会根据索引自动对齐元素然后进行操作，如存在某个索引是不在另一个Series中，则使用NaN作为结果。
- 两个DataFrame参与操作，自动对齐行和列，任何行索引或列索引在另一个操作对象中找不到，结果对应位置的元素用NaN补充。
- DataFrame与Series参与操作，默认进行行级广播。即把Series作为一列，Series的index对齐到DataFrame的columns进行运算。特殊地，索引都是时间的DataFrame与Series参与操作会发生列级广播。列级广播的意思就是把Series当成一个横向的DataFrame，它的每个索引和对应的值都当成一列。因此操作的时候原来的Series的时间索引变成了结果的列索引。
另外这种情况直接用加号“+”的方式已经不推荐了，而是使用add函数，同时可以通过指定axis参数指明Series广播的维度。如下：

数据可视化

Pandas数据结构（Series和DataFrame）封装了matplotlib.pyplot，直接调用它们的plot等函数可以绘制图像。

这些函数简单封装了plt.plot()。你要做的仅仅是导入matplotlib.pyplot，然后调用plt.show()展示图像。

下面看例子：

你还可以绘制其他类型的图像，下图展示了其他函数：

本文来自同步博客
查看全文

相关阅读:
XSS跨站脚本攻击
 PHP 获取客户端ip地址
 Markdown基本语法
 浅谈CSRF攻击方式
 VC++ 中 trycatchfinally 语句如何在获取正常信息是写一些操作语句
 VC创建Excel报表
 VS2008环境使用MFC操作读取excel文件
 VC常见错误总结（一）
VC操作Excel文件编程相关内容总结
 VC2010对Excel的操作

原文地址：https://www.cnblogs.com/developerdaily/p/8417970.html

Pandas快速入门笔记

数据结构

Series

创建`Series`

访问`Series`

`Series`的相关操作

Series的name属性

DataFrame

创建`DataFrame`

访问`DataFrame`

有关数据对齐

数据可视化

Pandas快速入门笔记

数据结构

Series

创建Series

访问Series

Series的相关操作

Series的name属性

DataFrame

创建DataFrame

访问DataFrame

有关数据对齐

数据可视化

创建`Series`

访问`Series`

`Series`的相关操作

创建`DataFrame`

访问`DataFrame`