zoukankan      html  css  js  c++  java
  • 《利用Python 进行数据分析 第二版》 -第5章 pandas 入门

    本章重点内容:

    1、pandas 数据结构介绍

    2、基本功能

    3、描述性统计的概述与计算

    接下来展开详细的说明

     1、pandas 数据结构介绍

    Series数据

    Series是一种一维的数组型对象,它包含了一个值序列,并且包含了数据标签,成为索引(index),

    最简单的序列可以仅仅由一个数组形成,如下:

     左侧是索引,右侧是数值,如果没有指定索引,默认的是从0到n-1

    Series有两个属性,可以访问对象的值和索引,如下:

    在创建Series数据的时候,可以直接通过index参数指定索引,如下:

     可以通过索引来访问对象的值,如下:

     可以对Series数据进行一些数据函数运算,依然会保留索引,如下:

     你会发现,Series数据类型,很想Python数据中的字典,所以你可以将字典转换成一个Series数据类型,如下:

     Series的索引可以通过按照位置赋值的方式进行改变,如下:

     DataFrame数据类型

    DataFrame表示的是矩阵的数据表,它包含已排序的列集合,每一列可以是不同的值类型,DataFrame既有行索引也有列索引,是一个以上的二维块

    首先,我们创建一个DataFrame数据,可以通过数组的字典来形成,如下:

     如果你只想选择数据的前五行,可以使用head方法,如下:

     你可以指定列的顺序,通过columns参数,如下:

     可以选择其中,你需要的列,有两种选择方式,一种是通过字典型标记,一种是通过属性,如下:

    通过字典型标记选择state列:

     通过属性选择year列:

     也可以通过loc属性选择行,如下:

     通过赋值一个没有列的名称,同时创建新列,如下:

     如果要删除一列,可以通过del关键字删除,如下:

     2、基本功能

    重建索引

    reindex是panda对象的重要方法,如下例子:

     

     轴向上删除条目

    通过drop属性删除条目,如下:

     

     索引、选择、过滤

    Series的索引和NumPy数组索引的功能类似,如下:

     对于DataFrame类型的数据,可以通过loc和iloc属性进行选择,如下:

     算术和数据对齐

    两个同样的DataFrame类型数据,可以进行算术运算,如下:

     排序和排名

    通过sort_index和sort_values方法实现排序,一个是通过索引排序,一个是通过内容排序,如下:

     当对DataFrame排序时,可以使用一列或多列作为排序键,这个时候,通过可选参数by,如下:

    通过rank函数来实现排名,如下:

     3、描述性统计的概述与计算

    唯一值:unique

    计数:counts

    具体代码示例如下:

     以上,就是本章讲解的重点内容,祝学习愉快!

    以下链接,可以供你了解这个系列学习笔记的所有章节最新进度

    自学笔记系列:《利用Python 进行数据分析 第二版》 -写在开始之前

  • 相关阅读:
    打开一个网页,以html代码保存于txt文件中
    用C查看系统任务管理器中运行的程序
    常见两种LINK错误
    怎么把下载的dll和def生成lib,以用于编程
    建立一个不能打开的文件(占坑)C语言高级API调用
    [转]软件版本命名格式
    回调函数编写和注重点
    ubuntu linux mysql 开发模式与连接编译
    创建一个进程和两个管道,实现与进程通信
    hdoj 1115 Lifting the Stone (求多边形重心)
  • 原文地址:https://www.cnblogs.com/zhangjiyou/p/13415023.html
Copyright © 2011-2022 走看看