zoukankan      html  css  js  c++  java
  • 数据分析三剑客之pandas

    导入:

    import pandas as pd
    from pandas import Series
    from pandas import DataFrame
    import numpy as np

    一、Series对象

           一种类似于一维数组的对象,由values和index组成

    1、创建Series

    方式1:由列表或numpy数组创建

    Series(data=[1,2,3])/Series( data=np.random.random(size=(10,) )

    方式2:由字典创建

    dic = { "math":100, "chinese":150, }

    Series(data=dic)

    2、索引和切片

    可以使用中括号取单个索引的值(此时返回的是元素),或者中括号里一个列表取多个索引的值(此时返回的是一个Series类型)。

    (1) 显式索引:

    - 使用index中的元素作为索引值
    - 使用s.loc[](推荐):注意,loc中括号中放置的一定是显示索引
    

    注意,此时是闭区间

    (2) 隐式索引:

    - 使用整数作为索引值
    - 使用.iloc[](推荐):iloc中的中括号中必须放置隐式索引
    

    注意,此时是半开区间

    3、Series的属性

    shape 形状

    size 大小

    index 索引

    values 值

    4、常用操作

    (1)查看前n个值  s.head(n)

    (2)查看后n个值 s.tail(n)

    (3)去重 s.unique()

    (4)相加  将索引相互对应,当对应的索引不同时,用NaN补

    (5) 检测缺失值

    pd.isnull() 或 pd.notnull()

    s.isnull() 或 pd.notnull()

    5、运算

    + 或 add()

     - 或 sub()

    * 或 mul()

    / 或 div()

    运算规则:在运算中自动对齐不同索引的数据,如果索引不对应,则补NaN

    二、DataFrame对象

    是一个表格型的数据结构,既有行索引,也有列索引

    1、DataFrame的创建

    方式1:由字典创建,键为列索引,值为行索引

    DataFrame(data=dic,index=[...])

    方式2:由ndarray创建

    DataFrame(data=np.random.randint(0,100),size=(3,3),index=[ "a", "b", "c" ], columns=[ "A", "B", "C" ]

    2、DataFrame的属性

    shape 形状

    values 值

    index 行索引

    columns 列索引

    3、索引

    (1) 对列进行索引

    - 通过类似字典的方式  df['q']
    - 通过属性的方式     df.q
    

    可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。

    (2) 对行进行索引

    - 使用.loc[]加index来进行行索引
    - 使用.iloc[]加整数来进行行索引
    

    同样返回一个Series,index为原来的columns。

    (3) 对元素索引的方法

    - 使用列索引
    - 使用行索引(iloc[3,1] or loc['C','q']) 行索引在前,列索引在后

    4、切片

    直接用中括号时:

    • 索引表示的是列索引
    • 切片表示的是行切片

    在loc和iloc中使用切片(切列) : df.loc['B':'C','丙':'丁']

    5、DataFrame的运算

    同Series一样,在运算中自动对齐不同索引的数据,如果索引不对应,补NaN。

    6、处理丢失数据

    ---补充---

    有两种丢失数据:

    • None   
    • np.nan(NaN)

    None是Python自带的,其类型为python object。因此,None不能参与到任何计算中。

    np.nan是浮点类型,能参与到计算中。但计算的结果总是NaN。

    ------------

    pandas中None和np.nan都视为np.nan

    pandas处理空值操作:

    • isnull() 常与any()搭配  
    • notnull() 常与all()搭配
    • drop(label=n,axis=0): 过滤丢失数据  (可以选择过滤行还是列,0表示行,1表示列)
    • dropna(axis=0): 过滤丢失数据 (可以选择过滤行还是列,0表示行,1表示列)
    • fillna(): 填充丢失数据 (values: 以什么值填充 ,method: 填充方法 前向填充ffill还是后向填充bfill ,axis=1:行方向)
  • 相关阅读:
    20155227 《Java程序设计》实验四 Android开发基础设计实验报告
    20155227第十二周课堂实践
    2016-2017-2 20155227实验三《敏捷开发与XP实践》实验报告
    20155227 2016-2017-2 《Java程序设计》第十周学习总结
    2016-2017-2 20155227实验二《Java面向对象程序设计》实验报告
    20155226 实验三 敏捷开发与XP实践 实验报告
    20155226 mini DC 课堂测试补交
    20155226 2016-2017-2 《Java程序设计》第10周学习总结
    2015526 《Java程序设计》实验二实验报告
    20155226 2016-2017-2 《Java程序设计》第9周学习总结
  • 原文地址:https://www.cnblogs.com/zhang-yl/p/10394241.html
Copyright © 2011-2022 走看看