zoukankan      html  css  js  c++  java
  • Python中的pandas库

    导入包

    import pandas as pd
    import numpy as np

    提供高性能医用的数据类型和分析工具

    pandas基于numpy实现,常与numpy和matplotlib一同使用

    pandas的核心数据结构

    series是一种类似于一维数组的对象,它由一维数组以及一组与之相关的数据标签(索引)组成

    就是带标签的一维数组,可存储整数,浮点数,字符串,python对象等类型的数据

    s=pd.Series(['a','b','c','d','e'])
    
    print(s)
    #结果:
    0    a
    1    b
    2    c
    3    d
    4    e
    dtype: object

    series中可以使用index设置索引列表,与字典不同的是,series允许索引重复

    s1=pd.Series(['a','b','c','d','e'],index=[100,200,100,400,500])
    print(s1)
    #结果:
    100    a
    200    b
    100    c
    400    d
    500    e
    dtype: object

    series可以用字典实例化

    s2={'a':1,'b':2,'c':3}
    s3=pd.Series(s2)
    print(s3)
    #结果:
    a    1
    b    2
    c    3
    dtype: int64

    可以通过Series的values和index属性获取其数组表示形式和索引对象

    print(s3.values)
    print(s3.index)
    #结果:
    [1 2 3]
    Index(['a', 'b', 'c'], dtype='object')
    
    s4=pd.Series(np.array([1,2,3,4,5]),index=['a','b','c','d','e'])
    print(s4)
    #结果:
    a    1
    b    2
    c    3
    d    4
    e    5
    dtype: int32

    对应元素求和

    print(s4+s4)
    #结果:
    a     2
    b     4
    c     6
    d     8
    e    10
    dtype: int32

    对应元素乘

    print(s4*3)
    #结果:
    a     3
    b     6
    c     9
    d    12
    e    15
    dtype: int32

    series中最重要的一个功能,她会在算术运算中自动对齐不同索引的数据

    series和多维数组的主要区别在于,series之间的操作会自动基于标签对齐数据,因此不用顾忌执行计算操作的series是否有相同的标签

    obj1 = pd.Series({"Ohio": 35000, "Oregon": 16000, "Texas": 71000, "Utah": 5000})
    print(obj1)
    obj2 = pd.Series({"California": np.nan, "Ohio": 35000, "Oregon": 16000, "Texas": 71000})
    print(obj2)
    print(obj1 + obj2)
    #结果:
    Ohio      35000
    Oregon    16000
    Texas     71000
    Utah       5000
    dtype: int64
    California        NaN
    Ohio          35000.0
    Oregon        16000.0
    Texas         71000.0
    dtype: float64
    California         NaN
    Ohio           70000.0
    Oregon         32000.0
    Texas         142000.0
    Utah               NaN
    dtype: float64
    
    s5=pd.Series(np.array([1,2,3,4,5]),index=['a','b','c','d','e'])
    print(s5[1:])
    print(s5[:-1])
    print(s5[1:]+s5[:-1])
    #结果:
    b    2
    c    3
    d    4
    e    5
    dtype: int32
    a    1
    b    2
    c    3
    d    4
    dtype: int32
    a    NaN
    b    4.0
    c    6.0
    d    8.0
    e    NaN
    dtype: float64

    DataFrame可以进行行索引,列索引,是pandas中重要的数据结构

    DataFrame是一个表格型的数据结构,类似于Excel或sql表

    他含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值)

    DataFrame既有行索引,也有列索引,他可以被看做是由series组成的字典(共用同一个索引)

    用多维数组字典,列表字典生成DataFrame

    data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
    frame=pd.DataFrame(data)
    print(frame)
    #结果:
        state  year  pop
    0    Ohio  2000  1.5
    1    Ohio  2001  1.7
    2    Ohio  2002  3.6
    3  Nevada  2001  2.4
    4  Nevada  2002  2.9

    如果指定了列顺序,那么DataFrame的列就会按照指定的顺序进行排序

    framel=pd.DataFrame(data,columns=['year','state','pop'])
    print(framel)
    #结果:
       year   state  pop
    0  2000    Ohio  1.5
    1  2001    Ohio  1.7
    2  2002    Ohio  3.6
    3  2001  Nevada  2.4
    4  2002  Nevada  2.9

    和series一样,如果传入的列在数据中找不到,就会产生NAN值

    frame2=pd.DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five'])
    print(frame2)
    #结果:
           year   state  pop debt
    one    2000    Ohio  1.5  NaN
    two    2001    Ohio  1.7  NaN
    three  2002    Ohio  3.6  NaN
    four   2001  Nevada  2.4  NaN
    five   2002  Nevada  2.9  NaN

    用series字典或字典生成DataFrame

    d={'one':pd.Series([1,2,3],index=['a','b','c']),
       'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
       }
    print(pd.DataFrame(d))
    #结果:
      one  two
    a  1.0    1
    b  2.0    2
    c  3.0    3
    d  NaN    4

    通过类似字典标记的方式或属性的方式,可以将DataFrame的列获取位一个Series,返回Series拥有原DataFrame相同的所有

    print(frame2['state'])
    #结果:
    one        Ohio
    two        Ohio
    three      Ohio
    four     Nevada
    five     Nevada
    Name: state, dtype: object

    列可以通过赋值的方式进行修改,给那个空的“delt”列赋上一个标量值或一组值

    frame2['debt']=16.5
    print(frame2)
    #结果:
           year   state  pop  debt
    one    2000    Ohio  1.5  16.5
    two    2001    Ohio  1.7  16.5
    three  2002    Ohio  3.6  16.5
    four   2001  Nevada  2.4  16.5
    five   2002  Nevada  2.9  16.5
    
    frame2['new']=frame2['debt']*frame2['pop']
    print(frame2)
    #结果:
    year   state  pop  debt    new
    one    2000    Ohio  1.5  16.5  24.75
    two    2001    Ohio  1.7  16.5  28.05
    three  2002    Ohio  3.6  16.5  59.40
    four   2001  Nevada  2.4  16.5  39.60
    five   2002  Nevada  2.9  16.5  47.85
    
    frame2['debt']=np.arange(5)
    print(frame2)
    #结果:
        year   state  pop  debt    new
    one    2000    Ohio  1.5     0  24.75
    two    2001    Ohio  1.7     1  28.05
    three  2002    Ohio  3.6     2  59.40
    four   2001  Nevada  2.4     3  39.60
    five   2002  Nevada  2.9     4  47.85
  • 相关阅读:
    线程安全-一个VC下多个网络请求
    [从头学数学] 第172节 直线与方程
    ASP.NET MVC 视图(一)
    Pixhawk之姿态解算篇(1)_入门篇(DCM Nomalize)
    Android基础新手教程——3.7 AnsyncTask异步任务
    IC卡、ID卡、M1卡、射频卡的区别是什么【转】
    .gitignore文件配置:keil工程文件类型【转】
    RK平台images打包细则【转】
    使用/dev/uinput的简要介绍(含demo程序)【转】
    Linux--struct file结构体【转】
  • 原文地址:https://www.cnblogs.com/x00479/p/14249721.html
Copyright © 2011-2022 走看看