zoukankan      html  css  js  c++  java
  • pandas入门(一):pandas的安装和创建

    pandas 对于数据分析的人员来说都是必须熟悉的第三方库,pandas 在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了Numpy ,但是Numpy 还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中EXCEL 扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。

    pandas 是对表格数据模型在python上的模拟,它有简单的像SQL 对数据的处理,能够方便的在python上实现。

    pandas 的安装

    pandas 在python上的安装同样的使用pip进行:

    pip install pandas
    

    pandas 创建对象

    pandas 有两种数据结构:SeriesDataFrame

    Series

    Series 像python中的数据list 一样,每个数据都有自己的索引。从list创建 Series

    >>> import pandas as pd
    >>> s1 = pd.Series([100,23,'bugingcode'])
    >>> s1
    0           100
    1            23
    2    bugingcode
    dtype: object
    >>>
    

    Series 中添加相应的索引:

    >>> import numpy as np
    >>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
    >>> ts
    

    在index中设置索引值是一个从1到366的值。

    Series 的数据结构最像的是python中的字典,从字典中创建Series

    sd = {'xiaoming':14,'tom':15,'john':13}
    s4 = pd.Series(sd)
    

    这时候可以看到Series 已经是自带索引index。

    pandas 本身跟 python的另外一个第三方库Matplotlib 有很多的连接,Matplotlib 一个最经常用到的是用来展示数据的,如果还对Matplotlib 不了解的话,后面的章节会进行介绍,现在先拿过来直接用下,如果还没有安装的话,一样的用pip命令安装 pip install Matplotlib , 展示如下数据:

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    
    ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
    ts.plot()
    plt.show()
    

    一个不规则的图形,在数据分析中,时间是一个重要的特性,因为很多数据都是跟时间是有关系的,销售额跟时间有关系,天气跟时间有关系。。。,在pandas 中也提供了关于时间的一些函数,使用date_range 生成一系列时间。

    >>> pd.date_range('01/01/2017',periods=365)
    DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
                   '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
                   '2017-01-09', '2017-01-10',
                   ...
                   '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
                   '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
                   '2017-12-30', '2017-12-31'],
                  dtype='datetime64[ns]', length=365, freq='D')
    >>>
    

    之前我们的图形不规则,有一个原因是数据不是连续的,使用cumsum让数据连续:

    如下:

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    
    ts = pd.Series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))
    ts = ts.cumsum()
    ts.plot()
    plt.show()
    

    DataFrame

    DataFrame 相当于Series 一维的一个扩展,是一种二维的数据模型,相当于EXcel表格中的数据,有横竖两种坐标,横轴很Series 一样使用index,竖轴用columns 来确定,在建立DataFrame 对象的时候,需要确定三个元素:数据,横轴,竖轴。

    df = pd.DataFrame(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('ABCDEF'))
    print df
    

    数据如下:

                       A         B         C         D         E         F
    2018-01-01  0.712636  0.546680 -0.847866 -0.629005  2.152686  0.563907
    2018-01-02 -1.292799  1.122098  0.743293  0.656412  0.989738  2.468200
    2018-01-03  1.762894  0.783614 -0.301468  0.289608 -0.780844  0.873074
    2018-01-04 -0.818066  1.629542 -0.595451  0.910141  0.160980  0.306660
    2018-01-05  2.008658  0.456592 -0.839597  1.615013  0.718422 -0.564584
    2018-01-06  0.480893  0.724015 -1.076434 -0.253731  0.337147 -0.028212
    2018-01-07 -0.672501  0.739550 -1.316094  1.118234 -1.456680 -0.601890
    2018-01-08 -1.028436 -1.036542 -0.459044  1.321962 -0.198338 -1.034822
    

    在数据分析的过程中,很常见的一种情况是数据直接从excel 或者cvs 过来,可以excel中读取数据到DataFrame ,数据在 DataFrame 中进行处理:

    df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
    print df
    

    同样的有保存数据到excelto_excel

    处理cvs数据的函数是:read_cvsto_cvs ,处理HDF5的函数为 read_hdfto_hdf

    访问DataFrame 可以跟二位数组一样的访问方式:

    print df['A']
    

    带出横轴标签:

    2018-01-01    0.712636
    2018-01-02   -1.292799
    2018-01-03    1.762894
    2018-01-04   -0.818066
    2018-01-05    2.008658
    2018-01-06    0.480893
    2018-01-07   -0.672501
    2018-01-08   -1.028436
    

    同样的可以指定某一个元素:

    print df['A']['2018-01-01']
    

    对数组进行切片出来,认清横轴和纵轴:

    >>> import pandas as pd
    >>> df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
    >>> df[:][0:3]
                       A         B         C         D         E         F
    2018-01-01  0.712636  0.546680 -0.847866 -0.629005  2.152686  0.563907
    2018-01-02 -1.292799  1.122098  0.743293  0.656412  0.989738  2.468200
    2018-01-03  1.762894  0.783614 -0.301468  0.289608 -0.780844  0.873074
    >>>
    

    DataFrame 涉及的较多的函数,接下来会有更多的介绍。

    更多教程:大家来编程

  • 相关阅读:
    七牛云上传文件
    微博三方登录
    异步任务 --- django-celery
    阿里云短信服务
    Redis五大数据结构和使用方法
    千万不要买我们家的鞋子!
    Firebug控制台详解
    【转】android 按home键返回到桌面后,再按桌面应用图标又重新打开该应用的解决方法
    【转】android中webview使用的一些细节
    JSONException: Value of type java.lang.String cannot be converted to JSONObject
  • 原文地址:https://www.cnblogs.com/bugingcode/p/8310032.html
Copyright © 2011-2022 走看看