zoukankan      html  css  js  c++  java
  • pandas入门总结1

    numpy 相当于序列化好的矩阵
    pandas:相当于字典

    0.在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame。  

      0.1:Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能
      0.2:DataFrame类似于numpy中的二维数组,同样可以通用numpy数组的函数和方法,而且还具有其他灵活应用,后续会介绍到。

    1.创建序列 Series

     创建方式(3种):

        1)通过一维数组创建序列
        2)通过字典的方式创建序列
        3)二者区别:使用数组创建的Series,索引使用012345...;使用字典创建的Series,索引使用字典的key。
        4)通过DataFrame中的某一行或某一列创建序列

    2. 创建矩阵dataframe

      数据框dataframe的创建方式(3种):    

        1)通过二维数组创建数据框
        2)通过字典的方式创建数据框
        以下以两种字典来创建数据框,一个是字典列表(字典里面套list),一个是嵌套字典(字典里面套字典)。
        3)通过数据框的方式创建数据框(截取已有的dataframe一部分)

      2.1 使用numpy创建dataframe    

        

        1 pd.DataFrame(矩阵A,index = listB, columns = listC)

          ——返回:创建一个dataframe格式的矩阵,
          矩阵内容是:参数矩阵A
          行索引名称:参数listB
          列索引名称:参数listC

          注:行索引index、列索引columns不给定时,输出的行列的索引都默认为0123.....

      2.2 创建dataframe方式2——使用字典创建:

        1 pd.DataFrame({'A':1., 'B':pd.Timestamp('20130102'), 'C': pd.Series(1, index = list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E':pd.Categorical(["test", "train", "test", "train"]), 'F': 'foo'})

          ————使用字典,每一item 是 每一列的元素

    3.Series/Dataframe的属性:

     3.1   dataframe变量名.dtypes

        ——返回,每一列的数据形式

     3.2 dataframe变量名.index

        ——返回,每一行的索引序号

     3.3 dataframe变量名.columns

        ——返回,每一列的索引序号

     3.4 dataframe变量名.values

        ——返回,一个有同样元素的不带有行列序号的矩阵

     3.5 dataframe的统计量:

          count:非空元素个数
          sum:求和
          mean:平均值
          median:中位数
          mode:众数
          var:方差
          std:标准差
          mad:平均绝对偏差
          min:最小值
          quantile(0.1) :10%分位数
          max:最大值
          idxmin() :最小值的位置
          idxmax():最大值的位置
          skew:偏度
          Kurt:峰度
          describe:一次性输出多个描述性统计指标,必须注意的是,descirbe方法只能针对序列或数据框,一维数组是没有这个方法的

     3.6 矩阵转置:

          dataframe变量名.T

          eg:

            df1.T

     3.7 排序:

         3.7.1  sort_index()——根据行或者列索引序号,对矩阵进行排序

        1 dataframe变量名.sort_index(axis = ...., ascending = True/False)

          ——参数:

              axis = 0 根据行索引序号,对所有行进行排序
              axis = 1 对列进行排序
              ascending = True/False True:正序排列;False:倒叙排序

          3.7.2 sort_value()——对某一行/列,按照元素大小进行排序

         1 dataframe变量名.sort_values(by = 参数A)

          ——参数A:行索引/列索引序号,对哪一行/列进行排序,就输,该行/列的索引序号。

  • 相关阅读:
    less和vim中使用正则表达式搜索
    正则表达式解英语单词字谜
    正则表达式中的Quantifiers
    grep正则表达式(二)
    grep正则表达式(一)
    Linux中的touch命令总结(一)
    find命令进阶(三):xargs
    find命令进阶(二):对找到的文件执行操作exec
    构造函数
    Bean的生命周期
  • 原文地址:https://www.cnblogs.com/tommyngx/p/10184018.html
Copyright © 2011-2022 走看看