zoukankan      html  css  js  c++  java
  • pandas中DataFrame的stack()、unstack()和pivot()方法的对比

     pandas中,这三种方法都是用来对表格进行重排的,其中stack()是unstack()的逆操作。某种意义上,unstack()方法和pivot()方法是很像的,主要的不同在于,unstack()方法是针对索引或者标签的,即将列索引转成最内层的行索引;而pivot()方法则是针对列的值,即指定某列的值作为行索引,指定某列的值作为列索引,然后再指定哪些列作为索引对应的值。因此,总结起来一句话就是:unstack()针对索引进行操作,pivot()针对值进行操作。但实际上,两者在功能往往可以互相实现。

            unstack(self, level=-1, fill_value=None)、pivot(self, index=None, columns=None, values=None,对比这两个方法的参数,这里要注意的是,对于pivot(),如果参数values指定了不止一列作为值的话,那么生成的DataFrame的列索引就会出现层次索引,最外层的索引为原来的列标签;unstack()没有指定值的参数,会把剩下的列都作为值,即把剩下的列标签都作为最外层的索引,每个索引对应一个子表。

    stack()列转行:原本的一个字段的数据放在一'行'上
    unstack()行转列:原本的一'行'数据放在一个字段上,(默认操作为最内层,可用分层级别的编号或名称对其他级别进行unstack)

           pivot()方法其实比较容易理解,就是指定相应的列分别作为行、列索引以及值。下面我们通过几张原理图详细说明stack()和unstack(),最后再通过一个具体的例子来对比stack()、unstack()和pivot()这三种方法。

           先看stack(),如图。stack()是将原来的列索引转成了最内层的行索引,这里是多层次索引,其中AB索引对应第三层,即最内层索引。

           再看unstack(),如图。显然,unstack()是stack()的逆操作,这里把最内层的行索引还原成了列索引。但是unstack()中有一个参数可以指定旋转第几层索引,比如unstack(0)就是把第一层行索引转成列索引,但默认的是把最内层索引转层列索引。

           最后,我们在看一个具体的例子。首先我们构造一个如下图的DataFrame对象,现在目的是要把ticker列作为行索引,tradeDate列作为列索引,closeIndex作为值,生成一个新的表格。这可以通过unstack()和pivot()分别实现,我们先看unstack()如何实现。

           我们之前说过,unstack()是针对索引的,因此,我们需要先把ticker和tradeDate这两列的值设置为索引,然后才能对其进行操作,代码如下。利用DataFrame的set_index()方法,并把需要作为index的两列标签的列表作为参数传递给这个方法,就可以把这两列设置为行索引。

           设置成行索引后,我们可以对这个对象用unstack()方法,默认把最内层转为列索引,代码如下。如图输入的结果,已经实现了我们目的,其中closeIndex作为列的最外层索引出现,如果我们再加一条代码df_daily_industry_symbol.set_index(['tradeDate','ticker']).unstack()['closeIndex'],则就会得到closeIndex索引下的表格。

           最后,我们看下如何用pivot()实现这个目的,代码如下。显然,用pivot()方法简单很多,可以直接通过设置相关参数实现。但是这里由于ticker和tradeDate最初就是值而不是索引,索引可以直接这样一行代码解决,若原数据中,这两列本来就是多层次的索引,那么用unstack()就会简单很多,因此,用什么方法取决于原数据的构成。

    再举个栗子:

    首先构建数据帧

    data = pd.DataFrame(np.arange(12).reshape((3,4)),
                       index = pd.Index(['a','b','c'],
                               name='state'),
                       columns=pd.Index(['one','two','three','four'],
                               name='number'))
    data
    
     
    image.png
    data.stack()
    
     
    image.png
    data.stack().index
    #state的级别为0,number的级别为1,unstack()默认为0
    
     
    image.png
    data.stack().unstack(0)
    
     
    image.png
    data.stack().unstack(1)
    
     
    image.png


    作者:我住永安当
    链接:https://www.jianshu.com/p/f72415a7a083
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
  • 相关阅读:
    暑假练习:游戏
    Floyd算法 笔记 C/C++
    Bellman-Ford 与 SPFA 算法笔记
    Dijkstra算法 C++
    C/C++ 并查集及其优化笔记整理
    C/C++ 哈夫曼树与哈夫曼编码
    判断是否为同一颗搜索树 C/C++
    C/C++ 平衡二叉树笔记(AVL树)
    VB中 “实时错误“3704”,对象关闭时,不允许操作”
    SQL Server 2014 配置全过程
  • 原文地址:https://www.cnblogs.com/feifeifeisir/p/13801669.html
Copyright © 2011-2022 走看看