zoukankan      html  css  js  c++  java
  • pandas模块篇(终章)及初识mataplotlib

    今日内容概要

    • 时间序列
    • 针对表格数据的分组与聚合操作
    • 其他函数补充(apply)
    • 练习题(为了加深对DataFrame操作的印象)
    • mataplotlib画图模块

    今日内容详细

    时间序列处理

    时间序列类型
    1.时间戳
    2.具体日期
    3.时间间隔
    
    # 灵活处理时间对象dateutil包
    import dateutil
    dateutil.parser.parse("2020 May 2nd") # 这中间的时间格式一定要是英文格式
    运行结果:
    datetime.datetime(2020, 5, 2, 0, 0)
    
    # 日期批处理
    pd.to_datetime(['2020-05-01','2020 May 6'])
    运行结果:
    DatetimeIndex(['2020-05-01', '2020-05-06'], dtype='datetime64[ns]', freq=None) # 产生一个DatetimeIndex对象
    
    # 转时间索引
    
    res = pd.to_datetime(['2019-04-01','2017 May 09'])
    x1= pd.Series([1,2],index=res)
    x1
    运行结果:
    2019-04-01    1
    2017-05-09    2
    dtype: int64
        
    # 转换为array数组
    pd.to_datetime(['2018-05-20','2020 Feb 18']).to_pydatetime()
    运行结果:
    array([datetime.datetime(2018, 5, 20, 0, 0),
           datetime.datetime(2020, 2, 18, 0, 0)], dtype=object)
    
    # 产生时间对象数组:date_range
    pd.date_range("2020-1-1","2020-2-1")
    运行结果:
    DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
                   '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
                   '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12',
                   '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
                   '2020-01-17', '2020-01-18', '2020-01-19', '2020-01-20',
                   '2020-01-21', '2020-01-22', '2020-01-23', '2020-01-24',
                   '2020-01-25', '2020-01-26', '2020-01-27', '2020-01-28',
                   '2020-01-29', '2020-01-30', '2020-01-31', '2020-02-01'],
                  dtype='datetime64[ns]', freq='D')
    
    # 时间序列
    以时间对象作为索引的Series或DataFrame
    # 转换时间索引
    res1 = pd.date_range("2020-01-01","2020-02-01")
    b = pd.DataFrame({"num":pd.Series(random.randint(-100,100)for _ in range(32)),"date":res1})
    b
    运行结果:
    num	date
    0	13	2020-01-01
    1	76	2020-01-02
    2	-93	2020-01-03
    3	87	2020-01-04
    4	-16	2020-01-05
    5	67	2020-01-06
    6	-79	2020-01-07
    7	-10	2020-01-08
    8	5	2020-01-09
    9	-93	2020-01-10
    10	9	2020-01-11
    11	24	2020-01-12
    12	61	2020-01-13
    13	82	2020-01-14
    14	-52	2020-01-15
    15	-49	2020-01-16
    16	-65	2020-01-17
    17	4	2020-01-18
    18	84	2020-01-19
    19	44	2020-01-20
    20	-69	2020-01-21
    21	-3	2020-01-22
    22	96	2020-01-23
    23	13	2020-01-24
    24	80	2020-01-25
    25	-3	2020-01-26
    26	-73	2020-01-27
    27	-51	2020-01-28
    28	35	2020-01-29
    29	40	2020-01-30
    30	24	2020-01-31
    31	-56	2020-02-01
    
    # 先生成一个带有时间数据的DataFrame数组
    b.index = pd.to_datetime(b["date"])
    b
    运行结果:
    num	date
    date		
    2020-01-01	13	2020-01-01
    2020-01-02	76	2020-01-02
    2020-01-03	-93	2020-01-03
    2020-01-04	87	2020-01-04
    2020-01-05	-16	2020-01-05
    2020-01-06	67	2020-01-06
    2020-01-07	-79	2020-01-07
    2020-01-08	-10	2020-01-08
    2020-01-09	5	2020-01-09
    2020-01-10	-93	2020-01-10
    2020-01-11	9	2020-01-11
    2020-01-12	24	2020-01-12
    2020-01-13	61	2020-01-13
    2020-01-14	82	2020-01-14
    2020-01-15	-52	2020-01-15
    2020-01-16	-49	2020-01-16
    2020-01-17	-65	2020-01-17
    2020-01-18	4	2020-01-18
    2020-01-19	84	2020-01-19
    2020-01-20	44	2020-01-20
    2020-01-21	-69	2020-01-21
    2020-01-22	-3	2020-01-22
    2020-01-23	96	2020-01-23
    2020-01-24	13	2020-01-24
    2020-01-25	80	2020-01-25
    2020-01-26	-3	2020-01-26
    2020-01-27	-73	2020-01-27
    2020-01-28	-51	2020-01-28
    2020-01-29	35	2020-01-29
    2020-01-30	40	2020-01-30
    2020-01-31	24	2020-01-31
    2020-02-01	-56	2020-02-01
    
    # 再通过index修改索引
    
    '''
    补充
    1.传入年或者年月作为切片方式
    2.传入日期范围作为切片方式
    3.丰富的函数支持:resample(),strftime(),…
    4.批量转换为Datetime对象:to_pydatetime()
    a.resample("3D").mean()  # 计算每三天的均值
    a.resample("3D"),sum()   # 计算每三天的和
    
    '''
    

    数据分组与聚合

    x2 = pd.DataFrame({'key1':['x','x','y','y','x'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})
    x2
    运行结果:
    key1	key2	data1	data2
    0	x	one	-1.035376	-0.771586
    1	x	two	-0.431538	-0.417636
    2	y	one	0.961583	1.500525
    3	y	two	-0.969363	-1.919455
    4	x	one	1.080788	0.720058
    
    n1 = x2['data1'].groupby(x2['key1'])
    n1.mean()  # 调用mean函数求出平均值
    n2 = x2['data1'].groupby([x2['key1'],x2['key2']])
    n2.mean() 
    运行结果:
    key1  key2
    x     one     0.022706
          two    -0.431538
    y     one     0.961583
          two    -0.969363
    Name: data1, dtype: float64
            
    n2.mean().unstack()
    运行结果:
    key2	one	two
    key1		
    x	0.022706	-0.431538
    y	0.961583	-0.969363
    # 通过unstack方法就可以让索引不堆叠在一起了
    
    # 以上面的n2测试
    n2.size()
    key1  key2
    x     one     2
          two     1
    y     one     1
          two     1
    Name: data1, dtype: int64
    

    聚合函数的自定义

    # 使用自定义的聚合函数,需要将其传入aggregate或者agg方法当中
    def peak_to_peak(arr):
        return arr.max() - arr.min()
    n1.aggregate(peak_to_peak)
    运行结果:
    key1
    x    2.116164
    y    1.930947
    Name: data1, dtype: float64
    

    多个聚合函数联合

    n1.agg(['mean','std'])
    运行结果:
    mean	std
    key1		
    x	-0.128708	1.090099
    y	-0.003890	1.365385
    
    n2.agg(['mean','std','sum']).unstack()
    运行结果:
    mean	std	sum
    key2	one	two	one	two	one	two
    key1						
    x	0.022706	-0.431538	1.496354	NaN	0.045412	-0.431538
    y	0.961583	-0.969363	NaN	NaN	0.961583	-0.969363
    
    """
    总结
       聚合函数的时候 单个情况下可以直接点击函数名
       df.sum()
       如果想要执行多个聚合函数
       df.agg(['mean','sum']) 多个
       df.agg(['mean'])  单个
    """
    

    apply

    支持你自定义各种对数据的操作方式
    

    数据分析的数据来源

    • 公司内部

    • 从外购买的

    • 爬虫爬取

      '''
      HTML:超文本标记语言
      HTML页面:就是由一系列html标签组成的浏览器能够直接查看的界面
      '''
      
      # 1.分析NBA各球队冠军次数及球员FMVP次数
      import numpy as np
      import pandas as pd
      ses1=pd.read_html(r"https://baike.baidu.com/item/NBA%E6%80%BB%E5%86%A0%E5%86%9B/2173192") #切记 如果报错记得在网址前加r
      # 返回的是一个列表 列表中是当前页面的所有表格数据
      ses1
      运行结果:
      [       0          1          2    3        4         5
       0     年份       比赛日期         冠军  总比分       亚军      FMVP
       1   1947  4.16-4.22      费城勇士队  4-1   芝加哥牡鹿队         无
       2   1948  4.10-4.21    巴尔的摩子弹队  4-2    费城勇士队         无
       3   1949   4.4-4.13  明尼阿波利斯湖人队  4-2   华盛顿国会队         无
       4   1950   4.8-4.23  明尼阿波利斯湖人队  4-2  塞拉库斯民族队         无
       ..   ...        ...        ...  ...      ...       ...
       69  2015   6.5-6.17      金州勇士队  4-2  克里夫兰骑士队  安德烈·伊戈达拉
       70  2016   6.3-6.20    克里夫兰骑士队  4-3    金州勇士队   勒布朗·詹姆斯
       71  2017   6.2-6.13      金州勇士队  4-1  克利夫兰骑士队    凯文·杜兰特
       72  2018    6.1-6.9      金州勇士队  4-0  克利夫兰骑士队    凯文·杜兰特
       73  2019  5.31-6.14     多伦多猛龙队  4-2    金州勇士队    科怀·伦纳德
       
       [74 rows x 6 columns],
              0    1                  2     3  
       0     联盟   赛区                 球队  夺冠次数   
       1   东部联盟  大西洋           波士顿凯尔特人队    17   
       2   西部联盟  太平洋             洛杉矶湖人队    16   
       3   西部联盟  太平洋          金州勇士队 [1]     6   
       4   东部联盟   中部             芝加哥公牛队     6   
       5   西部联盟   西南           圣安东尼奥马刺队     5   
       6   东部联盟  大西洋             费城76人队     3   
       7   东部联盟   中部             底特律活塞队     3   
       8   东部联盟   东南             迈阿密热火队     3   
       9   东部联盟  大西洋             纽约尼克斯队     2   
       10  西部联盟   西南             休斯敦火箭队     2   
       11  西部联盟  太平洋           萨克拉门托国王队     1   
       12  东部联盟   东南            亚特兰大老鹰队     1   
       13  东部联盟   中部            密尔沃基雄鹿队     1   
       14  西部联盟   西北            波特兰开拓者队     1   
       15  东部联盟   东南             华盛顿奇才队     1   
       16  西部联盟   西北  俄克拉荷马城雷霆队(西雅图超音速)     1   
       17  西部联盟   西南             达拉斯小牛队     1   
       18  东部联盟   中部            克里夫兰骑士队     1   
       19  东部联盟  大西洋             多伦多猛龙队     1   
       20  东部联盟  大西洋            布鲁克林篮网队     0   
       21  东部联盟   中部           印第安纳步行者队     0   
       22  东部联盟   东南             夏洛特黄蜂队     0   
       23  东部联盟   东南             奥兰多魔术队     0   
       24  西部联盟  太平洋             洛杉矶快船队     0   
       25  西部联盟  太平洋            菲尼克斯太阳队     0   
       26  西部联盟   西北              丹佛掘金队     0   
       27  西部联盟   西北           明尼苏达森林狼队     0   
       28  西部联盟   西北              犹他爵士队     0   
       29  西部联盟   西南             孟菲斯灰熊队     0   
       30  西部联盟   西南            新奥尔良鹈鹕队     0   
       31   已撤销  已撤销             巴尔的摩子弹     1   
       
                                                           4  
       0                                                夺冠年份  
       1   1957、1959-1966、1968-1969、1974、 1976、1981、1984、...  
       2   1949-1950、1952-1954、1972、1980、1982、 1985、1987-...  
       3                       1947、1956、1975、2015、2017-2018  
       4                                 1991-1993、1996-1998  
       5                            1999、2003、2005、2007、2014  
       6                                      1955、1967、1983  
       7                                      1989-1990、2004  
       8                                      2006、2012、2013  
       9                                           1970、1973  
       10                                          1994-1995  
       11                                               1951  
       12                                               1958  
       13                                               1971  
       14                                               1977  
       15                                               1978  
       16                                               1979  
       17                                               2011  
       18                                               2016  
       19                                               2019  
       20                                                NaN  
       21                                                NaN  
       22                                                NaN  
       23                                                NaN  
       24                                                NaN  
       25                                                NaN  
       26                                                NaN  
       27                                                NaN  
       28                                                NaN  
       29                                                NaN  
       30                                                NaN  
       31                                   1948(该队并非现奇才队前身)  ]
      
      # 获取有效数据
      cv = ses1[0]
      cv
      运行结果:
      0	1	2	3	4	5
      0	年份	比赛日期	冠军	总比分	亚军	FMVP
      1	1947	4.16-4.22	费城勇士队	4-1	芝加哥牡鹿队	无
      2	1948	4.10-4.21	巴尔的摩子弹队	4-2	费城勇士队	无
      3	1949	4.4-4.13	明尼阿波利斯湖人队	4-2	华盛顿国会队	无
      4	1950	4.8-4.23	明尼阿波利斯湖人队	4-2	塞拉库斯民族队	无
      ...	...	...	...	...	...	...
      69	2015	6.5-6.17	金州勇士队	4-2	克里夫兰骑士队	安德烈·伊戈达拉
      70	2016	6.3-6.20	克里夫兰骑士队	4-3	金州勇士队	勒布朗·詹姆斯
      71	2017	6.2-6.13	金州勇士队	4-1	克利夫兰骑士队	凯文·杜兰特
      72	2018	6.1-6.9	金州勇士队	4-0	克利夫兰骑士队	凯文·杜兰特
      73	2019	5.31-6.14	多伦多猛龙队	4-2	金州勇士队	科怀·伦纳德
      74 rows × 6 columns
      
      # 1.将第一行变成列名称(原来的行数据还在)
      cv.columns = cv.lioc[0]
      cv
      # 2.将第二行数据删除 del drop
      cv.drop([0],inplace = True) # 默认不是修改的原数据 可以加inplace参数
      cv
      运行结果:
      年份	比赛日期	冠军	总比分	亚军	FMVP
      1	1947	4.16-4.22	费城勇士队	4-1	芝加哥牡鹿队	无
      2	1948	4.10-4.21	巴尔的摩子弹队	4-2	费城勇士队	无
      3	1949	4.4-4.13	明尼阿波利斯湖人队	4-2	华盛顿国会队	无
      4	1950	4.8-4.23	明尼阿波利斯湖人队	4-2	塞拉库斯民族队	无
      5	1951	4.7-4.21	罗切斯特皇家队	4-3	纽约尼克斯队	无
      ...	...	...	...	...	...	...
      69	2015	6.5-6.17	金州勇士队	4-2	克里夫兰骑士队	安德烈·伊戈达拉
      70	2016	6.3-6.20	克里夫兰骑士队	4-3	金州勇士队	勒布朗·詹姆斯
      71	2017	6.2-6.13	金州勇士队	4-1	克利夫兰骑士队	凯文·杜兰特
      72	2018	6.1-6.9	金州勇士队	4-0	克利夫兰骑士队	凯文·杜兰特
      73	2019	5.31-6.14	多伦多猛龙队	4-2	金州勇士队	科怀·伦纳德
      73 rows × 6 columns
      
      # 针对冠军字段分组
      cv.groupby('冠军').groups
      运行结果:
      {'休斯顿火箭队': [48, 49], '克里夫兰骑士队': [70], '华盛顿子弹队': [32], '圣安东尼奥马刺队': [53, 57, 59, 61, 68], '圣路易斯老鹰队': [12], '塞拉库斯民族队': [9], '多伦多猛龙队': [73], '密尔沃基雄鹿队': [25], '巴尔的摩子弹队': [2], '底特律活塞队': [43, 44, 58], '明尼阿波利斯湖人队': [3, 4, 6, 7, 8], '波士顿凯尔特人队': [11, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 28, 30, 35, 38, 40, 62], '波特兰开拓者队': [31], '洛杉矶湖人队': [26, 34, 36, 39, 41, 42, 54, 55, 56, 63, 64], '纽约尼克斯队': [24, 27], '罗切斯特皇家队': [5], '芝加哥公牛队': [45, 46, 47, 50, 51, 52], '西雅图超音速队': [33], '费城76人队': [21, 37], '费城勇士队': [1, 10], '达拉斯小牛队': [65], '迈阿密热火队': [60, 66, 67], '金州勇士队': [29, 69, 71, 72]}
      
      # 获取分组之后的各分组大小
      cv.groupby('冠军').size()
      运行结果:
      冠军
      休斯顿火箭队        2
      克里夫兰骑士队       1
      华盛顿子弹队        1
      圣安东尼奥马刺队      5
      圣路易斯老鹰队       1
      塞拉库斯民族队       1
      多伦多猛龙队        1
      密尔沃基雄鹿队       1
      巴尔的摩子弹队       1
      底特律活塞队        3
      明尼阿波利斯湖人队     5
      波士顿凯尔特人队     17
      波特兰开拓者队       1
      洛杉矶湖人队       11
      纽约尼克斯队        2
      罗切斯特皇家队       1
      芝加哥公牛队        6
      西雅图超音速队       1
      费城76人队        2
      费城勇士队         2
      达拉斯小牛队        1
      迈阿密热火队        3
      金州勇士队         4
      dtype: int64
          
      # 获取各组冠军次数
      cv.groupby('冠军').size().sort_values(ascending=False) # 升序
      运行结果:
      冠军
      波士顿凯尔特人队     17
      洛杉矶湖人队       11
      芝加哥公牛队        6
      圣安东尼奥马刺队      5
      明尼阿波利斯湖人队     5
      金州勇士队         4
      迈阿密热火队        3
      底特律活塞队        3
      休斯顿火箭队        2
      纽约尼克斯队        2
      费城76人队        2
      费城勇士队         2
      塞拉库斯民族队       1
      克里夫兰骑士队       1
      华盛顿子弹队        1
      达拉斯小牛队        1
      圣路易斯老鹰队       1
      西雅图超音速队       1
      多伦多猛龙队        1
      密尔沃基雄鹿队       1
      罗切斯特皇家队       1
      波特兰开拓者队       1
      巴尔的摩子弹队       1
      dtype: int64
          
      # 分组字段可以一次性取多个
      cv.groupby(['冠军','FMVP']).size()
      运行结果:
      冠军         FMVP      
      休斯顿火箭队     哈基姆·奥拉朱旺       2
      克里夫兰骑士队    勒布朗·詹姆斯        1
      华盛顿子弹队     韦斯·昂塞尔德        1
      圣安东尼奥马刺队   托尼·帕克          1
                 科怀·伦纳德         1
                 蒂姆·邓肯          3
      圣路易斯老鹰队    无              1
      塞拉库斯民族队    无              1
      多伦多猛龙队     科怀·伦纳德         1
      密尔沃基雄鹿队    贾巴尔            1
      巴尔的摩子弹队    无              1
      底特律活塞队     乔·杜马斯          1
                 伊塞亚·托马斯        1
                 昌西·比卢普斯        1
      明尼阿波利斯湖人队  无              5
      波士顿凯尔特人队   乔·乔·怀特         1
                 保罗·皮尔斯         1
                 塞德里克·麦克斯维尔     1
                 拉里·伯德          2
                 无             10
                 杰里·韦斯特         1
                 约翰·哈夫利切克       1
      波特兰开拓者队    比尔·沃顿          1
      洛杉矶湖人队     埃尔文·约翰逊        3
                 张伯伦            1
                 沙奎尔·奥尼尔        3
                 科比·布莱恩特        2
                 詹姆斯·沃西         1
                 贾巴尔            1
      纽约尼克斯队     威利斯·里德         2
      罗切斯特皇家队    无              1
      芝加哥公牛队     迈克尔·乔丹         6
      西雅图超音速队    丹尼斯·约翰逊        1
      费城76人队     摩西·马龙          1
                 无              1
      费城勇士队      无              2
      达拉斯小牛队     德克·诺维茨基        1
      迈阿密热火队     勒布朗·詹姆斯        2
                 德怀恩·韦德         1
      金州勇士队      凯文·杜兰特         2
                 安德烈·伊戈达拉       1
                 里克·巴里          1
      dtype: int64
      
      # 欧洲杯
      # 分析欧洲杯和欧洲冠军联赛决赛名单
      url="https://en.wikipedia.org/wiki/List_of_European_Cup_and_UEFA_Champions_League_finals"
      eu_champions=pd.read_html(url)  # 获取数据
      
      b1 = eu_champions[2]    # 取出决赛名单
      
      
      b1.columns = b1.loc[0]  # 使用第一行的数据替换默认的横向索引
      
      
      b1.drop(0,inplace=True)  # 将第一行的数据删除
      b1.drop('#',axis=1,inplace=True)  # 将以#为列名的那一列删除
      
      b1.columns=['Season', 'Nation', 'Winners', 'Score', 'Runners_up', 'Runners_up_Nation', 'Venue','Attendance']  # 设置列名
      
      b1.tail()  # 查看后五行数据
      b1.drop([64,65],inplace=True)  # 删除其中的缺失行以及无用行
      b1
      

      Matplotlib模块

    可以将numpy pandas里面的数据用图形化的展示出来
    
    是一个强大的python绘图和数据可视化工具包,数据可视化也是我们数据分析重要环节之一,可以帮助我们分析出很多价值信息,也是数据分析的最后一个可视化阶段
    

    导入语句

    # 下载
    pip3 install matplotlib
    
    # 推荐语法
    import matplotlib.pyplot as plt
    
    为了舒适的结果,眼前的坎坷路程即使再长都是值得的。
  • 相关阅读:
    计算机程序的构造和解释
    StackOverflow之旅<1>------{去掉烦人的"!=null"判断}
    tomcat 启动显示指定的服务未安装
    Sql Server 表的复制
    Sql Server配置管理器与 Sql Server Management Studio
    “因为数据库正在使用,所以无法获得对数据库的独占访问权。”处理
    Win10磁贴 横向排列 增加多行 多列 磁贴横向展示
    解决使用Hyper-v 设置虚拟机网卡出现-从网络文件夹中隐藏
    Hyper-V网络设置(物理机+虚拟机)
    易语言等软件自动获取管理员权限,在64位Windows7系统非管理员帐户中执行
  • 原文地址:https://www.cnblogs.com/abudrSatan1998/p/13632651.html
Copyright © 2011-2022 走看看