zoukankan      html  css  js  c++  java
  • pandas

    import pandas as pd
    from pandas import Series,DataFrame
    import numpy as np
    
    1、Series
    Series是一种类似与一维数组的对象,由下面两个部分组成:
    
    values:一组数据(ndarray类型)
    index:相关的数据索引标签
    1)Series的创建
    两种创建方式:
    
    (1) 由列表或numpy数组创建
    
    默认索引为0到N-1的整数型索引
    

    2)Series的索引和切片
    可以使用中括号取单个索引(此时返回的是元素类型),或者中括号里一个列表取多个索引(此时返回的是一个Series类型)。
    
    (1) 显式索引:
    
    - 使用index中的元素作为索引值
    - 使用s.loc[](推荐):注意,loc中括号中放置的一定是显示索引
    注意,此时是闭区间

    (2) 隐式索引:

    - 使用整数作为索引值
    - 使用.iloc[](推荐):iloc中的中括号中必须放置隐式索引

    注意,此时是半开区间

     

      

    DataFrame
    DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。
    
    行索引:index
    列索引:columns
    值:values
    1)DataFrame的创建
    最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。
    
    此外,DataFrame会自动加上每一行的索引。
    
    使用字典创建的DataFrame后,则columns参数将不可被使用。
    
    同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。
    
    使用ndarray创建DataFrame
    DataFrame(data=np.random.randint(0,100,size=(5,6)))
    0	1	2	3	4	5
    0	32	93	0	23	21	40
    1	27	35	9	76	41	68
    2	63	96	63	30	96	51
    3	2	50	28	26	26	41
    4	32	74	97	84	56	7
    DataFrame属性:values、columns、index、shape
    
    df
    df.values
    array([[77, 67],
           [88, 88],
           [99, 99],
           [90, 78]], dtype=int64)
    df.index
    Index(['语文', '数学', '英语', '理综'], dtype='object')
    使用ndarray创建DataFrame:创建一个表格用于展示张三,李四,王五的java,python的成绩
    
    '语文','数学','英语','理综'
    dic = {
        '张三':[77,88,99,90],
        '李四':[67,88,99,78]
    }
    df = DataFrame(data=dic,index=['语文','数学','英语','理综'])
    df
    张三	李四
    语文	77	67
    数学	88	88
    英语	99	99
    理综	90	78
    ============================================
    
    
        张三  李四  
    语文 150  0
    数学 150  0
    英语 150  0
    理综 300  0
    ============================================
    
    2)DataFrame的索引
    (1) 对列进行索引
    
    - 通过类似字典的方式  df['q']
    - 通过属性的方式     df.q
    可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。
    
    df
    张三	李四
    语文	77	67
    数学	88	88
    英语	99	99
    理综	90	78
    df['张三']
    语文    77
    数学    88
    英语    99
    理综    90
    Name: 张三, dtype: int64
    df.张三
    语文    77
    数学    88
    英语    99
    理综    90
    Name: 张三, dtype: int64
    df[['李四','张三']]
    df[['李四','张三']]
    李四	张三
    语文	67	77
    数学	88	88
    英语	99	99
    理综	78	90
    #修改列索引
    df.columns = ['zhangsan','lisi']
    df
    zhangsan	lisi
    语文	77	67
    数学	88	88
    英语	99	99
    理综	90	78
    (2) 对行进行索引
    
    - 使用.loc[]加index来进行行索引
    - 使用.iloc[]加整数来进行行索引
    同样返回一个Series,index为原来的columns。
    
    df.iloc[[0,1]]
    zhangsan	lisi
    语文	77	67
    数学	88	88
    (3) 对元素索引的方法
    
    - 使用列索引
    - 使用行索引(iloc[3,1] or loc['C','q']) 行索引在前,列索引在后
    df.iloc[0,1]
    67
    切片:
    【注意】 直接用中括号时:
    
    索引表示的是列索引
    切片表示的是行切片
    df[0:2]
    zhangsan	lisi
    语文	77	67
    数学	88	88
    在loc和iloc中使用切片(切列) : df.loc['B':'C','丙':'丁']
    
    df.iloc[:,0:1]
    zhangsan
    语文	77
    数学	88
    英语	99
    理综	90
    
    3)DataFrame的运算
    (1) DataFrame之间的运算
    
    同Series一样:
    
    在运算中自动对齐不同索引的数据
    如果索引不对应,则补NaN
    ​
    创建DataFrame df1 不同人员的各科目成绩,月考一
    
    创建DataFrame df2 不同人员的各科目成绩,月考二
    
    
    df 
    zhangsan	lisi
    语文	87	177
    数学	10	198
    英语	109	209
    理综	100	188
    df.loc['数学','zhangsan'] = 0
    df['lisi'] += 100
    df += 10
    df += 10
    (df+df)/2
    zhangsan	lisi
    语文	77	67
    数学	88	88
    英语	99	99
    理综	90	78
    

      

  • 相关阅读:
    JStack分析cpu消耗过高问题
    Machine Learning in Action – PCA和SVD
    Machine Learning in Action -- FP-growth
    Machine Learning in Action -- 树回归
    Machine Learning in Action -- 回归
    Kafka 0.8 配置参数解析
    统计学习方法笔记 -- 隐马尔可夫模型
    Machine Learning in Action -- AdaBoost
    统计学习方法笔记 -- Boosting方法
    Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control
  • 原文地址:https://www.cnblogs.com/wqzn/p/10486734.html
Copyright © 2011-2022 走看看