zoukankan      html  css  js  c++  java
  • Pandas系列教程(2)Pandas数据结构

    Pandas数据结构

    DataFrame: 二维数组,整个表格,多行多列

    Series: 一维数据,一行或一列

     

    1、Series

     Series是一种类似于一维数组的对象,他由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成

    import pandas as pd
    import numpy as np
    
    # ================= 1 仅有数据列表即可产生最简单的Series =================
    s1 = pd.Series([1, 'a', 5.2, 7])
    # 左侧为索引,右侧是数据
    print(s1)
    # 获取索引
    print(s1.index)
    # 获取数据
    print(s1.values)
    print('*' * 50)
    
    # ================= 2 创建一个具有标签索引的Series =================
    s2 = pd.Series([1, 'a', 5.2, 7], index=['d', 'b', 'a', 'c'])
    # 左侧为索引,右侧是数据
    print(s2)
    # 获取索引
    print(s2.index)
    # 获取数据
    print(s2.values)
    print('*' * 50)
    
    # ================= 3 使用Python字典创建Series =================
    data = {"Ohio": 35000, "Texas": 72000, "Oregon": 16000, "Utah": 5000}
    s3 = pd.Series(data)
    # 左侧为索引,右侧是数据
    print(s3)
    # 获取索引
    print(s3.index)
    # 获取数据
    print(s3.values)
    
    # ================= 4 根据标签索引查询数据 =================
    s4 = pd.Series([1, 'a', 5.2, 7], index=['d', 'b', 'a', 'c'])
    # 左侧为索引,右侧是数据
    print(s4)
    # 获取index为a的元素
    print(s4['a'])
    print(type(s4['a']))
    # 获取指定的多个值
    print(s4[['b', 'a']])
    print(type(s4[['b', 'a']]))

    2、DataFrame

    DataFrame是一个表格型的数据结构

    • 每列可以是不同的值类型(数值,字符串,布尔值等)

    • 既有行索引index, 也有columns

    • 可以被看做由Series组成的字典

    创建dataframe最常用的方法,见Panda数据读取

    import pandas as pd
    
    data = {
        "state": ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        "year": [2000, 2001, 2002, 2003, 2004],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9]
    }
    df = pd.DataFrame(data)
    print(df)
    
    # 获取每列的数据类型
    print(df.dtypes)
    
    # 获取每列的键名
    print(df.columns)
    
    # 获取索引
    print(df.index)

    3、从DataFrame中查询出Series

    • 如果只查询出一行,一列,返回的是pd.Series

    • 如果查询多列,多行,发挥的是pd.DataFrame

    import pandas as pd
    
    data = {
        "state": ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        "year": [2000, 2001, 2002, 2003, 2004],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9]
    }
    df = pd.DataFrame(data)
    print(df, '
    ')
    
    # 查询一列,结果是一个pd.Series
    print(df['year'], type(df['year']), '
    ')
    
    # 查询多列,结果是一个pd.DataFrame
    print(df[['year', 'pop']], type(df[['year', 'pop']]), '
    ')
    
    # 查询一行,结果是一个pd.Series
    print(df.loc[1], type(df.loc[1]), '
    ')
    
    # 查询多行,结果是一个pd.DataFrame
    print(df.loc[1:3], type(df.loc[1:3]))
  • 相关阅读:
    【动态规划】多重背包
    【动态规划】完全背包问题
    【背包问题】0-1背包、完全背包、多重背包、混合三种背包、二位费用背包、分组背包
    HDU1712ACboy needs your help【分组背包】
    关于kettle
    面向接口编程
    MS Sql添加描述信息 及其他信息
    记录我一个特别酷的梦
    EF 线程内唯一对象
    javascript 学习犯错记录
  • 原文地址:https://www.cnblogs.com/xingxingnbsp/p/13851616.html
Copyright © 2011-2022 走看看