zoukankan      html  css  js  c++  java
  • 数据分析 大数据之路 五 pandas 报表

    pandas:  在内存中或对象,会有一套基于对象属性的方法,   可以视为 pandas 是一个存储一维表,二维表,三维表的工具,

    主要以二维表为主

    一维的表,      (系列(Series))

    二维的表,DataFrame, 也叫报表

    三维的表,(面板(Panel))

    文本格式 :

    CSV 以文本方式存储,  item 之间用逗号分割,记录与记录之间以回车分开 , 可以用 excel 方式打开 

    json 格式 , 以 key ,value 方式存储

    import numpy as np
    import pandas as pd
    
    # data 里的 key 可以看成是表头,
    data = {
        'animal   ': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age      ': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits'   : [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority' : ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']
        }
    
    # 给每一条记录起个别名
    labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
    
    df = pd.DataFrame(data, index=labels)
    print(df)
       age animal priority  visits
    a  2.5    cat      yes       1
    b  3.0    cat      yes       3
    c  0.5  snake       no       2
    d  NaN    dog      yes       3
    e  5.0    dog       no       2
    f  2.0    cat       no       3
    g  4.5  snake       no       1
    h  NaN    cat      yes       1
    i  7.0    dog       no       2
    j  3.0    dog       no       1
    

      df.head() ,  head() 默认输出前 5 条记录

      df [1:5]  也可以通过切片方式操作 (行索引)

      df [['age', 'animal']] (列索引)

       df.iloc[0:3, 0:3]   指定行,列输出

       age       animal    priority
    a        2.5       cat      yes
    b        3.0       cat      yes
    c        0.5     snake       no
    

      

    缺失数据/异常数据处理
    Ø 找到缺失值
    df[df['age'].isnull()]

    填充缺失值
    df['age'].fillna(0, inplace=True)

    将字符值替换成布尔值
    df['priority'] = df['priority'].map({'yes': True, 'no': False})


    2.4 可

  • 相关阅读:
    Hadoop_33_Hadoop HA的搭建
    Hadoop_32_HDFS高可用机制
    Hadoop_31_MapReduce参数优化
    Hadoop_30_MapReduce_多job串联
    Hadoop_29_MapReduce_计数器应用
    Hadoop_28_MapReduce_自定义 inputFormat
    Hadoop_27_MapReduce_运营商原始日志增强(自定义OutputFormat)
    Hadoop_26_MapReduce_Reduce端使用GroupingComparator求同一订单中最大金额的订单
    Hadoop_25_MapReduce实现日志清洗程序
    干货 | 剑指offer系列文章汇总
  • 原文地址:https://www.cnblogs.com/gdwz922/p/10633883.html
Copyright © 2011-2022 走看看