zoukankan      html  css  js  c++  java
  • Python数据分析Pandas库方法简介

    Pandas 入门

    Pandas简介

    背景pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行实际,真实世界数据分析的基础高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大,最灵活的开源数据分析/操作工具。它已朝着这个目标迈进

    • pandas组成 = 数据面板+数据分析工具

    • pandas把数据分为3类

      • 一位矩阵:Series 强大在可以存储任意类型数据 二维矩阵: DataFrame 三维矩阵; Panel

    pandas数据结构

    • Series:一维数组。类型Numpy的一维数组,强大在可以存储任意类型数据

    • Time-Series:以时间维索引的Series

    • DataFrame: 二位的表格数据结构,===升级版矩阵

      • 它含有一组有序的列,每列可以是不同的值类型(数值,字符串,)

     

    pandas的数据类型

    • 导入pandas

      import pandas as pd
    • 读取csv文件,数据类型就是DataFrame二维矩阵

      a = pd.read_csv(path)
      type(a)
    • 属性和方法

      • 类型 type(a)

      • 维度 a.ndim

      • 形状 a.shape

      • 大小 a.size

      • 数据类型 a.dtypes

      • 帮助 help(pd)

    索引操作

    • 前n行:head(n)

    • 后n行:tail(n)

    • 第n行: df.loc[n]

    • 第3-7行: df.loc[2:8]

    • 取任意行: df.loc[[2,3,5]]

    • 取某列: df['列名'] df.列名

    • 取任意列:df[['列1',‘列2’,。。。]]

     

    案例 取出所有g为结尾的列

    a = df.columns.tolist()
    bb = []
    for x in a:
       if x.endswith('(g)') or x.endswith('(mg)'):
           bb.append(x)
           
    df[bb]

    简单统计

    数据统计

    • 摘要描述/简介:df.describe()

    • 一维。value_counts()统计以为矩阵中数组出现的次数: 比如统计成绩

    • 最大: df['列名'].max()

    • 最小 :min

    • 平均值:mean

    • 标准差 std

     

    案例分析2成绩分析

    # 案例-成绩分析
    chengji = pd.read_excel('score.xlsx')
    chengji['成绩'].describe()
    chengji['成绩'].value_counts()
    a = chengji['成绩']
    a[a<80]

     

     

     

     

     

     

     

  • 相关阅读:
    我要好offer之 二叉树大总结
    我要好offer之 字符串相关大总结
    楼层扔鸡蛋问题[转]
    Linux System Programming 学习笔记(十一) 时间
    Linux System Programming 学习笔记(十) 信号
    Linux System Programming 学习笔记(九) 内存管理
    Linux System Programming 学习笔记(八) 文件和目录管理
    Linux System Programming 学习笔记(七) 线程
    Linux System Programming 学习笔记(六) 进程调度
    APUE 学习笔记(十一) 网络IPC:套接字
  • 原文地址:https://www.cnblogs.com/guofeng-1016/p/10109376.html
Copyright © 2011-2022 走看看