zoukankan      html  css  js  c++  java
  • Python数据分析Pandas库方法简介

    Pandas 入门

    Pandas简介

    背景pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行实际,真实世界数据分析的基础高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大,最灵活的开源数据分析/操作工具。它已朝着这个目标迈进

    • pandas组成 = 数据面板+数据分析工具

    • pandas把数据分为3类

      • 一位矩阵:Series 强大在可以存储任意类型数据 二维矩阵: DataFrame 三维矩阵; Panel

    pandas数据结构

    • Series:一维数组。类型Numpy的一维数组,强大在可以存储任意类型数据

    • Time-Series:以时间维索引的Series

    • DataFrame: 二位的表格数据结构,===升级版矩阵

      • 它含有一组有序的列,每列可以是不同的值类型(数值,字符串,)

     

    pandas的数据类型

    • 导入pandas

      import pandas as pd
    • 读取csv文件,数据类型就是DataFrame二维矩阵

      a = pd.read_csv(path)
      type(a)
    • 属性和方法

      • 类型 type(a)

      • 维度 a.ndim

      • 形状 a.shape

      • 大小 a.size

      • 数据类型 a.dtypes

      • 帮助 help(pd)

    索引操作

    • 前n行:head(n)

    • 后n行:tail(n)

    • 第n行: df.loc[n]

    • 第3-7行: df.loc[2:8]

    • 取任意行: df.loc[[2,3,5]]

    • 取某列: df['列名'] df.列名

    • 取任意列:df[['列1',‘列2’,。。。]]

     

    案例 取出所有g为结尾的列

    a = df.columns.tolist()
    bb = []
    for x in a:
       if x.endswith('(g)') or x.endswith('(mg)'):
           bb.append(x)
           
    df[bb]

    简单统计

    数据统计

    • 摘要描述/简介:df.describe()

    • 一维。value_counts()统计以为矩阵中数组出现的次数: 比如统计成绩

    • 最大: df['列名'].max()

    • 最小 :min

    • 平均值:mean

    • 标准差 std

     

    案例分析2成绩分析

    # 案例-成绩分析
    chengji = pd.read_excel('score.xlsx')
    chengji['成绩'].describe()
    chengji['成绩'].value_counts()
    a = chengji['成绩']
    a[a<80]

     

     

     

     

     

     

     

  • 相关阅读:
    Java 如何有效地避免OOM:善于利用软引用和弱引用
    LRU缓存实现(Java)
    Java实现LRU(最近最少使用)缓存
    HashSet,TreeSet和LinkedHashSet的区别
    IIS-详解IIS中URL重写工具的规则条件(Rule conditions)
    IIS-代理
    IIS-新建网站
    IIS-反向代理配置&&插件安装
    IIS-C#项目环境搭建
    IIS-Windows10如何安装
  • 原文地址:https://www.cnblogs.com/guofeng-1016/p/10109376.html
Copyright © 2011-2022 走看看