zoukankan      html  css  js  c++  java
  • 数据分析

    数据读取结构 -  DataFrame 

    • Series (collection of values)
    • DataFrame (collection of Series objects)
    • Panel (collection of DataFrame objects)

    DataFrame  可以理解为一个矩阵结构, 每一列都是一个 Series 

    简单得使用展示

    一维

    二维

    样本文件 food_info.csv

    表示食品中的各种营养素指标

    样本文件 titanic_train.csv

    泰坦尼克号船员获救案例

    属性

    .dtypes 属性

    查看  DataFrame  结构的内部数据类型

    常见的属性值

    此属性也可以作为方法使用

    可以进行数据类型得更改, 但是更改必须要赋值才可以生效

    直接使用仅仅是预览功能,而且如果此时赋值直接再本来都是 int 类型得里面加个 字符串是不会报错得, 而是将所有得类型自动转化成 object (字符串) 从而适配全部

    .columns  属性

    查看  DataFrame  的列名 (对应样本文件的每个营养素指标,得到一个 list 结构

    也可以继续执行  .tolist()  方法返回一个列表

    简单使用展示

    .shape 属性

    查看维度, 空间结构表示 (行, 列)

    用于查看规模

    操作方法

    read_csv 方法

    读取 csv 文件转为为  DataFrame  类型

    info 方法

    查看信息预览

    head 方法 / tail 方法

    输出 头 / 尾 n 行数据

    传入参数  count(int)  未指定时, 默认输出 5 行, 制定后输入指定行数 

    传给参数后会简化输出结果

    取行 - loc 方法

    老版本貌似也可以使用  .ix   属性来取值, 用法是一样的, 但是会标红以及提示报错

    指定索引取值, 此处不直接使用索引而是用  loc  方法再次封装了一下

    传入参数为 索引号, 当然指定不存在的索引是会报错的

     

     使用此方法也可以基于索引进行切片, 

    也可以直接定位到属性值而不是一行的样本, 格式如图, 先写行号在写属性名, 这样定位到一个值之后是可以直接赋值修改操作的

    取列 - ["..."]

    取列   按照字段字符串来取这一列的值, 想取多个列就传入多个值, 取索引列的话就用   .index  即可 , 索引列也可以进行修改赋值

    赋值   直接对一列进行赋值操作会改变这一列的所有的值, 如果想赋值多个就传入列表即可,传入的如果数据不对其就报错超出索引

    注意取多个列的时候要用 [] 再套一层

    示例展示

    取列得时候也可以直接用 .列名 这样得类似属性得方式直接取出来, 但是这样得话容易于内置函数冲突

    因此并不推荐, 更推荐使用 [...] 得形式更安全

    运算 

    类似于  numpy  中的运算, 都是对一列全部的数据进行运算

    如果运算值也是列. 则列之间如果数据对应(维度一样)的话则每行的多列进行运算

    运算后的结果可以再保存进去, 但是必须要求维度一致

    运算函数

    取到列之后进行函数调用, 可以进行最大值  .max  , 最小值  .min  , 均值  .mean  等运算

    排序操作 - sort_values

    参数 :

      列名,

      inplace - 在原有基础上还是新拿出来

      ascending - 升序, 默认是True表示升序, 把 NaN 放在最后面

    排序序号 - reset_index

    使用  sort_values 后的指定的列排序成功了. 但是序号会按照之前的行号来处理. 看起来很不方便

    使用 此函数进行 index 重新处理,  参数 drop 表示丢弃之前的序号

    判断空值(缺失值) - isnull

      pd.isnull( )  传入一列, 进行判断空值输出 True/False 的列名映照序列

    在 [] 中使用可以取出反向过滤非空值及行号, 也可以进行统计

    丢弃指定值  - dropna

    指定列的指定值进行丢弃

      axis  指定丢弃值

      subset  指定丢弃列

    列关系运算 - pivot_table

    正常思路按照  python  中的语法要进行比较繁琐的操作, 而  pandas  中进行了相应的封装 

    参数:

       index   按照分类的列名, 基准, 不可以填入多个值

       values   统计结果所用的变量, 可以填入多个值

       aggfunc   统计结果的方式, 默认是  mean 均值方式

    此处的案例: 求分析不同  Pclass (船舱等级) 的  Survived  (获救人数) 的几率

     此处的案例: 求分析不同  Pclass  (船舱等级) 的  Age  (年龄) 的平均值

     

      此处的案例: 求分析不同码头之间的船票价格以及获救与否之间的关系

    转换时间格式 - to_datetime

    原有的时间格式是 1948/01/01 使用此函数可以转换为更标准时间格式

    自定义函数 - apply 

     pandas 内置的函数不能满足自己的需求的时候可以自自定义函数来使用 apply 来进行调用处理

    即再一次的封装使用更加方便

    案例: 返回第100行数据

    案例: 返回所有字段空值的计数

    案例: 字段数据替换

     案例: 年龄判断 

     

    数据读取结构 -  Series

    DataFrame 中的每一列都是一个  Series 

    创建  Series

    创建需要引入 Series 以及使用此类进行实例化

    参数传递为 值以及 index 序号, index 可以设置为 字符串

    通过 index 设置的字符串可以实现索引操作

    属性

    .index 查看创建索引

    索引也可以设置为其他非数字

    在创建的时候也可以指定索引值, 不一一对应也没关系会用 NaN 填充

    [] 索引使用

     索引得使用和列表类似, 直接索引取值赋值新增加值都可以

    注意索引可以取多个值, 但是取多个值得时候一定要在[] 内, 然后外面再套一层 [] 才可以

    而且如果此时赋值直接再本来都是 int 类型得里面加个 字符串是不会报错得,

    而是将所有得类型自动转化成 object (字符串) 从而适配全部

    .values 查看所有值

    类型本质为 ndarray

    方法

    排序

    基本上很少用, 很少会对  Series 进行排序

    运算

    相同维度的  Series  彼此可以直接运算

  • 相关阅读:
    LOJ#6031. 「雅礼集训 2017 Day1」字符串
    LG P4768 [NOI2018] 归程
    LG P3250 [HNOI2016]网络
    BZOJ4644 经典傻逼题
    LG P4373 [USACO18OPEN]Train Tracking P
    CF1375H Set Merging
    LG P6541 [WC2018]即时战略
    CF1097G Vladislav and a Great Legend
    python学习笔记-基本概念
    python学习笔记十-文件操作
  • 原文地址:https://www.cnblogs.com/shijieli/p/11246216.html
Copyright © 2011-2022 走看看