zoukankan      html  css  js  c++  java
  • Pandas系列(八)-筛选工具介绍

    内容目录

    • 1. 字典式 get 访问
    • 2. 属性访问
    • 3. 切片操作
    • 4. 通过数字筛选行和列
    • 5. 通过名称筛选行和列
    • 6. 布尔索引
    • 7. isin 筛选
    • 8. 通过Callable筛选

    数据准备

    # 导入相关库
    import numpy as np
    import pandas as pd
    
    index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
    data = {
        "age": [18, 30, np.nan, 40, np.nan, 30],
        "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
        "sex": [None, "male", "female", "male", np.nan, "unknown"],
        "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
    }
    user_info = pd.DataFrame(data=data, index=index)
    # 将出生日期转为时间戳
    user_info["birth"] = pd.to_datetime(user_info.birth)
    user_info
    Out[54]: 
            age        city      sex      birth
    name                                       
    Tom    18.0   Bei Jing      None 2000-02-10
    Bob    30.0  Shang Hai      male 1988-10-17
    Mary    NaN  Guang Zhou   female        NaT
    James  40.0   Shen Zhen     male 1978-08-08
    Andy    NaN         NaN      NaN        NaT
    Alice  30.0              unknown 1988-10-17
    

    1. 字典式 get 访问

    #get方法
    user_info.get('age') 
    Out[55]: 
    name
    Tom      18.0
    Bob      30.0
    Mary      NaN
    James    40.0
    Andy      NaN
    Alice    30.0
    Name: age, dtype: float64
    user_info.get('age').get('Tom')
    Out[56]: 18.0

    2. 属性访问

    user_info.age
    Out[57]: 
    name
    Tom      18.0
    Bob      30.0
    Mary      NaN
    James    40.0
    Andy      NaN
    Alice    30.0
    Name: age, dtype: float64
    user_info.age.Tom
    Out[58]: 18.0
    

     3.切片

      切片对于 Series 来说,通过切片可以完成选择指定的行,对于 DataFrame 来说,通过切片可以完成选择指定的行或者列,来看看怎么玩吧

    # 筛选出第二行第一列的数据
    user_info.iloc[1, 0]
    """筛选行"""
    # 获取年龄的前两行
    user_info.age[:2]
    #获取所有信息的前两行
    user_info[:2]
    # 所有信息每两行选择一次数据
    user_info[::2]
    # 对所有信息进行反转
    user_info[::-1]
    """筛选列"""
    user_info['age']
    user_info[["city", "age"]]
    

     4. 通过数字筛选行和列

      通过切片操作可以完成筛选行或者列,如何同时筛选出行和列呢?
      通过 iloc 即可实现, iloc 支持传入行和列的筛选器,并用 , 隔开。无论是行或者里筛选器,都可以为以下几种情况:

    • 一个整数,如 2
    • 一个整数列表,如 [2, 1, 4]
    • 一个整数切片对象,如 2:4
    • 一个布尔数组
    • 一个callable

    先来看下前3种的用法。

    # 筛选出第一行数据
    user_info.iloc[0]
    # 筛选出第二行第一列的数据
    user_info.iloc[1, 0]
    # 筛选出第二行、第一行、第三行对应的第一列的数据
    user_info.iloc[[1, 0, 2], 0]
    user_info.iloc[0:2,0]
    # 筛选出第一行至第三行以及第一列至第二列的数据
    user_info.iloc[0:3, 0:2]
    # 筛选出第一列至第二列的数据
    user_info.iloc[:, 0:2]

      5. 通过名称筛选行和列

      虽然通过 iloc 可以实现同时筛选出行和列,但是它接收的是输入,非常不直观, 通过 loc 可实现传入名称来筛选数据,loc 支持传入行和列的筛选器,并用 , 隔开。无论是行或者里筛选器,都可以为以下

      几种情况:

    • 一个索引的名称,如:"Tom"
    • 一个索引的列表,如:["Bob", "Tom"]
    • 一个标签范围,如:"Tom": "Mary"
    • 一个布尔数组
    • 一个callable

    先来看下前3种的用法。

    # 筛选出名称为 Tom 的数据一行数据
    user_info.loc["Tom"]
    # 筛选出名称为 Tom 的年龄
    user_info.loc["Tom", "age"]
    # 筛选出名称在 ["Bob", "Tom"] 中的两行数据
    user_info.loc[["Bob", "Tom"]]
    # 筛选出索引名称在 Tom 到 Mary 之间的数据
    user_info.loc["Tom": "Mary"]
    # 筛选出年龄这一列数据
    user_info.loc[:, ["age"]]
    # 筛选出所有 age 到 birth 之间的这几列数据
    user_info.loc[:, "age": "birth"]
    #注:通过名称来筛选时,传入的切片是左右都包含的。

      6. 布尔索引

      通过布尔操作我们一样可以进行筛选操作,布尔操作时,& 对应 and,| 对应 or,~ 对应 not。当有多个布尔表达式时,需要通过小括号来进行分组。

    user_info[user_info.age > 20]
    # 筛选出年龄在20岁以上,并且性别为男性的数据
    user_info[(user_info.age > 20) & (user_info.sex == "male")]
    # 筛选出性别不为 unknown 的数据
    user_info[~(user_info.sex == "unknown")]
    user_info.loc[user_info.age > 20, ["age"]]

      7.isin 筛选

      Series 包含了 isin 方法,它能够返回一个布尔向量,用于筛选数据。

    # 筛选出性别属于 male 和 female的数据
    user_info[user_info.sex.isin(["male", "female"])]
    #对于索引来说,一样可以使用 isin 方法来筛选。
    user_info[user_info.index.isin(["Bob"])]

      8. 通过Callable筛选

      loc、iloc、切片操作都支持接收一个 callable 函数,callable必须是带有一个参数(调用Series,DataFrame)的函数,并且返回用于索引的有效输出。

    user_info[lambda df: df["age"] > 20]
    user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]
    user_info.iloc[lambda df: [0,5], lambda df: [0]]
    user_info.iloc[0:5, lambda df: [0]]
    

      

      

  • 相关阅读:
    Web后台项目学习2(代码部分)
    Web后台项目学习
    JDBC
    爬虫视频
    asyncio
    一篇做实验的随笔
    day14
    day13
    html+css 习题
    js-练习题
  • 原文地址:https://www.cnblogs.com/zhangyafei/p/10514054.html
Copyright © 2011-2022 走看看