zoukankan      html  css  js  c++  java
  • pandas

    首先导入相关模块并加载数据集到 Python 环境中:

    import pandas as pd
    import numpy as np
    data = pd.read_csv("train.csv", index_col="Loan_ID")

    #1 – 布尔索引

    如果需要以其它列数据值为条件过滤某一列的数据,您会怎么处理?例如建立一个列表,列表中全部为未能毕业但曾获得贷款的女性。这里可以使用布尔索引,代码如下:

    1.-boolean-indexing

    #2 – Apply 函数

    Apply 函数是处理数据和建立新变量的常用函数之一。在向数据框的每一行或每一列传递指定函数后,Apply 函数会返回相应的值。这个由 Apply 传入的函数可以是系统默认的或者用户自定义的。例如,在下面的例子中它可以用于查找每一行和每一列中的缺失值。

    #Create a new function:
    def num_missing(x):
    return sum(x.isnull())

    #Applying per column:
    print "Missing values per column:"
    print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each column

    #Applying per row:
    print "nMissing values per row:"
    print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row

    这样我们就得到了所需的结果。

    注:由于输出结果包含多行数据,第二个输出函数使用了 head() 函数以限定输出数据长度。在不限定输入参数时 head() 函数默认输出 5 行数据。

    #3 – 填补缺失值

    fillna() 函数可一次性完成填补功能。它可以利用所在列的均值/众数/中位数来替换该列的缺失数据。下面利用“Gender”、“Married”、和“Self_Employed”列中各自的众数值填补对应列的缺失数据。

  • 相关阅读:
    mysql官网下载yum
    zookeeper和kafka的leader和follower
    查看目标端口是否被占用
    scala中的val,var和lazy
    scala的异常处理try catch
    Navicat总是提示主键不存在问题
    idea常用快捷键
    wiremock技术入门
    Liunx常用操作(11)-VI编辑器-末行模式命令
    Liunx常用操作(十)-VI编辑器-命令模式命令
  • 原文地址:https://www.cnblogs.com/mandy-study/p/7871568.html
Copyright © 2011-2022 走看看