zoukankan      html  css  js  c++  java
  • 机器学习入门-数值特征-对数据进行log变化

    对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布

    因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布

    进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化

    代码:

    第一步:导入数据

    第二步:对收入特征做直方图,同时标出中位数所在的位置,即均值

    第三步:对收入特征做log变化,使用np.log(data+1) 

    第四步:对log收入特征做直方图,标出中位数线的位置,即均值

    结论:我们可以发现变化后的特征在一定程度上更加接近正态分布

     
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    
    # 第一步导入数据
    ffc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv', encoding='utf-8')
    
    # 第二步对数据的收入做直方图
    fig, ax = plt.subplots()
    ffc_survey_df['Income'].hist(color='#A9C5D3', bins=30)
    plt.axvline(ffc_survey_df['Income'].quantile(), color='r', label='Binary line')
    plt.legend(fontsize=18, loc='best')
    ax.set_xlabel('Income', fontsize=12)
    ax.set_ylabel('Frequency', fontsize=12)
    ax.set_title('Income_hist', fontsize=12)
    plt.show()
     

    # 第三步:对收入的数据进行log变化
    ffc_survey_df['log_income'] = np.log(ffc_survey_df['Income'].values+1)
    print(ffc_survey_df[['Income', 'log_income']].head())

             log前后的数据

     
    # 第四步:对log变化后的数据画出直方图
    fig, ax = plt.subplots()
    ffc_survey_df['log_income'].hist(color='#A9C5D3', bins=30)
    plt.axvline(ffc_survey_df['log_income'].quantile(), color='r', label='Binary line')
    plt.legend(fontsize=18, loc='best')
    ax.set_xlabel('log_Income', fontsize=12)
    ax.set_ylabel('Frequency', fontsize=12)
    ax.set_title('Income_hist', fontsize=12)
    plt.show()
     

  • 相关阅读:
    JavaScript基本数据类型
    被遗弃的HTML事件处理程序
    jQuery中Ajax封装的方法
    观察者模式
    Git仓库初始化与推送到远端仓库
    使用Jax-rs 开发RESTfull API 入门
    普通 Java 项目转换为 Maven 项目
    在网页边角添加GitHub链接图标
    MyBatis 3 与 Spring 4 整合关键
    Thymeleaf 3与Spring MVC 4 整合配置
  • 原文地址:https://www.cnblogs.com/liuys635/p/12435828.html
Copyright © 2011-2022 走看看