zoukankan      html  css  js  c++  java
  • 机器学习入门-数值特征-对数据进行log变化

    对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布

    因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布

    进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化

    代码:

    第一步:导入数据

    第二步:对收入特征做直方图,同时标出中位数所在的位置,即均值

    第三步:对收入特征做log变化,使用np.log(data+1) 

    第四步:对log收入特征做直方图,标出中位数线的位置,即均值

    结论:我们可以发现变化后的特征在一定程度上更加接近正态分布

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    
    # 第一步导入数据
    ffc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv', encoding='utf-8')
    
    # 第二步对数据的收入做直方图
    fig, ax = plt.subplots()
    ffc_survey_df['Income'].hist(color='#A9C5D3', bins=30)
    plt.axvline(ffc_survey_df['Income'].quantile(), color='r', label='Binary line')
    plt.legend(fontsize=18, loc='best')
    ax.set_xlabel('Income', fontsize=12)
    ax.set_ylabel('Frequency', fontsize=12)
    ax.set_title('Income_hist', fontsize=12)
    plt.show()

    # 第三步:对收入的数据进行log变化
    ffc_survey_df['log_income'] = np.log(ffc_survey_df['Income'].values+1)
    print(ffc_survey_df[['Income', 'log_income']].head())

             log前后的数据

    # 第四步:对log变化后的数据画出直方图
    fig, ax = plt.subplots()
    ffc_survey_df['log_income'].hist(color='#A9C5D3', bins=30)
    plt.axvline(ffc_survey_df['log_income'].quantile(), color='r', label='Binary line')
    plt.legend(fontsize=18, loc='best')
    ax.set_xlabel('log_Income', fontsize=12)
    ax.set_ylabel('Frequency', fontsize=12)
    ax.set_title('Income_hist', fontsize=12)
    plt.show()

  • 相关阅读:
    http简单demo
    启迪思维:循环链表
    数据表行列转换
    防止短时间内重复提交表单数据js约束
    ASP.NET2.0文件上传以及图片处理
    支付宝倒计时代码
    js 定时刷新页面
    C# 将cookiecontainer写到本地
    用C#生成随机中文汉字验证码的基本原理
    删除指定文件夹里的所有文件
  • 原文地址:https://www.cnblogs.com/my-love-is-python/p/10322080.html
Copyright © 2011-2022 走看看