zoukankan      html  css  js  c++  java
  • 数据挖掘读书笔记 -- 常见数据处理技巧

    数据抽取要正确反映业务需求

    数据抽样

    分析数据的规模有哪些具体要求

    如果处理缺失值和异常值

    数据转换:生成衍生变量(指标);改善变量分布的转换(取对数等);分箱转换;数据标准化(min-max标准化:x* = (x-min)/(max-min));

    筛选有效的输入变量:根据业务先行筛选;根据相关性指标初步筛选(皮尔逊相关系数r);R平方(多元线性回归分析方法)筛选;卡方检验确定自变量与目标变量之间有比较强的关联性;IV和WOE(通过WOE的变化调整出最佳的分箱阈值,通过IV值或Gini分数筛选出较高预测价值的自变量);建模算法自身的筛选功能(决策树、回归);

    共线性问题的发现(相关系数、主成分分析等)与处理;

  • 相关阅读:
    New-SAN-FENG-YUN-三
    San丰-Cloud
    SpringBoot+MySQL+MyBatis+Shiro+AdminLTE
    SanFeng-Clound
    SanFengClound
    传奇音乐设置
    热血传奇GOM引擎问题集锦
    app测试
    接口测试
    题目
  • 原文地址:https://www.cnblogs.com/end/p/3525269.html
Copyright © 2011-2022 走看看