zoukankan      html  css  js  c++  java
  • 数据挖掘提分三板斧-转

    数据挖掘提分三板斧:

    1.金斧-数据清洗和特征工程

    2.银斧-模型参数调节

    3.铜斧-模型集成

    数据清洗和特征工程

    一、关于数据清洗

    1.缺失值处理:

     2.异常值处理:

     3.数据分桶:

    4.数据标准化:在不同的问题中,标准化的意义不同

    (1)在回归预测中,标准化是为了让特征值有均等的权重;

    (2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

    (3)主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。

    二、关于特征工程

     1.特征构造:

     

     2.特征选择:

    模型参数调节

    一、关于建模调参

     1.理解模型

     2.性能验证

     3.模型调参

    模型集成

    一、关于模型集成

     1.加权融合

     2.Boosting/Bagging

     3.Stacking/Blending

     视频:https://www.bilibili.com/video/BV1MU4y1h75G

    文章来自:https://mp.weixin.qq.com/s/41OmNMK1VFKQRuW6D7kqgA

    本文只做笔记,不做任何商业用途

  • 相关阅读:
    t-SNE可视化(MNIST例子)
    numpy得到数组的index
    Latex的各种帽子
    Mac OSX安装 GitLab 5.x
    yii2 关系...
    基于git的源代码管理模型——git flow
    spl_autoload_register
    如何創建一個自己的 Composer/Packagist 包 (PHP)
    正则表达式语法
    sublime php插件
  • 原文地址:https://www.cnblogs.com/cgmcoding/p/14626538.html
Copyright © 2011-2022 走看看