zoukankan      html  css  js  c++  java
  • 特征工程

    L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大)

    L1稀疏,L2平滑作用

     

    L1的稀疏化性质去掉无关特征,只留下相关特征

    L2如果特征有些是共线性的,L1会扔掉这些特征,导致模型误差较大

    数据和特征处理

    数据清洗

    正负样本不平衡的处理方法:上采样,下采样,修改损失函数

    数值型特征:幅度调整,归一化,离散化

    类别型特征:one-hot 编码

    组合特征

    特征选择

    原因:冗余,噪声

    特征选择VS降维  :前者是踢掉特征里面和预测结果关系不大的特征,后者是做特征的计算组合构成新的特征

    特征选择的3种方法:

    过滤型

     包裹型

     

    嵌入型:加入L1正则化,有2-3千万是有权值的,其没有权值

     

  • 相关阅读:
    UVA 1590 IP Networks
    UVA 12108
    HDUOJ 1042 N!
    UVA201 Squares
    UVaOJ 1339
    UVaOJ 202
    UVaOJ 100
    UVaOJ 10340
    第五章 跳跃表
    第四章 字典
  • 原文地址:https://www.cnblogs.com/wuxiangli/p/5628053.html
Copyright © 2011-2022 走看看