zoukankan      html  css  js  c++  java
  • 特征工程

    一、特征选择

    (1)特征来源:

        1、已经处理好的特征数据

        2、从业务特征中自己去寻找高级数据特征

    (2)选择合适的特征:

        1、寻找该领域专家,向他们寻求建议

        2、方差筛选

        3、过滤法

        4、包装法

        5、嵌入法

    (3) 寻找高级特征

        1、若干项特征向加和

        2、若干项特征相乘

        3、若干项特征之差

        4、若干项特征除商

    二、特征表达(如何对某一特征的具体表现形式做处理

    (1)缺失值处理

        1、对连续值来说:取平均值、中位数进行缺失值补充

        2、对离散值来说:最频繁出现的类别

    (2)特殊的特征处理

      一般有些特征的默认值取值比较特殊,一般需要做了处理后才能用于算法

        1、对于时间特征:采用连续的时间差值法;转化为若干离散特征;权重法

        2、对地理特征:可以转化为经度和维度连续特征值

    (3)离散特征的连续处理:

        1、独热编码one-hot encoding

        2、特征嵌入embedding

    (4)离散特征的离散化:

        1、独热编码

        2、虚拟编码

    (5) 连续特征离散化

    三、特征预处理

    (1)特征的标准化与归一化

        1、z-score标准化

        2、max-min标准化

        3、L1、L2范数标准化

    (2)异常特征样本清洗

        1、聚类

        2、异常点检测

    (3)处理不平衡数据

        1、权重法

        2、采样法

    参考:https://www.cnblogs.com/pinard/p/9093890.html

       https://www.cnblogs.com/pinard/p/9061549.html

       https://www.cnblogs.com/pinard/p/9061549.html

  • 相关阅读:
    CF1464C Poman Numbers
    CF1458F Range Diameter Sum
    Codeforces Round #691 (Div. 1) A~F题解&总结
    CF1458E Nim Shortcuts
    python读取当前以pdf结尾的文件并保存到excel文件里面
    vmware迁移到华三(H3C CAS 虚拟化平台)云平台
    vue+axois 封装请求+拦截器(请求锁+统一处理错误码)
    除了MD5加密,试一下签名吧
    C#---? ?? ?. ?: 好几种问号符号的使用方法
    C#---值类型为什么不能为空null
  • 原文地址:https://www.cnblogs.com/spp666/p/11479999.html
Copyright © 2011-2022 走看看