zoukankan      html  css  js  c++  java
  • 特征工程(Feature Enginnering)学习记要

     最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction)。这里记录一些要点,作为备忘。

     
    特征选取
     
    R中的FSelector包实现了一些特征选取的算法,主要分两大类:
     
    Algorithms for filtering attributes: cfs, chi.squared, information.gain, gain.ratio, symmetrical.uncertainty, linear.correlation, rank.correlation, oneR, relief, consistency, random.forest.importance
    属性过滤器:直接通过一些统计指标,计算变量与y的关系,然后根据一定规则选取理想的值。

    Algorithms for wrapping classifiers and search attribute subset space: best.first.search, backward.search, forward.search, hill.climbing.search
    分类器包装:通过包装特定的分类/回归算法,并使用一些通用的优化算法,选取具有最有效果的属性组合。
     
    属性过滤器可能效率更高,但是效果不直接。而分类包装器可能效果更直接,但是计算开销大。
     
    特征抓取
     
    主要是重已有的数据中,创建新的数据。
    Design Userful Features这篇文章,通过轴承的例子,从三个方面描述了特征抓取的方法,
    1. 领域知识:这点最好与领域专家一起讨论
    2. 统计量:无需领域知识,通用的统计量,如均值,中位数,分位数,最大最小值,偏度,峰度等
    3. 数据可视化:通过闪点图,分布度等方法,找到特殊的特殊性,创建feature。可视化之前需要预处理数据,如傅里叶变化,PCA,查看原始数据等。
     
    参考
     
  • 相关阅读:
    新的开始——3.3
    第一个周末——3.2
    恋爱知识大增——周五3.1
    相安无事——周四2.28
    好几天没写了。。。——周三2.27
    开学第二天——2.26
    开学第一天——2.25
    华为
    微软 Microsoft
    谷歌 google
  • 原文地址:https://www.cnblogs.com/bourneli/p/4106605.html
Copyright © 2011-2022 走看看