数据挖掘篇——特征工程之特征降维

zoukankan html css js c++ java

数据挖掘篇——特征工程之特征降维
在业界广泛流传着一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

由此可见，数据和特征是多么的重要，而在数据大多数场景下，数据已经就绪，不同人对于同样的数据处理得到的特征却千差万别，最终得到的建模效果也是高低立现。从数据到特征这就要从特征工程说起了...

0. 特征工程

首先介绍下，特征工程是什么：利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程^[1.wiki]。特征工程是一个较大领域，它通常包括特征构建、特征提取和特征选择这三个子模块，重要性排序：特征构建>特征提取>特征选择。

先来介绍几个术语：
特征构建：从原始数据中构建出特征，有时也称作特征预处理，包括缺失值处理、异常值处理、无量纲化（标准化/归一化）、哑编码等。

特征提取：将原特征转换为一组具有明显物理意义或统计意义或核的新特征。

特征选择：从特征集合中挑选一组最具统计意义的特征子集。
其中本文主要总结下可统一用于特征降维的特征提取和特征选择技术方法，特征构建涉及技术点较少，下回再分解。

1. 特征降维

WHAT：将高维空间的特征通过删减或变换转为低维空间特征

WHY：降低时间/空间复杂度、降低提取特征开销、降噪、提升鲁棒性、增强可解释性、便于可视化；

HOW：主要有两种方式，即特征选择和特征提取。

1.1 特征选择（子集筛选）：

特征选择方法主要分为三种：
- Filter：过滤式；按权重排序，不涉及到学习器，排序规则一般有方差法、相关系数法、互信息法、卡方检验法、缺失值比例法（注意受范围影响的方法需先归一化）^[2.zhihu]。
- Embedded：嵌入式；确定模型过程中自动完成重要特征挑选，基于惩罚项如岭回归(L2正则)、LASSO(L1正则)，基于树模型如GBDT、决策树^[3.cnblog]。
- Wrapper：封装式；用学习器的性能评判不同特征子集的效果，特征子集生成方式：完全搜索（前向&后向）、启发式搜索、随机搜索^[3.cnblog]。
1.2 特征提取（投影or转换）：
- 线性方法^[4.csdn]：
- 非线性方法：
  
  LLE：局部线性嵌入，非线性降维（基于图），保持原有流行结构
  
  LE：拉普拉斯特征映射，非线性（基于图），相互有联系的点尽可能靠近
  
  t-SNE：t分布随机临近嵌入，将欧几里得距离转为条件概率表达点与点之间的相似度^[7.datakit]。
  
  AE：自动编码器
  
  聚类
特征降维方法对比先介绍到这里，更多内容后续继续分解~

转载请注明出处：数据挖掘篇——特征工程之特征降维（https://www.cnblogs.com/webary/p/12498886.html）

参考链接：

1.wiki：https://en.wikipedia.org/wiki/Feature_engineering

2.zhihu：https://www.zhihu.com/question/28641663

3.cnblog：https://www.cnblogs.com/pinard/p/9032759.html

4.csdn：https://blog.csdn.net/yujianmin1990/article/details/48223001

5.zhihu：https://www.zhihu.com/search?type=content&q=PCA%20ICA

6.cnblog：https://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html

7.datakit：http://www.datakit.cn/blog/2017/02/05/t_sne_full.html
查看全文

相关阅读:
JS中encodeURIComponent在PHP中实现的办法_tdweb的博客，仅仅是个博客_百度空间
 废弃的java 爬虫代码
 c#实现Javascript的encodeURIComponent()函数
 Encode query with Python
Chunked decoding in python
python implemention javascript encodeURIComponent
Java MongoDB : Insert a document
tar zcvf ./xxx.tar.gz ./directory
MyStringUtils test
application/xwwwformurlencoded

原文地址：https://www.cnblogs.com/webary/p/12498886.html

数据挖掘篇——特征工程之特征降维

0. 特征工程

1. 特征降维

1.1 特征选择（子集筛选）：

1.2 特征提取（投影or转换）：

参考链接：