特征提取，特征选择 - 走看看

zoukankan html css js c++ java

特征提取，特征选择
参考文献

特征提取是机器学习的准备工作。

一、特征大体上分几种呢

有人分：high features 和low features. high features 指比较泛的特征；low features 指相对具体的特征。

有人分：具体特征，原始特征（不加工raw），抽象特征。

总体上，Low Level 比较有针对性，单个特征覆盖面小（含有这个特征的数据不多），特征数量（维度）很大。High Level比较泛化，单个特征覆盖面大（含有这个特征的数据很多），特征数量（维度）不大。长尾样本的预测值主要受High Level特征影响。高频样本的预测值主要受Low Level特征影响。
　　　　　　　　　　　　

二、特征归一化

特征抽取后，如果不同特征的取值范围相差很大，最好对特征进行归一化，以取得更好的效果，常见的归一化方式如下：
- 　　Rescaling：
  归一化到[0,1] 或 [-1，1]，用类似方式：
三、特征选择

特征抽取和归一化之后，如果发现特征太多，导致模型无法训练，或很容易导致模型过拟合，则需要对特征进行选择，挑选有价值的特征。
　　
查看全文

相关阅读:
家庭记账本开发进度6
家庭记账本开发进度5
家庭记账本开发进度4
家庭记账本开发笔记3
大道至简阅读笔记01
个人作业数组（续）
二维数组
 个人作业1-数组
 软件工程第一周开课微博
 第一周学习进度条报告

原文地址：https://www.cnblogs.com/Wanggcong/p/4854693.html

Copyright © 2011-2022 走看看