特征准备
1. 基于业务/经验理解
2. 可用性评估
- 获取难度
- 覆盖率
- 准确率
特征处理
特征清洗
清洗异常样本
- 经验
- 高斯分布
- 箱型图
- 聚类算法
- LOF, 孤立森林
样本数量
- 正负样本不均衡
-
- 过采样
- 欠采样
- smote
- 非监督学习方法
- 样本权重
- 样本扩充(图像相关)
预处理
- 单个特征
- 归一化
- 离散化
- 中心化
- one hot
- dummy coding (哑变量)
- 数据变化呢
- log
- 指数
- 分箱
- ***box-cox
- 缺失值填充
- 固定值
- 均值
- 众数/中位数
- 插值法
- 前/后数据填充
- knn
- 多个特征
- PCA
- LDA
- 缺失值比率 (Missing Values Ratio)
- 低方差滤波 (Low Variance Filter)
- 高相关滤波 (High Correlation Filter)
- 随机森林/组合树 (Random Forests)
- 反向特征消除 (Backward Feature Elimination)
- 前向特征构造 (Forward Feature Construction)
- 相关性系数
- 卡方检验
- 信息增益
- 随机搜索
- 遗传算法
- 模拟退火
- 蚁群算法
- 正则化
- 深度学习的方法
- 衍生变量
- FM
- FFM