关注我的公众号【宝哥大数据】
零、数学基础
一、 探索数据
1.1、数据质量分析
-
缺失值、异常值、不一致的数据、错误数据
1.2、特征工程
1.2.1、数据特征分析
1.2.2、归一化、标准化、正则化
1.2.3、特征提取、转换和选择
- 降维
- 特征提取: 通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间
- 特征选择:从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间
- 特征转换
1.3、模型
1.3.1、模型的选择、调优
1.3.2、模型的评估
1.4、数据可视化
1.5、Spark ML
二、 概念、理论、
2.1、统计方法三要素:模型+策略+算法
2.2、判别模型与生成模型
2.3、损失函数、代价函数与目标函数
2.3、核函数
三、监督学习
监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归
3.1、分类
3.1.1、分类的原理
- 感知机
- KNN(K均邻算法)
- SVM(支持向量机)
- logistic 回归
- 朴素贝叶斯决策
3.1.2、Spark ML 构建分类模型
3.2、回归
3.2.1、 linear regression(线性回归)
-
- 标准线性回归 - 局部加权线性回归 - 缩减法 - 岭回归 - lasso - 前向逐步回归
3.2.2、广义线性回归
3.2.3、树回归
3.2.4、随机森林回归
3.2.5、梯度提高树回归(Gradient-boosted tree regression)
3.2.6、生存回归(Survival regression)
3.2.7、保序回归
3.2.8、Spark ML 构建回归模型
3.3、决策树
-
Ensembles of decision trees
- random forests
- gradient-boosted trees
-
Isotonic regression
Linear models
四、非监督学习
根据给定已知类别标签的样本,训练出某种模型,然后对未知类别的样本进行分类,称为supervised learning(监督学习)。
指事先并不知道样本的类别标签,希望通过某种算法来把未知类别的样本划分成若干类,亦称作 unsupervised learning (无监督学习)。
4.1、聚类
4.1.1、基于划分
4.1.1.1、k-means
- 效果衡量方法
- SSE, 肘部法、轮廓系数法
- k-means的改进
- K-Menas处理的经验
- 枚举特征
- 长尾特征 对特征取log