机器学习综述
- 从海量数据中抽取有价值的信息
- 机器学习的任务是分类,将实例数据划分到合适的分类中
- 一般是使用训练集样本作为算法的输入,训练完成之后输入测试样本
监督学习
已知类别的样本,知道预测什么,从标记的训练数据集推断一个功能的机器学习任务
- 常见的监督学习包括分类和回归
- knn算法
- 朴素贝叶斯算法
- 支持向量机
- 决策树
- 线性回归
- 局部加权线性回归
- Ridge回归
- lasso最小回归系数估计
无监督学习
数据没有类别信息,也不会给定目标值。将数据集分成由类似的对象组成的多个类的过程叫做聚类,将寻找描述数据统计值的过程称之为密度估计
- k-means
- DBSCAN
- 最大期望算法
如何选择合适的算法
- 若是预测目标变量的值,可以选择监督算法
- 若需要将数据化为离散的组,则需要进行聚类
- 需要考虑数据是离散变量还是连续变量,特征值中是否存在缺失值,是何种原因造成的缺失值,数据中是否存在异常值,某个特征发生的频率如何
分析步骤
- 收集数据
- 处理数据
- 分析数据,可以通过图形的展示
- 训练算法(针对监督学习的,无监督学习不需要训练算法
- 评估算法
- 应用
需要掌握的python的几个库
- numpy
- pandas
- scikit-learn
待补充