机器学习算法分类
监督学习(预测,有目标)
-
分类
- K-近邻算法
- 贝叶斯算法
- 决策树与随机森林
- 逻辑回归
-
回归
- 线性回归
- 岭回归
-
分类的概念
- 分类是监督学习的一个核心问题,在监督学习中,当输入变量取有限个离散值时,预测问题变成分类问题. 基础的便是二分类问题即判断是非,从两个类别中选择一个作为预测结果.
-
回归的概念
- 回归是监督学习的另一个重要问题.回归用于预测输入变量和输出变量之间的关系,输出是连续型的值.
无监督学习(无目标)
-
聚类
- k-means
监督学习 : 特征值 + 目标值
非监督学习 : 特征值
数据类型:
- 离散型数据 :
- 由记录不同类别个体的数目所得到的数据,又称为计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高它们的精确度.
- 连续型数据:
- 变量可以在某个范围内取任一数,即变量的取值可以是连续的,如:长度,时间,质量值等.这类数 通常是非整数,含有小数部分
- 注意: 只要记住一点,离散型是区间内不可分,连续型是区间内可分.
- 数据类型是机器学习模型不同问题不同处理的依据.
- 分类 : 离散型
- 回归 : 连续型
sklearn 中的常用模型 :
- 用于分类的模型(估计器)
-
- sklearn.neighbors k-近邻算法啊
- sklearn.naive_bayes 贝叶斯
- sklearn.linear_model.LogisticRegression 逻辑回归
- sklearn.tree 决策树与随机森林
-
- 用于回归的模型
-
- sklearn.linear_model_LinearRegression 线性回归
- sklearn.linear_model.Ridge 邻回归
-
*** 模型就是实现了具体算法的API, 这些API需要理解其参数.。***
机器学习的开发流程
1. 数据收集
- 公司本来就有数据
- 合作公司提供数据
- 购买数据
- 爬虫爬数据,数据预处理
2. 根据需要解决的问题, 对数据进行预处理
- 数据清洗
- 缺失值
- 合并
- 不仅限于 ,具体问题具体对待
3. 特征工程
- 特征抽取
- 归一化
- 标准化
- 降维
4. 常用算法选择
- 分类
- 回归
5. 模型验证
- 模型的评估,判定效果
6. 模型报告保存
- 保存上线