zoukankan      html  css  js  c++  java
  • 机器学习算法的分类、机器学习的开发流程

    机器学习算法分类

    监督学习(预测,有目标)

    1. 分类

      • K-近邻算法
      • 贝叶斯算法
      • 决策树与随机森林
      • 逻辑回归
    2. 回归

      • 线性回归
      • 岭回归
    3. 分类的概念

      • 分类是监督学习的一个核心问题,在监督学习中,当输入变量取有限个离散值时,预测问题变成分类问题. 基础的便是二分类问题即判断是非,从两个类别中选择一个作为预测结果.
    4. 回归的概念

      • 回归是监督学习的另一个重要问题.回归用于预测输入变量和输出变量之间的关系,输出是连续型的值.

    无监督学习(无目标) 

    • 聚类

      • k-means

    监督学习 : 特征值 + 目标值

    非监督学习 : 特征值

    数据类型:

    1. 离散型数据 :
      • 由记录不同类别个体的数目所得到的数据,又称为计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高它们的精确度.
    2. 连续型数据:
      • 变量可以在某个范围内取任一数,即变量的取值可以是连续的,如:长度,时间,质量值等.这类数 通常是非整数,含有小数部分
      • 注意: 只要记住一点,离散型是区间内不可分,连续型是区间内可分.
      • 数据类型是机器学习模型不同问题不同处理的依据.
    3. 分类 : 离散型
    4. 回归 : 连续型

    sklearn 中的常用模型 :

    1. 用于分类的模型(估计器)
        • sklearn.neighbors  k-近邻算法啊
        • sklearn.naive_bayes  贝叶斯
        • sklearn.linear_model.LogisticRegression    逻辑回归
        • sklearn.tree      决策树与随机森林  
    2. 用于回归的模型
        • sklearn.linear_model_LinearRegression    线性回归 
        • sklearn.linear_model.Ridge    邻回归  

      *** 模型就是实现了具体算法的API, 这些API需要理解其参数.。*** 


    机器学习的开发流程

    1. 数据收集

    • 公司本来就有数据
    • 合作公司提供数据
    • 购买数据
    • 爬虫爬数据,数据预处理

    2. 根据需要解决的问题, 对数据进行预处理

    • 数据清洗
    • 缺失值
    • 合并
    • 不仅限于 ,具体问题具体对待

    3. 特征工程

    • 特征抽取
    • 归一化
    • 标准化
    • 降维

    4. 常用算法选择

    • 分类
    • 回归

    5. 模型验证

    • 模型的评估,判定效果

    6. 模型报告保存

    • 保存上线
  • 相关阅读:
    Git 游离态的一次问题解决
    idea每次新建项目的默认路径
    springboot 整合 freemarker
    Linux 学习网站
    springtask 基本使用和 cron 表达式
    volatile 关键字 和 i++ 原子性
    python 自动补全
    nagios维护之常见问题
    nagios维护之添加监控
    windows下python文件与文件夹操作
  • 原文地址:https://www.cnblogs.com/luowei93/p/11964717.html
Copyright © 2011-2022 走看看