zoukankan      html  css  js  c++  java
  • 机器学习基础

    一、算法分类

    (一)数据分类

    不同的算法是针对不同的数据类型的,所以在了解算法之前,可以先了解以下数据的类型:

    • 离散型数据
    • 连续性数据

    1、离散型数据

      由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再进行细分以及提高它们的精确度。

    2、连续型数据

      变量在某一范围内取任一数,即变量的取值可以是连续的,如长度、时间等,这类变量通常是含有小数部分。

    注意的是:这两类数据的区别是离散型数据区间内不可分,连续性数据区间内可分。

    (二)算法分类

    算法从大的方面可分为下面两类:

    •  监督学习
    • 无监督学习

    1、监督学习

      监督学习(Supervised learning),可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。

    在监督学习中又可分为下面几类:

    (1)分类

      k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

    (2)回归

      线性回归、岭回归

    (3)标注

      隐马尔可夫模型

    监督学习针对的预测数据是:特征值+目标值(比如根据人体特征来预测性别)

    2、无监督学习

      无监督学习(Supervised learning),可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值所组成。 在无监督学习中有聚类算法,也就是k-means。

     无监督学习针对的预测数据是:只有特征值,而无具体的目标值

    3、数据与算法

    上面已经进行了数据分类以及算法分类,那么两者之间的关系是什么呢?

    监督学习中的分类算法针对的是目标值为离散型,回归算法针对的是目标值为连续型。即:

    二、机器学习开发流程

    1、获取数据

    可以通过爬虫或者其它方式获取所需要的数据

    2、明确问题

    你应该明白用这些数据究竟是解决什么问题,也就是说根据目标值得类型(离散或是连续)确定应用种类。

    3、数据处理

    使用一些数据处理的库,如pandas等对数据进行处理缺失值等。

    4、特征工程

    对数据进行标准化、特征选择、降维等进行处理。

    5、算法预测

    在第2步中已经根据问题,明确了应用的分类,如果目标值是离散的就去找分类算法进行处理,如果目标值是连续的就去找回归算法进行处理。

    6、模型评估

    上面的算法加上数据就是模型,将模型做出来后需要进行评估,看是否满足需求,如果不满足就需要更换算法、参数或者重新进行特征工程(特征选取、降维)等。 

    7、上线使用

    以API的形式对外提供

  • 相关阅读:
    自动化测试-19-测试报告分离
    自动化测试-18-测试用例目录整合
    自动化测试-17-测试框架改进-浏览器Driver分离
    自动化测试-16-测试框架改进-数据分离openpyxl读取excel数据
    自动化测试-15-测试框架改进-yml文件介绍
    自动化测试-14-测试框架改进 --ini文件读取
    自动化测试-13- 自动化测试框架开发
    自动化测试-12-PO-PageObject原理
    自动化测试-11-pycharm中windows找不到chrome解决办法
    自动化测试-10-Python 文件操作中的读写模式:open(path, '-模式-',encoding='UTF-8')
  • 原文地址:https://www.cnblogs.com/shenjianping/p/12905555.html
Copyright © 2011-2022 走看看