zoukankan      html  css  js  c++  java
  • 项目实践中的机器学习

    这里介绍机器学习的六大步骤

    一、定义问题

    二、理解数据

    三、数据准备

    四、评估算法

    五、优化模型

    六、结果部署

    (当然,这六个步骤并非机械的使用,有时候各个步骤还可能进一步细分,还有可能几个步骤合并成一个步骤。这里以常用的python模板为例)

    详细说明

    一、定义问题

    需要导入常用的类库和数据集,包括导入python 的类库、类和方法,以及数据。可以将数据进行瘦身,快速进行可视化数据集建立。

    二、理解数据

    描述性统计来分析数据,可视化观察数据。***这一步需要花费时间多问几个问题,设定假设条件并调查分析一下,对模型的建立有很大的帮助。

    三、数据准备

    这一步主要是预处理数据:

    通过删除重复数据、标记错误数值,甚至是标记错误的输入数据来清洗数据。

    特征选择,包括移除多余的特征属性和增加新的特征属性。

    数据转化,对数据尺度进行调整,或者调整数据的分布

    不断重复以上步骤,直到找到足够准确的算法来生产模型。

    ~~~~~~~~~~~~~~~~~~~~起来活动一下~~~~~~~~~~~~~~~~~~~

    ******

    数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:

    特征选择主要有两个目的:

    减少特征数量、降维,使模型泛化能力更强,减少过拟合; 增强对特征和特征值之间的理解。

    四、评估算法

    分离出评估数据集

    定义模型评估标准,用来评估算法模型

    抽样审查线性算法和非线性算法

    比较算法的准确度

    五、优化模型

    当得到一个准确度足够的算法列表后,要从中找出最合适的算法,通常可以用两种方法提高算法的准确度:

    1.对每一种算法进行调参,得到最佳结果

    2.使用集合算法来提高算法模型的准确度

    六、结果部署

    通过验证集来验证被优化过的模型

    通过整个数据集来生产模型

    将模型序列化,以便于预测新数据

  • 相关阅读:
    使用线程加载指定目录下的所有子目录和文件名称到TreeView中
    《C++代码设计与重用》读后感
    无限分类编辑移动栏目代码
    查询数据库中所有记录总数不为0的数据表名称
    DES,RC2,Rijndael, TripleDes,RSA, MD5, SHA1通用的安全密码类
    SQL过滤掉空格和其他特殊字符函数
    @property详解:nonatomic,retain (转)
    UITextField控件处理键盘弹出时遮住输入框的问题
    iphone 定时器的使用
    苹果官方例子代码
  • 原文地址:https://www.cnblogs.com/2019-02-11/p/10541109.html
Copyright © 2011-2022 走看看