zoukankan      html  css  js  c++  java
  • 机器学习处理流程

    一、数据预处理

      1)缺失数据处理。对于缺失数据,可以取平均值。如果大量样本都缺失该特征,可以直接去掉该特征。

      2)特征转换。将字符串特征转换为对应的数字表示。

      3)归一化处理

      4)数据转换。将偏态数据转换成尽量符合正态分布特征。

    二、特征工程

      分析特征对最终模型的影响程度,如果是回归问题,就看特征对Y值的影响;分类问题,就看特征对分类结果的影响大小。可以采用图表的方式直观来展现、分析,更具有说服力。最终目的是剔除一些对模型影响不大的冗余特征,使得模型更加精炼。

    三、模型选择与构建

      根据问题的求解以及数据的形态、分布情况,分析选择什么样的模型来解决问题更合适,是分类、聚类问题,还是回归问题等等。不同的问题选择不同的数学模型,并构建相应模型进行下一步处理。

    四、模型验证与参数选择

       这一步可以利用交叉验证方法选择模型的参数,例如选择正则化参数λ、多项式回归中的最高次数d、SVM中的参数C与σ等等。

      另外一方面就是对模型的选择,同样利用交叉验证方法,可以对比选择模型,是采用Ridge回归还是Lasso回归等等。

      

    五、模型最终打分

      当模型训练完成并交叉验证确定后,利用测试集对模型做最后的评测,计算精确度,或者求解F1值,给模型做一个最后的打分。

  • 相关阅读:
    ssh认证
    Nginx中proxy_pass 后有无/的区别
    Nginx中$http_host、$host、$proxy_host的区别
    Nginx读书笔记----HTTP proxy module
    ngx_http_core_module模块提供的变量
    Nginx读书笔记三----资源分配
    http_code 413 Request Entity Too Large
    nginx读书笔记二----nginx配置
    firewall-cmd命令
    GCC编译器原理(一)03------GCC 工具:gprof、ld、libbfd、libiberty 和libopcodes
  • 原文地址:https://www.cnblogs.com/gczr/p/6564095.html
Copyright © 2011-2022 走看看