zoukankan      html  css  js  c++  java
  • 1-预测分析类核心算法简介

    目前,工业界比较高效、常用的预测分析类算法主要分为两种:

    1.惩罚线性回归  2.集成方法(ensemble method)

    面对绝大多数预测问题,上述两种方法都能达到最优或者接近最优的性能。比如boosted decision trees、RF、Bagged decision trees属于集成方法,而LR属于比较接近惩罚回归的算法。

    一般情况下:

    1.惩罚回归算法更适用于数据规模小而特征较多的问题;

    2.集成方法用更适用于数据量较大,可以充分学习的数据集。

    在预测模型的构建过程中,最消耗时间的一般是数据处理与特征工程,大概占到开发的80%-90%之间。

    下面介绍两种算法的基本概念:

    1)惩罚线性回归:为了平衡最小二乘的欠拟合与过拟合的函数逼近。

    2)集成方法:构建多个不同的预测模型,然后将其输出做某种组合作为最终输出,如取均值(减小方差)、bagging(随机取样,基于随机数据子集进行训练,也就是投票)等。

    至于两种算法的应用和选择。惩罚线性回归的优点就是训练速度快,初期可以用来进行特征选择,尤其是在处理基因选择这种具有上万维特征的问题,该方法是辅助特征工程的一个重要工具;在数据充足的情况下,集成方法能提供更好的性能。

    一般步骤:选择一组特征,开始训练机器学习算法,得到一个模型并对它的性能进行评测。根据评测结果对特征集进行调整,后者选择另一种目标函数。

  • 相关阅读:
    更新数据库时日期字段为空显示为190011
    VB6封装DLL
    【转】Excel技巧收集
    数据透视表的计算字段
    站点地图与权限:Sitemap and Role
    asp:Menu导航菜单CSS
    单元格太窄的#号
    获得数据库中某个字段值
    第5周作业——如何在eclipse上配置tomcat harara
    第7周作业耦合性 harara
  • 原文地址:https://www.cnblogs.com/qiangge666/p/6251477.html
Copyright © 2011-2022 走看看