zoukankan      html  css  js  c++  java
  • 1-预测分析类核心算法简介

    目前,工业界比较高效、常用的预测分析类算法主要分为两种:

    1.惩罚线性回归  2.集成方法(ensemble method)

    面对绝大多数预测问题,上述两种方法都能达到最优或者接近最优的性能。比如boosted decision trees、RF、Bagged decision trees属于集成方法,而LR属于比较接近惩罚回归的算法。

    一般情况下:

    1.惩罚回归算法更适用于数据规模小而特征较多的问题;

    2.集成方法用更适用于数据量较大,可以充分学习的数据集。

    在预测模型的构建过程中,最消耗时间的一般是数据处理与特征工程,大概占到开发的80%-90%之间。

    下面介绍两种算法的基本概念:

    1)惩罚线性回归:为了平衡最小二乘的欠拟合与过拟合的函数逼近。

    2)集成方法:构建多个不同的预测模型,然后将其输出做某种组合作为最终输出,如取均值(减小方差)、bagging(随机取样,基于随机数据子集进行训练,也就是投票)等。

    至于两种算法的应用和选择。惩罚线性回归的优点就是训练速度快,初期可以用来进行特征选择,尤其是在处理基因选择这种具有上万维特征的问题,该方法是辅助特征工程的一个重要工具;在数据充足的情况下,集成方法能提供更好的性能。

    一般步骤:选择一组特征,开始训练机器学习算法,得到一个模型并对它的性能进行评测。根据评测结果对特征集进行调整,后者选择另一种目标函数。

  • 相关阅读:
    pat00-自测5. Shuffling Machine (20)
    Spiral Matrix
    Search in Rotated Sorted Array II
    Search in Rotated Sorted Array
    Best Time to Buy and Sell Stock II
    4Sum
    3Sum Closest
    3Sum
    MySQL存储过程、函数和游标
    Word Ladder
  • 原文地址:https://www.cnblogs.com/qiangge666/p/6251477.html
Copyright © 2011-2022 走看看