目前,工业界比较高效、常用的预测分析类算法主要分为两种:
1.惩罚线性回归 2.集成方法(ensemble method)
面对绝大多数预测问题,上述两种方法都能达到最优或者接近最优的性能。比如boosted decision trees、RF、Bagged decision trees属于集成方法,而LR属于比较接近惩罚回归的算法。
一般情况下:
1.惩罚回归算法更适用于数据规模小而特征较多的问题;
2.集成方法用更适用于数据量较大,可以充分学习的数据集。
在预测模型的构建过程中,最消耗时间的一般是数据处理与特征工程,大概占到开发的80%-90%之间。
下面介绍两种算法的基本概念:
1)惩罚线性回归:为了平衡最小二乘的欠拟合与过拟合的函数逼近。
2)集成方法:构建多个不同的预测模型,然后将其输出做某种组合作为最终输出,如取均值(减小方差)、bagging(随机取样,基于随机数据子集进行训练,也就是投票)等。
至于两种算法的应用和选择。惩罚线性回归的优点就是训练速度快,初期可以用来进行特征选择,尤其是在处理基因选择这种具有上万维特征的问题,该方法是辅助特征工程的一个重要工具;在数据充足的情况下,集成方法能提供更好的性能。
一般步骤:选择一组特征,开始训练机器学习算法,得到一个模型并对它的性能进行评测。根据评测结果对特征集进行调整,后者选择另一种目标函数。