zoukankan      html  css  js  c++  java
  • 分类算法

    分类算法

    二分类

    线性支持向量机,Logistic回归,决策树,随机森林,梯度上升树,朴素贝叶斯

    多类分类

    Logistic回归,决策树,随机森林,朴素贝叶斯

    回归

    线性最小二乘法,Lasso,岭回归,决策树,随机森林,梯度上升树,保序回归

     

    Random Forest

    随机森林(决策树+bagging(bootstrap Aggregating))

    随机森林:测量每个特征对预测的相对重要性,进行取舍。

     

    Lasso算法(Least absolute shrinkage and selection operator,最小绝对值收敛和选择算法、套索算法)是一种同时进行特征选择和正则化的回归分析方法,旨在增强统计模型的预测准确性和可解释性。

     

    Ridge Regression(岭回归)在原先A的最小二乘估计中加入一个小扰动值,使原先无法求广义逆的情况变成可以求出其广义逆,使得问题稳定。

     

    线性回归的损失函数

    岭回归的损失函数,约束条件用圆形表示

    Lasso回归的损失函数,约束条件用方形表示

     

    Gradient Boost(渐进梯度)只是一个框架,里面可以套用很多算法。

     

    同一个算法的不同叫法:

    GBDT(Gradient Boosting Decision Tree)渐进梯度决策树

    GRRT(Gradient Boosting Regression Tree)渐进梯度回归树

    MART(Multiple Additive Regression Tree)多决策回归树

    (Tree Network)决策网路

    GBDT在被提出之初和SVM一起被认为是泛化能力较强的算法。近些年被用于搜索排序的机器学习模型中。GBDT是回归树,不是分类树,核心在于,每一颗树是从之前所有树的残差中来学习的。为了防止过拟合,和Adaboosting一样,加入了boostring。

    GBDT使用损失函数的梯度作为新的训练数据的y值。

    (Boosting Tree)提升树模型,提升树使用残差作为新的训练数据。

    损失函数:

    残差:

     

    GBRT

    优点:

    1. 可以处理不同类型的数据
    2. 预测能力强
    3. 对空间外的异常处理很健壮

    缺点:

    扩展性不好,boosting是顺序执行的,很难并行化。

     

    保序回归

        保序回归是回归算法的一种。其结果被称为保序回归,而且其解是惟一的,它被视为有顺序约束下的最小二乘法问题。

    训练数据是DataFrame格式,包含标签、特征值以及权重三列。

    保序算法有一个参数istonic,默认为真,它指定保序回归为保序(单调递增)或者反序(单调递减)。

    应用:统计推理,评估药物在不同药剂下的毒性。

     

    SVM(support Vector Machine)

    支持向量机由线性分类开始。

     

     

     

     

  • 相关阅读:
    如何更好的学习编译原理?
    组合数据类型练习
    简化版c语言文法
    Python基础练习
    Linux 命令
    实验一:词法分析实验报告
    20160930 词法分析程序
    大数据概述
    WP7应用开发笔记(7) 配置和存储
    欧拉计划 第九题
  • 原文地址:https://www.cnblogs.com/smuxiaolei/p/10847306.html
Copyright © 2011-2022 走看看