zoukankan      html  css  js  c++  java
  • 统计学习方法李航学习笔记

    零、常见的建模策略:

      Linear Regression 线性回归

      Logistic Regression 逻辑回归

      Ensemble Learning 集成学习(特征工程决定了机器学习的上限,集成学习决定了这个上限的逼近程度)

        bagging:多个分类器结果平均或者投票,rf

        Boosting:Adaboost、GBDT(每一次子模型的生成,都是让残差沿着梯度方向减少)

        Stacking:将多个分类器结果作为X变量,再训练后作为最终预测模型,

        优点:模型更稳定

      Deep Learing 深度学习 RNN、GNN

    监督学习三板斧:目标、损失函数、参数估计

    一、决策树

    1、决策树是一种基本的分类与回归方法,本文主要讨轮用于分类的决策树,决策树模型呈现树形结构,在分类问题中,表示基于特征对实例进行分类的过程,

    学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型

    预测时,对新的数据,利用决策树模型进行分类,

    决策树学习通常分为3个步骤:特征选择、决策树的生成和决策树的修剪,

    2、特征选择:

    特征选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率,

    选择的准则是信息增益或信息增益比

    信息熵:

    经验熵:类别/D 

     二、随机森林:

    bagging ensemble

    子模型 很多课决策树,每个子模型有同样的权重

    为了鼓励子模型的差异,可以随机选择特征子集和训练样本子集建模

    优势:能在特征完整的情况下建模

    能够处理高纬特征,不用做特征选择

    劣势:有些子模型会比其他子模型更有效,这里并没有体现

    三、梯度提升回归树 GBDT

    GBDT(gradient boosting regression tree ),是一种迭代的梯度提升回归树算法,该算法由多颗回归树组成,所有树的结论累加起来做最终答案

    用递增的方式建立子模型,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少(原始boosting方法:增加分错的点的权重,减少分对的点的权重)

    优势:

    可以使用其来自动发现有效的特征,特征组合,来作为stacking(LR)模型中的弱分类器

    特征的分布和取值无特殊要求

    重要参数:

    tree-specific parameters

      max-depth

      min_samples_splits

    boosting parameters

      learning_rate

      n_estimators 子模型的个数

    四、隐马尔可夫模型:隐藏的 马尔可夫链 随机 生成序列

      隐马尔可夫模型是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。 首先叙述HMM模型的基本概念,然后分别叙述HMM的概率计算,学习算法以及预测算法。HMM在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用

      隐马尔可夫模型可以用于标注,这时状态对应着标记.标注问题是给定对应观测的序列预测其对应的标记序列.可以假设标记问题的数据是由隐马尔可夫模型生成的。这样可以利用隐马尔科夫模型的学习与预测算法进行标注。

    二、条件随机场

      条件随机场(CRF)是给定一组输入随机变量条件下,另一组随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场,条件随机场可以用于不同的预测问题,下面主要讨论在标注问题的应用,这时,问题变成了由输入序列对输出序列的判别模型,形式是对数线性模型、其学习方法通常是极大似然估计及正则化的极大似然估计

      条件随机场的三个基本问题:概率计算问题、学习问题、预测问题

      字面理解:随机场,是指随机变量,条件,是指在给定一组输入随机变量作为条件,输出变量的条件概率分布模型

  • 相关阅读:
    unicode,ascii是一種字符集,而uft是一種編碼方式
    加水印程序
    收錄PHP試題
    window下接裝php+Apache+mysql
    查找字符串程序
    連接兩表sql語句,二種寫法,sql面試題目
    求一組9位數且不重複(19組成),滿足前n位能被n整除,例如:取先二位能被2整除,取先三位能被3整除...取先九位能被9整除。
    php連mssql,access的方法 js連接access數據庫
    asp.net試題(五)
    lamp+vsftp +zend optimizer 配置,需要注意的地方
  • 原文地址:https://www.cnblogs.com/lxw003/p/8656479.html
Copyright © 2011-2022 走看看