zoukankan      html  css  js  c++  java
  • 《python机器学习—预测分析核心算法》:惩罚回归算法与集成方法基本特性

    参见原书 1.1-1.4节

    一、惩罚线性回归模型

    基本特性:

    1.训练时间快,使用训练好的模型进行预测的时间也快
    2.应用于高速交易、互联网广告的植入等
    3.解决回归、分类问题

    最重要的特性:
    能明确指出,哪个变量对预测结果最重要

    普通最小二乘法(ordinary least squares,OLS)->惩罚回归方法
    (OLS主要问题:过拟合)

    惩罚回归方法:使自由度与数据规模、问题的复杂度相匹配

    核心概念:
    1.特征工程/特征提取
    选择哪些变量用于对结果的预测

    2.自由度
    统计学名词,当以样本的统计量估计总体的参数时,样本中独立或能自由变化的自变量的个数
    如,一条直线的自由度为2,即需要2个独立的参数才能确定唯一的一条直线
    表示方式:与Y轴的交点与斜率

    利用2点确定自由度为2的一条直线,可信度并不高

    二、集成方法
    构建多个不同的预测模型(基学习器),然后将其输出做某种组合作为最终的输出

    某些机器学习算法输出结果不稳定->集成方法

    通常,将二元决策树作为基学习器
    如,x<5?(y=2):(y=1)
    Q:判断值5如何产生?输出值y=1,y=2如何产生?

    A:基于输入数据的二元决策树的训练

    关键在于:如何产生大量的独立预测模型
    一种方法 投票(自举集成方法boosting aggregating):先对训练数据随机取样,基于随机数据子集进行训练

    确定哪些特征作为预测模型的输入?
    试错法,多次迭代

    早期阶段,特征过程阶段:
    利用惩罚线性回归模型训练,提供基本参考:哪些变量是重要的

    核心概念:
    1.基学习器
    单个预测模型

    2.问题的复杂度
    数据科学家的任务,如何平衡问题的复杂度、预测模型的复杂度和数据集规模,以获得一个最佳的可部署模型

    数据集的规模通常是自由度的倍数关系
    因为数据集的规模固定,需要调整模型的自由度

  • 相关阅读:
    left join 和 inner join 区别和优化
    认识位移操作符
    動態修改 XML 欄位
    (轉載)sql server xml字段的操作
    (轉)CSS 单行溢出文本显示省略号...的方法(兼容IE FF)
    (轉)Equal height boxes with CSS
    獲得瀏覽器顯示標簽的真實的長寬高
    轉:Jquery绑定img的click事件
    SqlLocalDB 的一些常用命令行
    转:css实现强制不换行/自动换行/强制换行
  • 原文地址:https://www.cnblogs.com/feinaio2017/p/8504127.html
Copyright © 2011-2022 走看看