zoukankan      html  css  js  c++  java
  • 统计方法的选择

    • 为什么要选择统计方法?

    当我们面临一个实际统计预测或推断问题时,往往有许多方法可以选择,这时我们面临一个很关键的问题:选择哪种统计方法是最有效最经济的?为什么这么选择?

    1. 补充一些基本概念

    • 预测与推断的区别 :预测是在现有数据的基础上,预测可能的结果,对每个特征参数对结果的影响并不关心。推断关心各个特征变化时对结果会有什么影响。
    • 参数方法与非参数方法 :基于模型的方法统称为参数方法 ,即首先假设一个参数模型,然后用数据训练或拟合模型中的各个参数。非参数方法不需要对模型事先做出假设,因此可以和各个数据点尽可能拟合。
    • 灵活性,光滑度或柔性水平:这三个词的含义是接近的,用来形容一个模型对数据点的拟合情况。灵活性或柔性水平较高的模型能够尽可能拟合每一个数据点。但同时,高柔性水平一般也意味着过度拟合。

    2. 选择统计方法需要考虑哪些关键问题?

    2.1 预测精度和模型解释性

    模型解释性是指模型能够说明每一个参数是如何对结果施加影响的。一般来说,预测精度越高的模型,其解释性就越低。下图列出几种统计方法在柔性和解释性之间的权衡。

    2.2 指导学习或无指导学习

    指导学习处理“对每一个观测变量都有相应的响应变量”这类问题。许多统计方法归于此类,例如回归分析,支持向量机等。无指导学习是应对“只有观测变量,没有相应变量”的问题,比如聚类分析。

    2.3 回归和分类

    首先明确一个概念,定性变量(又称分类变量)和定量变量。当问题中响应变量是定量变量时,我们称之为回归分析,当问题中响应变量为定性变量时,我们称之为分类。

    3. 那么,我们到底应该选择什么模型?

    考虑清楚以上三个关键问题,确定是有指导的或无指导的又或者是半指导的,变量是定性还是定量,最后考虑是目的是预测还是推断。

    例如,我们想根据受教育程度、年龄来估计一个人的预期薪水时,我们就面临一个有响应变量,且响应变量是定量变量的问题。那么我们感兴趣的如果是这两个变量是如何影响薪水的,那么可以选择解释性较高的线性回归方法。

    选择一个恰当的统计方法,是解决问题的第一步,也是最重要的一步。选对方向往往比走得快要重要。

  • 相关阅读:
    [洛谷P3369] 普通平衡树 Treap & Splay
    [NOIp2016] 组合数问题
    [洛谷P4777] [模板] 扩展中国剩余定理
    [洛谷P3384] [模板] 树链剖分
    [NOIp2017] 时间复杂度
    [bzoj3270] 博物馆
    [USACO06DEC] Milk Patterns
    [USACO5.1] Musical Themes
    后缀数组 模板+详解
    [HNOI2004] L语言
  • 原文地址:https://www.cnblogs.com/ljt1412451704/p/9651425.html
Copyright © 2011-2022 走看看