zoukankan      html  css  js  c++  java
  • 机器学习——2模型评估与选择

    一、误差:

    误差分为经验误差和泛化误差,都是指理论上的期望误差。

    经验误差指在训练集上的误差,泛化误差指得到的模型在新样本上的误差。

    泛化误差是我们比较看重的,泛化误差越小越好。但是,在训练中,我们也希望经验误差越小越好,但是有时候经验误差太小,反而会导致泛化误差没那么好。

    所以,就引出了另一个名词:过拟合。过拟合会导致泛化性能下降。就是把样本学习的“过了头”。与过拟合对应的是欠拟合,指对模型拟合的不够好。

    欠拟合的解决方法:

    扩展学习分支,增加训练层数。

    过拟合解决方法:

    很多种算法中都会提到过拟合的解决方法,并且,由于过拟合是机器学习的主要问题,所以应当在不同的算法中运用不同的方式来解决过拟合问题。

    二、评估泛化误差

    1、首先评估泛化误差需要考虑一个问题,我们评价的时候需要一个训练集来训练模型,同时也需要一个测试集来评价泛化误差。所以我们要解决的第一个问题是区分训练集和测试集。

    A、留出法

    直接将数据集分为两个互斥集合,一个作为训练集另一个作为测试集。测试集大概只占四分之一到三分之一。

    而测试集和训练集的采样过程应注意分层采样,否则正例负例比例不对称,会很忙麻烦。

    B、交叉验证法

    在保证数据一致的情况下(分层采样),将数据集分为K个大小相同的互斥子集。然后每次用K-1个子集来训练,最后一个子集用来测试。从而可以进行k次循环。我们将其称为K折交叉测试。常用的k有5,10,20。

    进一步讲,当一共有m个元素,然而我们将互斥子集分为M份之后,每个子集只有一个元素,这样就变成了一个特例,我么称为留一法。留一法准确性还算好,但是计算开销很大。

    C、自助法

    自助法一般在数据集比较小的时候用。

    方法是从原始数据集中每次取一个,放到集合里面,这个集合称为训练集,经过计算,原始集合中总有占总数的0.368的数据没有被采集到。可以用原始集-训练集得到测试集用来进行测试。

    2、下面进行对一个模型的性能度量时间

    最基础的性能度量方式也是最常用的性能度量方式是均方误差(mean squared error)。

    说白了,就是计算每个数据对应的值和标准的值的方差。

    或者,用概率密度来表示,然后在总的域上积分,也是可以的。

    精度:正确样本占总样本的比率

    错误率:估计错误的样本占总样本的比率

    3、我们要扩展精度和错误率了

    查准率:检索出来的信息有多少是用户喜欢的。偏向我的数据的有效率。

    查全率:用户多少喜欢的东西被我们找到了。偏向我的数据的广泛率。

    真正例(True positive) 真反例(True negative) 假正例(False positive) 假反例(False negative)

    查准率:(TP)/(TP+FP)

    查全率:(TP)/(TP+FN)

    查准率和查全率一般是“互补”的,可以这么考虑,我的数据量越少,真正例的比例就越高,同时查全率就会越低。一般情况下,对于不同的模型,平衡点(Break-Even Point,简称BEP,此时查准率等于查全率)使我们考察的对象,平衡点越往外的,模型越好。

    出去BEP,我们还可以用F1度量,这个更常用。

    F1=((1+β^2 )*P*R)/((β^2*P)+R)

    其中,beta是表示我们对查重率或者查准率的不同偏好。

    4、代价敏感错误率

    我们不仅要猜得准,猜的全之外

    有时候,我们还需要考虑,如果我们猜错了,因此会付出一定代价,所以就有了代价敏感错误率,此处FN和FP都对应一定的cost

    5、我们深入讨论关于学习器的比较问题:

    如果在测试集上表现好的学习器,是不是也意味着泛化性能也更优秀呢

    这里用到了假设检验。

    A、假设检验基本原理的运用

    我们可以很容易地算出来,利用二项分布,当学习器对一个样本预测出错的概率是ε时,那么,m个样本中m*ε个样本被预测错的概率是最大的。

    这里,我们引入t检验,实际上就是本科时候学习的概率统计,t分布类似我们以前的高斯分布。T=√k(μ-ε)/σ,算出t之后,带入显著度表格,查表,看是否有xxx的概率接收或者拒绝该检验。

    t检验,用于检验样本平均数与总体平均数的差异是否显著。

    B、交叉验证t检验

    对两个学习器而言,若要判断他俩是否相同,也可以通过t检验来弄,即,对于同一个测试集,将他们的测试结果求差的绝对值 ,并且求出绝对值的均值和方差,最后带入t检验中。

    C、两个学习器问题

    同样在t检验的基础上,实际上只需要导出他们错误的列联表,将多个错误列联表放一起,求出列联表的均值与方差即可,依然满足t分布即可。

    D、多个学习器问题

    将多个学习器对同一个数据集的预测结果进行评分,依次是123456...k,则最终的结果是,均值和方差都应该是1-k的均值和方差,1-k的均值和方差是绝对可信的,但是,由于其他因素,会导致实际的均值和方差是不同的,再将这个均值和方差带入t分布即可。注意,要先算平均序值的均值,在在这个的基础上算均值和方差。

    6、解释学习算法泛化性能

    泛化误差可分解为偏差、方差与噪声之和。

    偏差刻画了期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。

    方差度量了同样大小的训练集的变动导致的学习性能的变化,刻画了数据扰动的影响。

    噪声刻画了学习问题本身的难度。

  • 相关阅读:
    MongoDB 时间截取、字符串截取、拼接(时间戳、字符串等)
    ClickHouse 参数配置
    C++函数调用栈的变化分析
    WPF中为button添加快捷键(ShortCut)的方法
    vscode中一些好用的插件介绍
    剑指Offer 2. 青蛙跳台阶问题
    切片Slice的使用
    剑指Offer 1. 斐波那契数列
    match_parent和wrap_content的区别
    字节流、字符流
  • 原文地址:https://www.cnblogs.com/baochen/p/9033437.html
Copyright © 2011-2022 走看看