zoukankan      html  css  js  c++  java
  • 如何避免过拟合和欠拟合现象的产生

    偏置/方差折中问题

    在所有的机器学习算法的使用中,都必须避免过拟合和欠拟合现象的产生,这就是偏置/方差折中问题的主要研究对象。维基百科中给出这种问题的详细说明:

    偏置是一种误差, 这种误差主要来自于学习模型或算法中的错误假设。 比如y=x^2, 如果用线性回归的话,就会带来较大的误差;

    方差:方差是指由于数据点波动所带来的误差,例如,若训练集中数据点的输入特征与输出响应为线性关系,但有个别数据点受噪声影响,输入特征与输出响应不是线性关系,而算法想尽可能地拟合所有数据点,这样,就会导致一个高度非线性的复杂模型,从而使得算法泛化能力变差。 

    高方差容易引起过拟合: 比如, 如果建模过程中,模拟了训练数据中的过多噪音,在算法层面上就是, 让算法想尽可能地拟合所有数据点,这样,就会导致一个高度非线性的复杂模型,从而使得算法泛化能力变差。

    In statistics and machine learning, the bias–variance tradeoff (or dilemma) is the problem of simultaneously minimizing two sources of error that prevent supervised learning algorithms from generalizing beyond their training set:

    The bias is error from erroneous assumptions in the learning algorithm. High bias can cause an algorithm to miss the relevant relations between features and target outputs (underfitting).

    The variance is error from sensitivity to small fluctuations in the training set. High variance can cause overfitting: modeling the random noise in the training data, rather than the intended outputs.


    因此,如何避免算法陷入这个困境是亟待解决的问题。在机器学习中,一般是通过控制超参数λ来实现对算法进行修正。

    训练集是用来训练模型的样本集合;验证集是用来确定超参数的样本的集合,其中超参数是指诸如隐层个数L、学习率α、正规化项系数λ等人为确定的参数;测试集是用来测试模型泛化性能的样本集合。

    了确定最优超参数,可以使用网格搜索方法对候选的参数进行寻优。其具体方法是在参数的某个取值列表中进行依次取值,并分别用验证集测试其性能,最后记录下性能最优的超参数。

  • 相关阅读:
    Idea中Module is not specified解决办法
    Navicat 导入数据时报Incorrect datetime value: '0000-00-00 00:00:00.000000' 错误
    SQL Server错误18456,window身份验证登录失败解决办法
    Linq
    web.config配置数据库连接
    $.ajax()方法详解
    将一张图片上传到指定的文件夹,然后在窗体上的PictrueBox控件中显示出来
    winform中picturebox自适应图片大小
    C#中产生SQL语句的几种方式
    [转]ORACLE触发器详解
  • 原文地址:https://www.cnblogs.com/xinping-study/p/7068631.html
Copyright © 2011-2022 走看看