zoukankan      html  css  js  c++  java
  • 机器学习中数据量多少与模型过拟合欠拟合之间的关系

    参考链接:https://blog.csdn.net/insular_island/article/details/39099721 

    1、从模型方面考虑。举例说明:本身问题是二次的,用线性模型处理问题就是欠拟合,用三次及更高次处理问题就是过拟合。但是这里未考虑数据量的多少,只是针对本身模型阶次的考虑。而且现实问题,越强大的模型是很难确定模型复杂度的。

    2、处理相同的问题时,在数据量多的情况,可以用相对复杂的模型处理问题,在数据量少的情况下,可以用相对简单的模型处理问题。过拟合:当数据量太少时,模型无法完成充分的训练,模型过度拟合用于训练的少量数据的信息,对测试数据效果不好,泛化能力差;欠拟合:数据量很多,但是模型太简单没有充分利用数据信息模型不够准确。

    3、欠拟合:表现为模型特征维度过少,参数值较小等情况,此时模型过于简单但是数据量很大,所用模型没有充分学习大量数据提供的信息,模型准确性差; 
           解决方法:(1)增加特征维度;,增大参数值,换用更为复杂的模型等。
      过拟合:表现为特征维度过多,参数值过大,此时模型假设过于复杂,但是训练数据过少,噪声过多,导致拟合的函数完美的拟合训练集,但对新数据的测试集预测结果差,泛化能力差。
          解决方法:(1)减少特征维度;(2)正则化,降低某些过大的参数值。(3)在神经网络中dropout, 随机删减一些神经元。

    综上所属:可以总结为(1)当模型在训练集上准确性一般,但是在测试集上表现也尚可,即泛化能力好时为欠拟合;(2)当模型在测试集上表现不好,泛化能力差,但是对于训练数据准确性高时表现为过拟合;(3)两者皆不好时考虑进一步数据与处理和特征选择或者换模型;(4)两者都好时模型能够较好的拟合现有数据,皆大欢喜。

  • 相关阅读:
    Visual Studio 和 c# 正则表达式
    程序员DD 《Spring boot教程系列》补充
    c# 多线程编程中AutoResetEvent和ManualResetEvent
    c# 事件和EventManager
    卸载重装Mysql
    c# 语法要点速览
    在高分屏正确显示CHM文件
    ss user-rule自定义规则并硬连接到OneDrive进行自动同步
    利用webmagic获取天猫评论
    使用Selenium对新浪微博模拟登录
  • 原文地址:https://www.cnblogs.com/simpleDi/p/10582878.html
Copyright © 2011-2022 走看看