zoukankan      html  css  js  c++  java
  • [问题] 分类模型泛化能力不好

    这个问题在各个领域的分类问题上都会出现,根本上还是数据集的问题。就像是做视频剪辑的人说的,真正做视频的高手会在录制视频时下更多的功夫,而不是在后期处理上,视频质量的好坏很大程度决定于录制视频的手法。类似的,数据集分布过于杂合交错,训练出的模型连在本地测试集上效果都不好;而数据集分布过于单一明了,训练出的模型在实际应用时会有很大的不适应。

    目前做的性别分类和年龄估计应用,就出现了泛化能力不好的问题。它们选取的数据集来源于以下几处:男女成人声音来源于广播节目里的对话,特点是背景声明显;小孩声来源于幼儿园实际录制,有噪声小的,也有噪声很大的,没有噪声适中的。以这样的数据集训练出的模型,对专业播音员无噪音环境下录制的声音进行测试,识别效果很差,表明该分类模型的泛化能力不好。但是,一旦加入一定量的数据到训练集,对该无噪音播音声的识别效果就会明显提高,而且对其它测试的识别效果不会降低太多。

    所以结论是,遇到测试效果不好的数据,选取一部分该数据加入训练集,会对模型的泛化能力有帮助;然而这一做法的最大问题就是,并不是个elegant的做法,而且不是长久之计。

  • 相关阅读:
    APMServ5.2.6 无法启动Apache的一个问题
    【转】流媒体技术笔记(视频编码相关)
    用APMServ一键快速搭建Apache+PHP+MySQL+Nginx+Memcached+ASP运行平台
    java swing 基础
    python class 类
    python 经验
    python 导入(转)
    kernel ipv4/ip_output.c
    python+正则表达式(转)
    Eclipse中如何快速添加、删除jar包
  • 原文地址:https://www.cnblogs.com/littletail/p/5305704.html
Copyright © 2011-2022 走看看