zoukankan      html  css  js  c++  java
  • 深度学习-提升模型分类性能的几点思考

    使用CNN做文本分类已经有一段时间了,之前在封闭式测试集中模型的表现还是不错的。但是,拿到实际环境汇总测试,问题就来了。模型过拟合严重,泛化能力弱。最终带来的结果是,用户体验不佳。

    改进的方面:

      1)改变字符向量为词向量。实际发现,以字符为单元的模型,在数据量少的情况下(10W以下),更容易过拟合,词向量因具有最小语义单元的特性,能客服该问题

      2)加入预处理工作。主要是去表情符,以“/微笑”等形式的文本如果不处理干净,非常影响短文本的长度,带来模型性能下降

      3)优化jieba分词的用户自定义字典。观察jieba分词后的语料,还是有很多分错的词,在垂直领域有很多特定词汇,我们需要根据任务将这些特定词汇加入分词词典,以使之分词正确

      4)提升模型精度。

        模型优化调参是重要的一个部分。在我的过程中影响最大的还是预训练词向量,迭代次数(稍不注意就会模型过拟合),batch size的大小(尽可能的大一些,模型收敛会更平稳)。

        谨慎地细心的扩充数据源。增加数据往往是一个很好的思路,这样可以数据可以“告诉”我们更多的信息,而不是仅仅依靠假设和弱相关性来构建模型,更多的数据无疑能带来更好更精确的模型。 比较好的正负样本是1:5.

    以上是近期的一个模型优化感悟,现在发现,针对短文本聊天内容分类,这个任务还是很难做的。希望对你有帮助。

  • 相关阅读:
    第十二课:复习课一
    第十一课:磁场和洛伦兹力
    关于 求 曲面 短程线
    二元函数 的 极值点 怎么求 ?
    给 学生党 出一道题 : 斯涅耳定理 的 增强版
    极坐标系 : 一生只做一件事
    代数几何 定理 合集
    代数几何 很难 吗 ?
    看了一下 复变函数 黎曼曲面 流形 复流形 仿射空间 射影空间
    物空必能 先生 的 绝对速度 是 一种 “约化速度”
  • 原文地址:https://www.cnblogs.com/demo-deng/p/10898455.html
Copyright © 2011-2022 走看看