zoukankan      html  css  js  c++  java
  • 构建短文本分类模型需要注意的几点

    一、深度学习模型

      1.CNN

      2.LSTM

      3.Attention

    二、与传统机器学习模型的比较

      1.SVM

      2.LR

      3.GBDT

      4.XGBoost

      5.RandomForest

      6.LightGBM

    三、文本特征选择

      1.一般短文本的长度在200字符左右,需要更加精巧的模型来判别

      2.对于网络群聊短文本,包含各种特殊字符,表情符,@符号等。那么这些字符在预处理的时候是否需要去掉?还是将所有的字符都扔进模型中?这是需要考虑的问题

      3.语言模型是nlp领域处理的基础,特征抽取时需要注意不要丢掉语言学信息

      4.预训练词向量的选择,是否使用预训练词向量,需要做结果对比。如果引入预训练词向量带来的效果不大,可以使用随机初始。预训练词向量的选择:腾讯开源,自身构建

      5.结合单词词向量、分词位置词向量、词性信息三者提取文本特征,通过concat构建新的特征向量

      6.在文本表示上,可以使用RNN最后一个时刻的输出作为文本的表示,也可以综合考虑每个时刻的输出

  • 相关阅读:
    c#-全局键盘钩子
    C#-自动获取IP
    C#-自动获取IP
    C#-获取CPUID
    C#-获取CPUID
    手动添加导入表修改EXE功能
    安装全局消息钩子实现dll窗体程序注入
    手动添加导入表修改EXE功能
    虚拟桌面模拟查找点击自绘控件
    虚拟桌面模拟查找点击自绘控件
  • 原文地址:https://www.cnblogs.com/demo-deng/p/10150005.html
Copyright © 2011-2022 走看看