zoukankan      html  css  js  c++  java
  • kaggle——Bag of Words Meets Bags of Popcorn(IMDB电影评论情感分类实践)

    kaggle链接:https://www.kaggle.com/c/word2vec-nlp-tutorial/overview

    简介:给出 50,000 IMDB movie reviews,进行0和1情感二分类

    我的github代码仓库:https://github.com/beathahahaha/kaggle_IMDB_sentiment_classification 

    给出两段代码,都值得借鉴:

    第一个是,lstm实现的pytorch版本,调参以后从0.90569提升到了0.95718(主要是优化器用adam,学习率用0.001,句子长度设置为200),排名大概是100/577,前17%

    其实还可以进一步提高

    未来的建议:结合word2vec,试一试xgboost和bilstm(可以参考kaggle上其他人的解答)

    第二个是,利用github开源的bert模型进行训练,(但是没有用到官网给的语料库unlabeledTrainData.tsv, 第一个代码的gensim中的word2vec用到了),二分类情感分类模型,

    虽然用到了预训练模型,但是效果还是没有那么好,最后效果大概是0.90896.

    可能原因分析:可能是超参数没有调好(bert输入参数没有完全理解透彻,后续还要跟进,另外可以研究bert的loss的可视化输出,网上有修改的源码),也可能是没有用上语料库的原因,总之效果并不理想

    综上,两段代码都有需要改进的地方,未来值得深究(另外备注一点:bert还可以做多标签情感分类,多标签情感分类属于另一主题,留给未来研究,kaggle相关比赛建toxic comment:https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge )

    bert实践参考代码:

    https://github.com/wangjiwu/BERT-sentiment--classification

    附录: kaggle——情感分类专辑:https://zhuanlan.zhihu.com/p/70361361

  • 相关阅读:
    MobaXtern显示中文
    SD卡识别——记一次stm32识别BanqSD卡 V2.0识别失败的经历。
    《Java 底层原理》Jvm GC算法
    《Java 并发编程》ThreadLock详解
    《Java 底层原理》Jvm对象结构和指针压缩
    《Java 底层原理》Java内存模型
    《Java 底层原理》Java 字节码详解
    jinjia2中的变量使用
    jsonify和json的区别
    虚拟环境是什么?有什么用?怎么用?
  • 原文地址:https://www.cnblogs.com/qiezi-online/p/14051945.html
Copyright © 2011-2022 走看看