zoukankan      html  css  js  c++  java
  • 毕设之路01

    这是距离上一次关于毕设博客很久之后的第二篇博客。

    这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作,但是分类的类别和一般的不太一样,下面是我定义的类别:

    那么就开始了训练:

    找到了一个全是科技类的新闻数据集,大约16万吧,里面全是科技类新闻(训练的数据集很丰富了吧算是):

     

    训练的思路我觉得还有一些问题,这里先不多说。然后就是训练出来了第一张图示的结果集。目前还没进行回归测试,所以不知道准确率怎么样,之后就是数据分类,每一条新闻都要过一遍,这里参看了博客https://blog.csdn.net/qq_28626909/article/details/80382029进行文本分类(贝叶斯分类),效果还可以。

    目前打算把分类页面做出来,之后就开始定时抓取数据定时分类显示,关联各网站追踪话题热度变化。这是近期的一个小目标。希望自己别再拖拉了。

    成果图:

  • 相关阅读:
    Luogu P2633 Count on a tree
    Luogu P4011 孤岛营救问题
    Luogu P3157 [CQOI2011]动态逆序对
    SCOI2015 国旗计划
    AT2165 Median Pyramid Hard
    BZOJ2959 长跑
    SCOI2015 情报传递
    SDOI2011 染色
    SCOI2010 幸运数字
    SHOI2016 黑暗前的幻想乡
  • 原文地址:https://www.cnblogs.com/mm20/p/11628719.html
Copyright © 2011-2022 走看看