zoukankan      html  css  js  c++  java
  • 毕设之路01

    这是距离上一次关于毕设博客很久之后的第二篇博客。

    这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作,但是分类的类别和一般的不太一样,下面是我定义的类别:

    那么就开始了训练:

    找到了一个全是科技类的新闻数据集,大约16万吧,里面全是科技类新闻(训练的数据集很丰富了吧算是):

     

    训练的思路我觉得还有一些问题,这里先不多说。然后就是训练出来了第一张图示的结果集。目前还没进行回归测试,所以不知道准确率怎么样,之后就是数据分类,每一条新闻都要过一遍,这里参看了博客https://blog.csdn.net/qq_28626909/article/details/80382029进行文本分类(贝叶斯分类),效果还可以。

    目前打算把分类页面做出来,之后就开始定时抓取数据定时分类显示,关联各网站追踪话题热度变化。这是近期的一个小目标。希望自己别再拖拉了。

    成果图:

  • 相关阅读:
    Reversion windows 2008 R2 STD to Datacenter
    NetAPP常用操作
    firefox解决flash崩溃
    物理和虚拟兼容性RDM的区别
    网络嗅探器Wireshark
    子网掩码在线计算换算及算法
    Debian中文字体安装
    快算24点,POJ(3983)
    第九十八周,搜索24点
    两次DFS,POJ(1481)
  • 原文地址:https://www.cnblogs.com/mm20/p/11628719.html
Copyright © 2011-2022 走看看