这是距离上一次关于毕设博客很久之后的第二篇博客。
这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作,但是分类的类别和一般的不太一样,下面是我定义的类别:
那么就开始了训练:
找到了一个全是科技类的新闻数据集,大约16万吧,里面全是科技类新闻(训练的数据集很丰富了吧算是):
训练的思路我觉得还有一些问题,这里先不多说。然后就是训练出来了第一张图示的结果集。目前还没进行回归测试,所以不知道准确率怎么样,之后就是数据分类,每一条新闻都要过一遍,这里参看了博客https://blog.csdn.net/qq_28626909/article/details/80382029进行文本分类(贝叶斯分类),效果还可以。
目前打算把分类页面做出来,之后就开始定时抓取数据定时分类显示,关联各网站追踪话题热度变化。这是近期的一个小目标。希望自己别再拖拉了。
成果图: