zoukankan      html  css  js  c++  java
  • 毕设之路01

    这是距离上一次关于毕设博客很久之后的第二篇博客。

    这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作,但是分类的类别和一般的不太一样,下面是我定义的类别:

    那么就开始了训练:

    找到了一个全是科技类的新闻数据集,大约16万吧,里面全是科技类新闻(训练的数据集很丰富了吧算是):

     

    训练的思路我觉得还有一些问题,这里先不多说。然后就是训练出来了第一张图示的结果集。目前还没进行回归测试,所以不知道准确率怎么样,之后就是数据分类,每一条新闻都要过一遍,这里参看了博客https://blog.csdn.net/qq_28626909/article/details/80382029进行文本分类(贝叶斯分类),效果还可以。

    目前打算把分类页面做出来,之后就开始定时抓取数据定时分类显示,关联各网站追踪话题热度变化。这是近期的一个小目标。希望自己别再拖拉了。

    成果图:

  • 相关阅读:
    [译] 如何用ps制作火焰字
    Sublimetext gitHub 问题收集
    微博置顶
    迅雷评分效果
    phpstorm 3.0.3 git bug
    javascript,jQuery书籍
    dom 的添加或事件绑定
    ext源码阅读 DomHelper createHtml,insertHtml
    用于WebKit的CSS诀窍图片版
    二级下拉菜单
  • 原文地址:https://www.cnblogs.com/mm20/p/11628719.html
Copyright © 2011-2022 走看看