zoukankan      html  css  js  c++  java
  • 数据挖掘话题识别

    简单话题识别的处理步骤:
    1、tf-idf处理词的值(idf为300万篇博文的切词)。
    2、切词并进行统计词频,依照tf-idf计算该词在向量中的维度值 。
    3、切分标题统计词频,标题的权重是3 (统计时,标题的实际词频*3) 。
    4、去掉非名词的词语,去掉一些自定义的无意义名词(像“今,今天”,“时候”等) 。
    5、取前100个词,组装成向量 。
    6、对向量归一化处理,目前做的是全部向量转换成单位长度 1 。
    7、初始点设置,聚类,目前聚类的簇设置为10 ,质心计算采用的是各维度的和取平均值,聚类迭代结束条件(变更的点数小于1个或者迭代次数超过200次)。
    8、对于每个簇进行统计:找出离簇的中心最近的20个向量(博文);提取分散度(在该簇的多少篇文章中出现过)最高的20个词。
    9、对每个文档簇(博文)的评价指标:文章数、热度(评论、点击量的综合) 。
  • 相关阅读:
    redis数据结构-list
    reids数据结构1-string
    jedis工具类
    静态资源放行
    SpringMVC拦截器
    xinetd
    Linux-open函数
    Linux简单的文件读取
    复习ssm02
    springMVC文件上传
  • 原文地址:https://www.cnblogs.com/serendipity/p/2451991.html
Copyright © 2011-2022 走看看