zoukankan      html  css  js  c++  java
  • 数据挖掘话题识别

    简单话题识别的处理步骤:
    1、tf-idf处理词的值(idf为300万篇博文的切词)。
    2、切词并进行统计词频,依照tf-idf计算该词在向量中的维度值 。
    3、切分标题统计词频,标题的权重是3 (统计时,标题的实际词频*3) 。
    4、去掉非名词的词语,去掉一些自定义的无意义名词(像“今,今天”,“时候”等) 。
    5、取前100个词,组装成向量 。
    6、对向量归一化处理,目前做的是全部向量转换成单位长度 1 。
    7、初始点设置,聚类,目前聚类的簇设置为10 ,质心计算采用的是各维度的和取平均值,聚类迭代结束条件(变更的点数小于1个或者迭代次数超过200次)。
    8、对于每个簇进行统计:找出离簇的中心最近的20个向量(博文);提取分散度(在该簇的多少篇文章中出现过)最高的20个词。
    9、对每个文档簇(博文)的评价指标:文章数、热度(评论、点击量的综合) 。
  • 相关阅读:
    HDU1429:胜利大逃亡(续)
    HDU1728:逃离迷宫
    HDU1253:胜利大逃亡
    HDU1180:诡异的楼梯
    HDU1175:连连看(搜索)
    HDU1072:Nightmare
    HDU1074:Doing Homework
    Codeforces Round #259 (Div. 1)A(公式)
    HDU1430;魔板(BFS+康托展开)
    Codeforces785D
  • 原文地址:https://www.cnblogs.com/serendipity/p/2451991.html
Copyright © 2011-2022 走看看