zoukankan      html  css  js  c++  java
  • 论文研读

    论文名称:张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法.

      • 研究对象
        中文语料库和英文语料库
      • 研究动机
        • 一种基于语义距离的文档特征提取方法。首先利用基于语义距离的方法提取主题相关词,然后利用信息增益算法从主题相关词中提取出文档特征。该方法首先利用语义距离准确缩小特征范围,之后再利用信息增益算法高效地提取文档特征
        • 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题,
          本方法从文档集中运用 FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,还可以构建文本集中文本间的关联关系
      • 文献综述
        •   
        研究方案设计  
        • 相关算法介绍
          • FIC算法
          • FIHC算法
          • MC算法
        • 本文提出的FIC算法
          • 频发词数据挖掘,本文采用 FP-Growth算法来挖掘频繁词集
          • 文本表示模型,本文采用基于频繁词集的文本表示模型
          • 构建文本网络,FIC算法将文本集中的每个文本当作文本网络中的节点,根据2文本之间的关联程度来建立边
          • 社区划分,通过文本与节点的对应关系将文本直接匹配到对应的社区,即类簇。使用硬划分的社区划分方法,每个文本只能被指派到唯一的社区中,解决了类间 重叠的问题.本文中选用 K-rank-D与谱聚类(spectralclustering)对网络进行划分
          • 主题描述,将出现频率较大的频繁词集作为主题的描述词.
        • 实验结果和分析
          • 数据集为标准数据集20-Newsgroup和 Reuters-21578,对于中文数据,选择文本分类语料库搜狗新闻数据
          • 聚类评价指标,采用文本聚类中常用的外部评价标准 F-measure
          • 实验设计方案,预处理时运用特征选择的方法,采用文档-反文档频率方法保留对划分文本更有利的特征单词。
          • 实验分析,在不同的算法上对5组数据进行聚类,其中对于 K-means,SPK-means,LDA,GNMF,FIC-S这5种不确定型算法分别运行10次取平均值作为最后聚类的精度结果
          • 实验中的阈值调整,本文算法中主要涉及到3个参数,包括在筛选特征词时的阈值、挖掘频繁词集中的最小支持度和计算文本间相似性的相似度阈值.本文通过采用手动调整、多次实验的方式,获得了聚类的最佳效果
          • 实验中对文本主题的描述,对每个类簇内的文本,统计所有文本内的频繁词集的出现频率,并选择按频率排名前10的频繁词集来描述每个主题,展示由FIC-K 算法所聚成类簇的主题描述情况,同时与LDA 算法得到的主题描述词进行对比
        • 使用数据集
            
          标准数据集20-Newsgroup和 Reuters-21578,对于中文数据,选择文本分类语料库搜狗新闻数据.其中,20-newsgroup数据包括近20000篇新闻报道,分为20个不同的新闻组,除了小部分文档,每个文档都只属于一个新闻组;Reuters-21578是文本分类的测试集,其中包含的文档来自于路透社1987年的新闻,搜狗新闻数据包括9个新闻类,共有17910个文本.
      • 研究结论
        • 本文提出一种新的文本聚类方法 FIC,该方法运用基于频繁词集的文本表示模型,解决了传统的VSM 模型的高维和数据稀疏的问题,采用基于网络的社区划分聚类方法和谱聚类算法,由于考虑了多个文本间的关系,聚类性能相比于之前的方法有了一定程度的提升

            
      • 学习心得
          这篇论文解决了传统VSM模型高维和数据稀疏的问题,增加了每个文本直接的联系,使相似文本之间联系增大。
  • 相关阅读:
    检测数组和对象&扩展String.prototype.format 字符串拼接的功能
    10000以内unicode对照表
    手机页面加载完成后再显示(粗糙版)
    手机端网页 横竖屏翻转事件
    代替eval的方法
    跨域和非跨域 获取iframe页面高度的方法
    HDU2032 杨辉三角
    HDU2030 汉字统计
    POJ 2029 Palindromes _easy version
    POJ3468 A Simple Problem with Integers
  • 原文地址:https://www.cnblogs.com/lkl7117/p/11266925.html
Copyright © 2011-2022 走看看