zoukankan      html  css  js  c++  java
  • 《数学之美》第14章 余弦定理和新闻的分类

    转载请注明原地址:http://www.cnblogs.com/connorzx/p/4170043.html

    基本思想

    1. 建立一个字典向量,字典里包含这种语言的所有词组;
    2. 统计各个词组的出现次数,填充到对应词组的位置,构成文本的特征向量;
    3. 两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度,是因为不同新闻的长度可能不同,用夹角表示不需要考虑长度(即向量的模长)的差异影响。

    自动分类

    1. 所有特征向量(N个)两两相关,将结果大于某一阈值的归为一类,共N1个小类。显然,N1<N;
    2. 将每个小类看做一个整体,计算其特征向量,每个小类之间求夹角,相关值大于阈值的归为一类,共N2类。其中,N2<N1;
    3. 重复上述步骤,直到所有相关值都小于阈值。停止操作,分类结束。 

    降低算法复杂度方法

    1. 保存每个向量的模值;
    2. 删除所有虚词。因为虚词不但不起作用,还有可能造成干扰。
    3. 计算时跳过由零元素的。 

    提高准确性方法

          采用特殊位置加权的办法,可以有效地提高算法效率。例如,标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因,你懂的!

  • 相关阅读:
    python机器学习基础教程-鸢尾花分类
    LaTeX实战经验:如何写算法
    Latex公式最好的资料
    BibTex (.bib) 文件的注释
    Latex中参考文献排序
    LATEX双栏最后一页如何平衡两栏内容
    Latex强制图片位置
    Endnote输出Bibtex格式
    redis学习
    20180717
  • 原文地址:https://www.cnblogs.com/connorzx/p/4170043.html
Copyright © 2011-2022 走看看