zoukankan      html  css  js  c++  java
  • 《数学之美》第14章 余弦定理和新闻的分类

    转载请注明原地址:http://www.cnblogs.com/connorzx/p/4170043.html

    基本思想

    1. 建立一个字典向量,字典里包含这种语言的所有词组;
    2. 统计各个词组的出现次数,填充到对应词组的位置,构成文本的特征向量;
    3. 两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度,是因为不同新闻的长度可能不同,用夹角表示不需要考虑长度(即向量的模长)的差异影响。

    自动分类

    1. 所有特征向量(N个)两两相关,将结果大于某一阈值的归为一类,共N1个小类。显然,N1<N;
    2. 将每个小类看做一个整体,计算其特征向量,每个小类之间求夹角,相关值大于阈值的归为一类,共N2类。其中,N2<N1;
    3. 重复上述步骤,直到所有相关值都小于阈值。停止操作,分类结束。 

    降低算法复杂度方法

    1. 保存每个向量的模值;
    2. 删除所有虚词。因为虚词不但不起作用,还有可能造成干扰。
    3. 计算时跳过由零元素的。 

    提高准确性方法

          采用特殊位置加权的办法,可以有效地提高算法效率。例如,标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因,你懂的!

  • 相关阅读:
    基于ModBus-TCP/IT 台达PLC 通讯协议解析
    TNS-12541: TNS: 无监听程序 解决方案
    一个很好的ping端口的工具
    上位机(开发)
    无名
    网站部署
    cordova 开发
    mono 开发
    调用 浏览器 插件
    MacBook 配置
  • 原文地址:https://www.cnblogs.com/connorzx/p/4170043.html
Copyright © 2011-2022 走看看