《数学之美》第14章余弦定理和新闻的分类 - 走看看

zoukankan html css js c++ java

《数学之美》第14章余弦定理和新闻的分类
转载请注明原地址：http://www.cnblogs.com/connorzx/p/4170043.html

基本思想
1. 建立一个字典向量，字典里包含这种语言的所有词组；
2. 统计各个词组的出现次数，填充到对应词组的位置，构成文本的特征向量；
3. 两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度，是因为不同新闻的长度可能不同，用夹角表示不需要考虑长度（即向量的模长）的差异影响。
自动分类
1. 所有特征向量（N个）两两相关，将结果大于某一阈值的归为一类，共N1个小类。显然，N1<N;
2. 将每个小类看做一个整体，计算其特征向量，每个小类之间求夹角，相关值大于阈值的归为一类，共N2类。其中，N2<N1;
3. 重复上述步骤，直到所有相关值都小于阈值。停止操作，分类结束。
降低算法复杂度方法
1. 保存每个向量的模值；
2. 删除所有虚词。因为虚词不但不起作用，还有可能造成干扰。
3. 计算时跳过由零元素的。
提高准确性方法

采用特殊位置加权的办法，可以有效地提高算法效率。例如，标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因，你懂的！
查看全文

相关阅读:
Python——文件操作，测验7: 文件和数据格式化 (第7周)——Python语言程序设计
 python——文件操作
 信息检索（1）——常用5种方法
 Python123——测验3：Python基本数据类型
 Python——绘图
 Python——网络爬虫，一个简单的通用代码框架
 Python——格式输出，基本数据
 Python123——测验1: Python基本语法元素 (第1周)程序题2总结
 Python——面向对象，类属性，静态方法，类方法
 Python——捕获异常

原文地址：https://www.cnblogs.com/connorzx/p/4170043.html

Copyright © 2011-2022 走看看