zoukankan      html  css  js  c++  java
  • Rocchio算法

    其基本思想是使用训练集为每个类构造一个原型向量,构造方法如下:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量,定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界。给定一篇文档,如果这篇文档与原型向量的相似度比界大,则这篇文档属于这个类,否则这篇文档就不属于这个类。Rocchio算法的突出优点是容易实现,计算(训练和分类)特别简单,它通常用来实现衡量分类系统性能的基准系统,而实用的分类系统很少采用这种算法解决具体的分类问题。

    其基本思想不难解释,对于一个词集,和一个分类,总有某些词,这些词一旦出现属于这个分类的可能性就会增加,而另一些词一旦出现属于这个分类的可能性就会降低,那么累计这些正面的,和负面的影响因素,最后由文档分离出的词向量可以得到对于每个类的一个打分,打分越高属于该类的可能性就越大.

    对于某种二分类特别合适, A, ~A, 任给一个文档,判断属于分类A还是分类~A,可以认为A的特征项均给与正值,~A都给与负值,那么给定一个合理阈值,就很容易做出这种类型的分类.
  • 相关阅读:
    python读写excel利器:xlwings 从入门到精通
    认识--类 ( Class ) 面向对象技术
    python 平均值/MAX/MIN值 计算从入门到精通
    python读写word文档 -- python-docx从入门到精通
    【模板】KMP算法
    【模板】主席树
    C语言第一次博客作业
    C语言--第0次作业
    Chapter5:语句
    Chapter4:表达式
  • 原文地址:https://www.cnblogs.com/loveyakamoz/p/2055532.html
Copyright © 2011-2022 走看看