zoukankan      html  css  js  c++  java
  • 语言统计学中的几个定律,可作为设计检索的参考

    30定律:出现频率最高的30个词占全文本总词数的30%
    如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%
     
    Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数
    freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N
    那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推
     
    heaps定律,在自然语料库中不重复term的个数和语料库数据量成指数关系
     
     
     
    因为是指数关系,可以知道下面几个特征
    1 文档数无限增大,不重复term的个数也不会趋于一个常数
    2 随着文档数的增加,不重复term的增长率会有所下降,增长率渐渐趋于平稳
     
     
    Benford law在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)
  • 相关阅读:
    JavaScript中循环的使用方法
    认识了解JavaScript
    div的对齐显示
    四宫格div
    使用div写一个计算机
    div基本操作
    CSS样式
    Electron的逆向
    Electron输出:Hello,World
    Electron的安装-Windows
  • 原文地址:https://www.cnblogs.com/hdflzh/p/4034622.html
Copyright © 2011-2022 走看看