zoukankan      html  css  js  c++  java
  • 语言统计学中的几个定律,可作为设计检索的参考

    30定律:出现频率最高的30个词占全文本总词数的30%
    如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%
     
    Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数
    freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N
    那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推
     
    heaps定律,在自然语料库中不重复term的个数和语料库数据量成指数关系
     
     
     
    因为是指数关系,可以知道下面几个特征
    1 文档数无限增大,不重复term的个数也不会趋于一个常数
    2 随着文档数的增加,不重复term的增长率会有所下降,增长率渐渐趋于平稳
     
     
    Benford law在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)
  • 相关阅读:
    PS的使用[未完待续]
    Navicat破解方法【很靠谱】
    some blogs
    Linux curl命令详解
    api_automation_mysql
    linux 笔记
    pytest 笔记
    sel+python 基础
    postman 断言
    homebrew note
  • 原文地址:https://www.cnblogs.com/hdflzh/p/4034622.html
Copyright © 2011-2022 走看看