zoukankan      html  css  js  c++  java
  • 垃圾网页检测的基本原理

     垃圾网页分类 

          1. 基于链接方式
        a)连接结构
        b)网页排名
      2. 基于内容方式
        a)排队时间(rank-time)
        b)查询相关(query-dependent)
      3. 隐藏方式
        a)内容隐藏
        b)覆盖
        c)重定向

    垃圾网页特征

    1.标题长度 —— 关键词堆砌
    2.网页内容大量重复同一关键字
      a)   TF/IDF算法
        认为关键词在文档中的权重,正比于其在文档中出现的频率,反比与所有文档中出现该关键词的文档数。用于计算网页文本与目标关键词的相关度。
      b)  网页压缩率
        通过压缩网页,并计算得到压缩前后大小的比值
    3.标签
      a)   keywords
      b)   description
    4.  网页URL长度
    5.  常用词出现率
    6.  常用词使用率
    7.  可视文本长度
    8.  链接文本数量

  • 相关阅读:
    UVA 254 Towers of Hanoi
    UVA 701 The Archeologists' Dilemma
    UVA 185 Roman Numerals
    UVA 10994 Simple Addition
    UVA 10570 Meeting with Aliens
    UVA 306 Cipher
    UVA 10160 Servicing Stations
    UVA 317 Hexagon
    UVA 10123 No Tipping
    UVA 696 How Many Knights
  • 原文地址:https://www.cnblogs.com/sweetyu/p/5085346.html
Copyright © 2011-2022 走看看