zoukankan      html  css  js  c++  java
  • 垃圾网页检测的基本原理

     垃圾网页分类 

          1. 基于链接方式
        a)连接结构
        b)网页排名
      2. 基于内容方式
        a)排队时间(rank-time)
        b)查询相关(query-dependent)
      3. 隐藏方式
        a)内容隐藏
        b)覆盖
        c)重定向

    垃圾网页特征

    1.标题长度 —— 关键词堆砌
    2.网页内容大量重复同一关键字
      a)   TF/IDF算法
        认为关键词在文档中的权重,正比于其在文档中出现的频率,反比与所有文档中出现该关键词的文档数。用于计算网页文本与目标关键词的相关度。
      b)  网页压缩率
        通过压缩网页,并计算得到压缩前后大小的比值
    3.标签
      a)   keywords
      b)   description
    4.  网页URL长度
    5.  常用词出现率
    6.  常用词使用率
    7.  可视文本长度
    8.  链接文本数量

  • 相关阅读:
    predis操作
    mysql 笔记(转载)
    mysql 汉字根据首字母排序
    sql 优化
    update多条不同数据
    解决network is unreachable问题
    开启服务器端口
    数据库开启远程访问
    激活2021.2.1idea
    python向excel追加数据
  • 原文地址:https://www.cnblogs.com/sweetyu/p/5085346.html
Copyright © 2011-2022 走看看