垃圾网页分类
1. 基于链接方式
a)连接结构
b)网页排名
2. 基于内容方式
a)排队时间(rank-time)
b)查询相关(query-dependent)
3. 隐藏方式
a)内容隐藏
b)覆盖
c)重定向
垃圾网页特征
1.标题长度 —— 关键词堆砌
2.网页内容大量重复同一关键字
a)
TF/IDF算法
认为关键词在文档中的权重,正比于其在文档中出现的频率,反比与所有文档中出现该关键词的文档数。用于计算网页文本与目标关键词的相关度。
b) 网页压缩率
通过压缩网页,并计算得到压缩前后大小的比值
3.标签
a)
keywords
b)
description
4. 网页URL长度
5. 常用词出现率
6. 常用词使用率
7. 可视文本长度
8. 链接文本数量