垃圾网页检测的基本原理 - 走看看

zoukankan html css js c++ java

垃圾网页检测的基本原理

垃圾网页分类

1. 基于链接方式
　　　　a）连接结构
　　　　b）网页排名
　　2. 基于内容方式
　　　　a）排队时间(rank-time)
　　　　b）查询相关(query-dependent)
　　3. 隐藏方式
　　　　a）内容隐藏
　　　　b）覆盖
　　　　c）重定向

垃圾网页特征

1.标题长度 —— 关键词堆砌
2.网页内容大量重复同一关键字
　　a)   TF/IDF算法
　　　　认为关键词在文档中的权重，正比于其在文档中出现的频率，反比与所有文档中出现该关键词的文档数。用于计算网页文本与目标关键词的相关度。
　　b) 网页压缩率
　　　　通过压缩网页，并计算得到压缩前后大小的比值
3.标签
　　a)   keywords
　　b)   description
4. 网页URL长度
5. 常用词出现率
6. 常用词使用率
7. 可视文本长度
8. 链接文本数量

查看全文

相关阅读:
sqlite 一些常用的句子
 SnackBar使用
 semaphore demo 并行 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Expanded, SingleChildScrollView, CustomScrollView, container, height, width
2个监听器+ dialog + replysubject + extends
Transparent PageRoute in Flutter for displaying a (semi-) transparent page
股票价格指数＋加权
 Dojo
iOS各版本图标尺寸汇总
 Xcode6 storyboard new push segue 后的视图控制器没有navigation item bug.

原文地址：https://www.cnblogs.com/sweetyu/p/5085346.html

最新文章
声音
 Flutter Image（图片）
深拷贝
 stream
asBroadcastStream
stack + positioned
mounted
配置APP的图标
 flutter apk 打包
 欢迎页

Copyright © 2011-2022 走看看