爬虫去重策略： - 走看看

zoukankan html css js c++ java

爬虫去重策略：
爬虫去重策略：
1. 将访问过的url保存到数据库中。
  最简单的方式。即使数据库有缓存，但每次都从数据库中查询url，效率低下。
2. 将访问过的url保存到set中，只需要o(1)的代价就可以查询url
- 占用内存过高
- 对小型爬虫，假设存储100000000条url数据，每条数据50个字符，Python3.x采用Unicode编码，每个字符2byte，则占用内存100000050字符2byte/1024/1024/1024 = 9.3G
1. url经过md5等方法哈希后保存到set中
- 将字符缩短到固定的长度，并且不会重复
- scrapy采用的是这种方式
1. 使用bitmap方法，将访问过的url通过hash函数映射到某一位(bit)
- 缺点：冲突会非常高
- 同上，存储100000000条url数据，采用bitmap方法1条数据对应1bit，则理想情况下占用内存100000000/8bit/1024/1024/ = 11.9Mb，这里不考虑冲突。
1. 使用bloomfilter方法对bitmap进行改进，通过多重hash函数降低冲突
列表生成式——去重
```
>>> tag_list = ['x','y','z']
>>> tag_list = [element for element in tag_list if not element.strip().endswith('y')]
>>> tag_list
['x', 'z']
>>> tags = ','.join(tag_list)
>>> tags
'x,z'
>>>
```
查看全文

相关阅读:
1059 C语言竞赛
 1058 选择题
 1057 数零壹
 1056 组合数的和
 1055 集体照
 Mysql--分库分表
 Mysql--改表结构
 Mysql--开始阶段
 Mysql--常用语句
 Mysql--grant授权

原文地址：https://www.cnblogs.com/onefine/p/10499364.html

热门文章
URLSearchParams 出来url
Int32Array
html5标准
 tsconfig.json
解构
 1064 朋友数
 1063 计算谱半径
 1062 最简分数
 1061 判断题
 1060 爱丁顿数

Copyright © 2011-2022 走看看