爬虫URL去重 - 走看看

zoukankan html css js c++ java

爬虫URL去重
这个要看你想抓取的网页数量是哪种规模的。
如果是千万以下用hash表， set，布隆过滤器基本可以解决，如果是海量的。。。。。。嗯我也没做过海量的，不过hash表之类的就别想了，内存根本不够，分割线下面是我的一个想法，欢迎大家讨论。
布隆过滤器，大概几十行代码就可以实现。可以节省很多内存（我自己写了一个没有太多优化，占用内存大概是hash存储的1/4甚至更小）。
-------------------分割--------------------

http://www.xxx.com/path/filename.html ------|---host----|---filename------|

假设网络上有一亿个page，对应了一亿个url，由于资源限制我不能直接存储所有的url，甚至hash之后存储都存不下，但是我可以发现，网络上总共只有1万个网站，平均每个网站有1万个page，换个方式。我只要维护两个hash表，一个用来记录我所有抓取过的host，一个用来记录正在抓取的网站的filename，这样只要两个hash表就可以对1亿个url去重了。然后你需要一个数据库，抓取到一个网页之后判断里面的链接，指向当前网站就继续抓，否则，这条url存到数据库里面，当前网站抓取结束，继续处理下一个网站。。。。
在爬虫中，会记录下已爬过的URL，然后每次有新的URL会和这个集合比较，看看是否存在。在集合很大的时候，存储这些URL会需要很大的存储空间，而且比对时遍历过去，需要一定时间。

针对这个问题，可以采用布隆过滤器，左程云在他的算法数据结构最优解一书中有讲到，我这里简单描述一下。

选取一个m长的bit数组，数组每一位占一个bit，即0或者1，再选择k个哈希函数，每个函数都能把url分散的映射到1～m的一个值上，将这个值对应到刚刚的数组里面，把对应位置置为1，每个URL经过个hash映射，在比较理想情况下，数组上会有k个位置设为1。之后没添加进来一个URL，到将其对应的k个位置设为1，这样随着加进来的url数量增多，数组上会有越来越多的1，当然还会有0。

比对时，将新的URL映射一下，比对这映射的k个位置是否都为1，不都为1则表示这个url之前没有遇到过，否则就是遇到过。

这个算法里面会存在一下误差，但是确定好m和k的数量后，准确率很高，而且减少了存储空间，结果还是比较优秀的，具体m，k及失误率的推导计算这里不细讲了，见左程云的讲解。

看看scrapy 文档的Duplicates filter这一章吧。
简单的方法，就是哈希一下url，把哈希值存到一个set() 里面，抓之前哈希url之后，去判断一下set里面有没有有着url值。
查看全文

相关阅读:
项目太多工作环境互相干扰？virtualenv 一招教你轻松解决。
安装的 Python 版本太多互相干扰？pyenv 建议了解一下。
Python 拓展之详解深拷贝和浅拷贝
 Python 操作 SQLite 数据库
 IQueryable接口与IEnumberable接口的区别
 Resharper的配置（习惯使用了VS的F6编译和F12(快速非resharper查询编译代码)转到定义的默认设置）【设置了好多次resharper的使用了，特此记下简单的思路】
程序人生，人生程序。(面向对象的奇葩理解)
SQL表连接查询(inner join、full join、left join、right join)
MYSQL中存储过程的创建，调用及语法
 mysql存储过程详解

原文地址：https://www.cnblogs.com/wangshuyi/p/6736953.html