网络爬虫讲解地址:http://blog.csdn.net/luojinping/article/details/6870898
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右
1.抓取技术的瓶颈:无法遍历所有的网页,有许多网页无法从其它网页的链接中找到
2.存储技术和处理技术的问题(容量和带宽)
3.效率。
网络爬虫只要策略
广度优先(层级抓取)
深度优先(单个抓取)
网络爬虫可能会遇到的问题
1.访问权限 2.扒与被扒的数据服务器负担 3.遵循robots.txt协议 4.内容帅选,跟踪(无意义的页面,图片,文件,广告,多媒体,公共频道等) 5.动态页面 6.更新周期 7.循环抓取,访问遗漏
主要架构
一个典型的网络蜘蛛工作的方式:查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推。
网络蜘蛛在搜索引擎整体结构中的位置如下图所示: 初始化时,网络蜘蛛一般指向一个URL ( Uniform ResourceLocator)池。在遍历Internet的过程中,按照深度优先或广度优先或其他启发式算法从URL池中取出若干URL进行处理,同时将未访问的 URL放入URL池中,这样处理直到URL池空为止。对Web文档的索引则根据文档的标题、首段落甚至整个页面内容进行,这取决于搜索服务的数据收集策略。