一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复访问。
主要内容
· 1 爬行策略
o 1.1 选择策略
§ 1.1.1 限定访问链接
§ 1.1.2 路径检索
§ 1.1.3 聚焦检索
§ 1.1.4 抓取深层的网页
§ 1.1.5 Web 3.0检索
o 1.2 重新访问策略
o 1.3 平衡礼貌策略
o 1.4 并行化策略
· 2 网络爬虫体系结构
o 2.1 URL规范化
· 3 爬虫身份识别
· 4 网络爬虫的例子