6-19 - 走看看

zoukankan html css js c++ java

6-19

一个网络蜘蛛就是一种机器人，或者软件代理。大体上，它从一组要访问的URL链接开始，可以称这些URL为种子。爬虫访问这些链接，它辨认出这些页面的所有超链接，然后添加到这个URL列表，可以称作检索前沿。这些URL按照一定的策略反复访问。

主要内容

· 1 爬行策略

o 1.1 选择策略

§ 1.1.1 限定访问链接

§ 1.1.2 路径检索

§ 1.1.3 聚焦检索

§ 1.1.4 抓取深层的网页

§ 1.1.5 Web 3.0检索

o 1.2 重新访问策略

o 1.3 平衡礼貌策略

o 1.4 并行化策略

· 2 网络爬虫体系结构

o 2.1 URL规范化

· 3 爬虫身份识别

· 4 网络爬虫的例子

查看全文

相关阅读:
OVER子句
 处理字符数据排序规则(Collation)
时间管理小强升职记读书笔记
 SQLServer2005查找定位性能瓶颈和性能调优
 zz数据库查询性能优化
 SqlBulkCopy实现数据批量复制(ZZ)
SQLServer2005大数据量没有返回值不能应用索引的问题
 工作DNA读书笔记
 zz很有用的生活小窍门
 Excel单引号作用与清除方法总结

原文地址：https://www.cnblogs.com/coder-2017/p/9200611.html

Copyright © 2011-2022 走看看