4.0 爬虫 - 走看看

zoukankan html css js c++ java

4.0 爬虫

1.爬虫：
抓取某个网站或应用的内容，并提取有用的价值。

2.爬虫可划分为3种类型：
批量型爬虫：有比较明确的抓取范围和目标，当爬虫达到这个设定的目标后，即停止抓取过程。
增量型爬虫：保持不断的抓取，对于抓取到的网页，要定期更新。处于持续不断的抓取过程中，不是在抓取新网页，就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。
垂直型爬虫：关注特定主题内容或属于特定行业的网页。垂直型爬虫一个最大的特点和难点就是：如何识别网页内容是否属于指定行业或者主题。需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关，并尽量不去抓取无关页面，

3.优秀爬虫的特性
高性能：主要指爬虫下载网页的抓取速度，高效的数据结构对于爬虫的性能影响很大
可扩展性
健壮性：爬虫能够正确处理各种异常情况
友好性：一是保护网站的部分私密性，二是减少被抓取网站的网络负载

4.爬虫指标：

吞吐量，分辨能力，抓取的深度和广度。

5.

robots.txt

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

robots.txt文件应该放在网站根目录下。robots访问一个网站（比如http://www.abc.com）时，首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件，如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

非结构化的数据处理中：html文本需要解析一些常见的元素，提取一些关键的信息

查看全文

相关阅读:
Java实现蓝桥杯VIP 算法训练连接字符串
 大多云盘都挤兑在了企业级市场
 115能做到100个亿（2016年05月31日），2013营收两亿元
 Dropbox 有哪些鲜为人知的使用技巧？
Qt 添加外部库文件（四种方法）
百度全新的ARM架构服务器，一个2U机箱装6台，每台4个3T硬盘，每个机箱共72TB
EntityFramework中支持BulkInsert扩展
 基于A2DFramework的事件机制实现
 事件机制与消息机制的架构设计区别
 .net平台下socket异步通讯（代码实例）

原文地址：https://www.cnblogs.com/ericazy/p/6289831.html