爬虫技术 -- 基本学习（二）爬虫基本认知 - 走看看

zoukankan html css js c++ java

爬虫技术 -- 基本学习（二）爬虫基本认知
爬虫策略：

网页抓取策略分为三种：深度优先、广度优先和最佳优先。

爬虫的行为策略：

（1）选择策略：选择要下载的页面。

（2）重新访问策略：页面什么时候会更新。

（3）并行策略：通过分布式抓取获得更好效果。

爬虫的组成：

　　在网络爬虫的系统框架中，主要由控制器、解析器、资源库三个部分组成。
控制器：主要负责给多线程中的各个爬虫线程分配任务。

解析器：主要是下载网页，进行网页处理。主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉。爬虫的基本工作时由解析器完成。

资源库：用来存放下载到的网页资源，一般由大型数据库存储。
　 URL一般化：

　　URL一般化也称为URL标准化，主要是修正URL，来避免重复抓取某些资源。
查看全文

相关阅读:
Kubernetes对象之Pod
docker&k8s填坑记
 kubernetes安装过程中遇到问题及解决
 深入JVM-垃圾回收概念与算法
 深入JVM-常用Java虚拟机参数
 深入JVM-java虚拟机的基本结构
 从Paxos到ZooKeeper-三、ZooKeeper的典型应用场景
 从Paxos到ZooKeeper-二、ZooKeeper和Paxos
从Paxos到ZooKeeper-一、分布式架构
 java编程思想-java中的并发（四）

原文地址：https://www.cnblogs.com/lmei/p/3463366.html

Copyright © 2011-2022 走看看