爬虫--总结

zoukankan html css js c++ java

爬虫--总结
1.接触过几种爬虫模块

　　urllib,requests

2.robots协议是什么？

　　requests模块没有使用硬性的语法对该协议进行生效

　　scrapy硬性的语法对该协议进行了生效

3、如何处理验证码：

　　云打码平台打码兔

4、掌握几种数据解析的方式

　　正则，xpath，bs4

5、如何爬取动态加载的页面数据

　　1.selenium

　　2.ajax，抓包工具，抓取异步发情的请求(url)

6.接触过那些反爬机制？如何处理？

　　robots协议=false、UA、封ip、验证码、动态数据爬取、数据加密、token---随机字符串

7.在scrapy中接触过几种爬中的类
提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。

方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。

　3.4 CrawlSpider整体爬取流程：

　　　　a)爬虫文件首先根据起始url，获取该url的网页内容

　　　　b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

　　　　c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

　　　　d)将解析数据封装到item中，然后提交给管道进行持久化存储
基于spider创建爬虫文件：

基于crwalSpider类的爬虫文件

　　Spider(父类)，CrwalSpider，RedisCrawlSpider , RedisSpider

8.如何实现分布式流程：scrapy-redis

　　再上面两种基础上建立然后进行修改

　　RedisCrawlSpider , RedisSpider

-------------------------------------------------------------------------------------------------------------------------
查看全文

相关阅读:
ASP.NET Core 中的管道机制
 常见的 HttpModule
IIS+Asp.Net Mvc必须知道的事（解决启动/重启/自动回收站点后第一次访问慢问题）
ASP.NET三剑客 HttpApplication HttpModule HttpHandler 解析
 Js国际化
 MethodImplOptions
Java守护线程普通线程的例子
 Java启动新线程的几种方式（Runnable、Callable、CompletableFuture）
Tomcat源码分析(3)-容器Container整体架构
 Tomcat源码分析(2)-连接器Connector整体架构

原文地址：https://www.cnblogs.com/foremostxl/p/10102988.html

1.接触过几种爬虫模块

2.robots协议是什么？

3、如何处理验证码：

4、掌握几种数据解析的方式

5、如何爬取动态加载的页面数据

6.接触过那些反爬机制？如何处理？

7.在scrapy中接触过几种爬中的类

8.如何实现分布式流程：scrapy-redis