Scrapy爬虫框架学习笔记 - 走看看

zoukankan html css js c++ java

Scrapy爬虫框架学习笔记
Scrapy运行流程大概如下：
1. 引擎从调度器中取出一个链接(URL)用于接下来的抓取
2. 引擎把URL封装成一个请求(Request)传给下载器
3. 下载器把资源下载下来，并封装成应答包(Response)
4. 爬虫解析Response
5. 解析出实体(Item),则交给实体管道进行进一步的处理
6. 解析出的是链接(URL),则把URL交给调度器等待抓取
文件说明：

scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)

items.py 设置数据存储模板，用于结构化数据，如：Django的Model

pipelines 数据处理行为，如：一般结构化的数据持久化

settings.py 配置文件，如：递归的层数、并发数，延迟下载等

spiders 爬虫目录，如：创建文件，编写爬虫规则

注意：一般创建爬虫文件时，以网站域名命名
查看全文

相关阅读:
2017年寒假作业（二）
2017年寒假作业（一）
JAVA类型转换
 两数之和（LeetCode）
编程汇总
 赌神（赛码网基础算法题）
个人作业——软件工程实践总结
 个人作业——软件产品案例分析
 交换队伍交接过程及个人心得
 软件工程结对作业第二次

原文地址：https://www.cnblogs.com/shanyingwufeng/p/6673130.html

Copyright © 2011-2022 走看看