scrapy 原理，结构，基本命令，item，spider，selector简述 - 走看看

zoukankan html css js c++ java

scrapy 原理，结构，基本命令，item，spider，selector简述

原理，结构，基本命令，item，spider，selector简述

原理

（1）结构

（2）运行流程

实操

（1） scrapy命令：

注意先把python安装目录的scripts文件夹添加到环境变量

查看帮助

scrapy

scrapy <command> -h

创建项目

scrapy startproject 项目名

创建爬虫

scrapy genspider [-t template] <name> <domain>

运行爬虫

运行一个爬虫的基本命令：

scrapy crawl 爬虫名

-a 给spider的构造器传参数

-o表示写入文件，-t 表示以json格式输出

scrapy crawl test -o test.json -t json

查看可用爬虫

scrapy list

快捷爬取（不需要创建爬虫项目，爬取结果直接回送到命令行）

scrapy fetch <url>

（2）项目结构功能

（3）item.py定义数据model

（4）spiders文件夹中的爬虫文件

name爬虫名，唯一

allowed_domains域名

start_urls起始url

parse函数——处理爬取到的response的函数

基本格式：

parse函数使用selector的格式：

parse函数使用selector并通过生成器返回多个结果：

（5）selector

四种格式（即spider文件parse函数中response对象的四个可用方法）

response.xpath()

response.css()

response.extract()

response.re()

举例：response.xpath()使用

selector的嵌套

（6）保存爬取结果的方式之一：Feed Exports

查看全文

相关阅读:
有一群志同道合的程序员朋友是怎样的体验？
hdu1387 模拟队列
 hau 1870 愚人节的礼物（栈）
hdu1509 优先队列
 hdu1837 看病要排队（优先队列）
hdu 1237 简单计算器（栈处理）
hdu1022 模拟栈
 又一个错误的认知！
jmeter+ant+jenkins 接口自动化测试持续集成（送源码）
P1197 [JSOI2008]星球大战

原文地址：https://www.cnblogs.com/zealousness/p/8748643.html

Copyright © 2011-2022 走看看