zoukankan html css js c++ java

scrapy框架

什么是scrapy框架：

scrapy是一个基于Twisted异步框架的爬虫框架,scrapy具有异步性，效率高。
scrapy是用于爬取结构化数据
适合构建大型爬虫应用。

scrapy安装配置
lxml, wheel, Twisted, pywin32, scrapy

项目的常见与运行

创建：

1. scrapy startproject 文件名
2.cd 文件名
3.scrapy genspider 目录名 域名

运行：

scrapy crawl 目录名
scrapy crawl 目录名 --nolog       加个--nolog取消日志 但不会提示报错吗

爬虫：

# 爬虫类
# scrapy.Spider爬虫类, 最牛逼的一个爬虫类
class ZetaotaigouSpider(scrapy.Spider):
    # name为爬虫名
    # name唯一的标识了爬虫, 运行爬虫的时候会用的到, 所以爬虫名必须有, 且不能重复
    # 有时候运行并不需要爬虫名, 但是爬虫名不可以删掉, 删掉了就不是爬虫类
    name = 'zetaotaigou'

    # allow: 允许, domain: 域名
    # allowed_domains限定爬虫爬取的范围的.
    # allowed_domains = ['baidu.com']

    # start_urls: 起始url
    # 项目一启动, 会自动的对start_urls中的url发起请求
    start_urls = ['http://www.kekenet.com/Article/15577/']

五大核心组件与数据流向

组件: 爬虫引擎调度器下载器管道

数据流向：

爬虫 --(1.请求) --> 引擎 -- (2.请求) --> 调度器 --(3.请求) -->引擎 -- (4.请求) -->下载器 -- (5.请求) -->服务器-- (6.响应) -->下载器 -- (7.响应) -->引擎 -- (8.响应) --> 爬虫 --(9.item) -->管道

scrapy框架中的数据解析

response.xpath("xpath表达式")

response.css("css选择器")

查看全文

相关阅读:
Python range 函数 Python零基础入门教程
 Python eval 与 exec 函数的区别 Python零基础入门教程
 Python callable 函数 Python零基础入门教程
 Python bytes 函数 Python零基础入门教程
 Python ord 函数 Python零基础入门教程
 Python len函数 Python零基础入门教程
 第十二课通过URL api拿到接送数据并做页面展示
 第十三课 axios请求数据
 网络编程学习路线计划
 erlang学习笔记本【不断更新】

原文地址：https://www.cnblogs.com/gaodenghan/p/13679600.html